北大数字人文中心举办智能文献学建设研讨会

2024年3月18日

/images/blog/blog-34/1.png

2024年3月10日上午,北京大学数字人文研究中心、中国古籍保护协会古籍智能开发与利用专业委员会联合举办了智能文献学建设研讨会

本次会议介绍了数字人文中心近年来建设的三大古籍智能平台,并邀请学者共同研讨快速演进的智能技术对古典文献学的教学和研究的挑战和机遇。

本次研讨会在北京大学举行,采用线上与线下相结合的方式,来自国内30余所古典文献研究领域重点高校近50位优秀中青年学者参与了研讨会。

北大数字人文中心主任王军教授在致欢迎词时阐明了本次会议的五个目标:一是介绍古籍智能整理与应用平台;二是探索利用古籍智能平台辅助研究和教学工作;三是探讨如何在数据开放的环境下,开发新的古典文献教材和课程;四是讨论智能时代综合性人才的培养问题;五是探究如何在智能信息环境下进行跨学科、跨领域和国际间交流合作。

# 平台介绍

会议介绍了三大古籍智能平台:“识典古籍”开放阅读与智能整理平台、“吾与点”知识图谱智能生成平台、古文献溯源分析平台。

#

“识典古籍”开放阅读平台目前已整理约3000种古籍,占儒释道三教典籍的一半。预计到2024年底,平台将覆盖儒释道三教的重要典籍,且计划到2025年引入更多资源。智能整理平台结合人工智能和社会力量,为古籍整理开拓了新方法与新途径。

“识典古籍”阅读平台具有方便学者阅读检索与研究、公益开放共享、页面设计优美、提供辅助阅读工具等优点。而整理平台运用OCR技术、自动标点、自动校勘、自动分段、自动翻译、命名实体识别等技术对古籍进行智能处理,并采用人机协作的方式,高效率地解决了传统古籍整理的痛点难点

#

“吾与点”知识图谱智能生成平台2.0支持项目和文档级别的数据管理,通过结合GPT-4等大模型,实现文本实体与关系的自动标注,以及知识图谱的自动生成和导出。

#

古文献溯源分析平台则包括词汇分析、句子分析和数据分析三个核心模块,利用先进的算法和大规模语料库,探索文献之间的深层次联系,为研究者提供精确的文献信息和分析结果。

# 自动讨论

在研讨会上,学者们就现有平台提出了多项需求和建议。学者们指出,与纸质出版物相比,古籍数字化技术的文字识别的准确性还有待进一步提升,自动分段和标点功能也有进步空间,彩色古籍图片的OCR处理也有诸多技术难题需要克服。

在字型显示方面,石刻文献中的古字需要转换为标准繁体字,以便更好地降低阅读难度,涉及到偏僻异体字对应于标准繁体字的字表问题。在平台功能上,建议增加个人资料库功能,还有解决海外地区注册访问、加载速度缓慢等问题。

在课程建设与人才培养方面,学者们认为,很有必要利用智能平台开设古籍智能整理实践课程、开放环境下的文献学课程和数字人文实践课程,让学生掌握智能古籍整理和分析的技术原理、操作方法和研究路径,为智能文献学和数字人文研究培养后备人才。

与会专家们表达出对智能文献课程开设和人才培养的强烈需求,讨论了平台定位和课程定位,以及如何将技术讲解加入到课程中。学者们表示,智能古籍整理技术的发展使古典文献学这个专业本身产生了危机感,如何培养下一代古典文献学的学生成为了必须思考的问题。

关于如何将智能平台与数字人文研究相结合,学者们认为,数字人文的工具和平台应该与计量史学相结合,平台建设应加强与古典文献学者的合作。古籍整理平台不仅适用于古典文献学研究,而且可以应用于编辑出版行业。

在当代已经整理出来的文献的基础上,利用智能文献研究工具对其进行深度分析和挖掘。学者们还认为,智能平台应该打破其学科性,面向所有学科和研究方向,开放使用

# 结语

北京大学数字人文中心从成立伊始,一直致力于在数字化、网络化、智能化的信息环境下推动中国古典文献的整理、研究与传播事业。

近年来,中心在面向古籍整理与研究的数字人文技术与实践方面取得了一系列成绩,从古籍整理、古籍研究、古籍传播等多方面进行布局,建设了一系列古籍智能化平台。

通过这些智能平台的开放访问和广泛应用,中心希望在智能环境下更好地为高校古典文献学的教学与研究提供服务,进一步推动古籍整理方法、经典阅读方式以及古典文献学的研究范式和人才培养模式的更新迭代

logo

© 2020-2024 北京大学数字人文研究中心

地址:北京市海淀区颐和园路 5 号北京大学方李邦琴楼

邮箱:gdhc@pku.edu.cn

微信公众号:数字人文开放实验室