“吾与点”古籍自动整理系统上线公测

2021年3月22日

/images/blog/blog-18/cover.png

走出疫情的阴霾,我们迎来了万物复苏,春意盎然的季节。再过几周,就是孔夫子和他的弟子们出行春游的日子啦!“暮春者,春服既成,冠者五六人,童子六七人,浴乎沂,风乎舞雩,咏而归。”趁着大家还关在学堂里读书用功的时候,我们推出“吾与点”古籍自动整理系统,欢迎大家试用!

logo1

http://wyd.pkudh.xyz (opens new window)

“吾与点”古籍自动整理平台是由北京大学数字人文研究中心与中文在线集团元引公司联合开发的智能化古籍整理平台。该平台将提供图片文字识别、自动句读、命名实体识别三项基本古籍整理功能。目前提供公开测试的是自动句读功能,自动标点、图片文字识别、命名实体识别功能将会陆续开放测试。

北京大学数字人文研究中心致力于将大数据、人工智能等前沿技术应用于人文语料、特别是数字化古籍文本的自动处理,为人文研究提供新工具和新方法。2020 年 7 月,北京大学数字人文研究中心启动了 “智能环境下中华典籍的开发与利用” 基础研究课题,包括:古籍文本的自动句读与自动标点,命名实体自动识别,历代古典目录集成、儒家学术史知识图谱构建、历史人物年谱可视化等多个系统的并行研发。

logo2

“吾与点”自动句读系统是基于深度学习的预训练语言模型实现的,利用互联网上公开的古籍文本库训练得到。系统能够处理各类古籍文本,包括经史子集四部典籍以及佛藏,道藏,通俗小说等。无论是先秦典籍还是明清小说,目前模型在混合类文本测试集上的句读准确率(F1 值)超过 94%,达到了实用标准。“吾与点”自动句读系统具有极高的处理速率和响应速率,经测试,API 接口处理 5 万字耗时 10 秒左右。

# 功能介绍

用户可以直接将要处理古文本黏贴到左侧的待处理文本框中,也可以直接上传待处理的文本文件(txt 格式)。处理结果直接显示在右侧的结果页面,也可以将处理结果下载到本地保存。目前测试版限定粘贴的文本字数不超过 8000 字,上传文件大小不超过 2 万字。

文本上传完成后,点击“运行”按钮,几秒钟即可看见自动处理的结果。若有多个用户同时使用系统,系统会将当前用户提交的任务放入待处理队列中。用户可对自动句读的结果进行修改,修改之后的句读标识为红色。

# 下一步目标

古籍的阅读与理解,句读是第一步。随后的关键是辨识人名、地名、年号、职官等专有名词。古籍中的专有名词识别,涉及到数千年中国历史的时间、地理、人物、政治制度等基础知识,即便是浸淫古史数十年的专家也没有全然的把握。实现命名实体自动识别的最大困难在于以往的古籍整理工作没有分别标注人名、地名、职官名的惯例,不存在大规模的标注语料可供机器学习。所以,命名实体的自动识别必然要将机器算力与人的脑力结合在一起才能实现。

北京大学数字人文中心的核心目标是将大数据、人工智能等前沿技术应用在古籍文献资源上,极大提升古籍整理和古籍数字化的效能,为文史专家、古籍整理人士、古籍爱好者和普通网民提供利用古籍资源的便利工具。我们诚邀古籍领域的专家、商家与同道携手合作,共同促进中华典籍资源在互联网时代的开发、传播与智能化应用。

# 问题反馈

在试用系统时遇到的各类问题,欢迎您及时地反馈给我们。您反馈的问题将有助于我们进一步完善系统,为您提供更好的服务。

还等什么,快来体验吧:http://wyd.pkudh.xyz (opens new window) 诚挚地感谢研发团队的努力和付出!

模型研发: 唐雪梅、严承希、陈雨航、岳铁骐
界面设计: 梁利敏、汪博涵、李文琦、孙蕴珂
前端开发: 黄恒博
后端开发: 孟令勇
Logo 设计: 李若屹

扫码添加管理员,加入用户交流群

微信号:valdisw98

logo

© 2020-2024 北京大学数字人文研究中心

地址:北京市海淀区颐和园路 5 号北京大学方李邦琴楼

邮箱:gdhc@pku.edu.cn

微信公众号:数字人文开放实验室