Nature通讯 | 用深度学习追溯中华思想演化
2024年3月14日
在北京大学人工智能研究院的支持下,北京大学数字人文研究中心( https://pkudh.org (opens new window) )量化文化分析的研究论文又一次登上 Nature 旗下唯一人文社科期刊 Humanities and Social Sciences Communications。在不到一年的时间内,数字人文中心在该刊上发表了两篇研究论文:
- Evol project: a comprehensive online platform for quantitative analysis of ancient literature
- Disentangling the cultural evolution of ancient China: a digital humanities perspective
论文提升了北大数字人文研究的国际影响力,展示了人工智能研究院以通用人工智能引领跨学科合作、推进新文科建设的“AI+X”发展战略初见成效。
本文对两篇论文的工作进行了详细介绍。
# Evol Project
Evol Project 一文介绍了数字人文中心跨学科团队开发的古文献溯源分析平台原型系统,访问网址: http://evolution.pkudh.xyz/ (opens new window) 。在该系统的基础上,数字人文研究中心和王选计算所合作开发了应用级的古文献溯源分析系统,访问地址是:https://ca.pkudh.net/ (opens new window)。欢迎体验!
该平台应用深度学习技术对大规模古典文献集进行定量文化分析,追溯中华思想文化观念的源流及其在后世的演化轨迹,在词汇、句子和文献三个层面提供数据驱动的人文研究组合工具。该平台为人文学者应用定量分析方法从事思想史和文化史研究提供了便利。下图分别展示了与《老子》具有强互文关联的书籍网络、《老子》各章节在其它著作中的复用分布,以及若干例句在这些互文关联著作中的具体出现情况,借此观察唐以前的典籍文献中所蕴含的思想观念在后世文献中的遞相传播和演化。
#
#
为此,平台汇集了目前能收集到的唐代及唐以前的所有数字化典籍,加上二十四史和若干精选典籍和文总集,共计201种30880篇,5千余万字符,内容涉及哲学、历史、政治、文学、宗教等多个领域。将二十四史包括进来是为了分析古代思想史如何通过史籍传播。平台除了常见的浏览、检索和频率统计等基础功能外,特色在于提供了文本重用、词共现、历时性n-gram等定量文化分析功能,配备了多样化的可视化呈现。用户通过简单的点击操作,就能观察千余年的思想演化轨迹。
下图统计了历代史料中与游牧民族名称共现的负面情绪词汇的频次变化。从图中可以看出,二十四史料文字中对游牧民族的负面情绪整体上是逐渐降低的,这印证了民族志研究的主流观点:从历史发展的大尺度上看,中华各民族融合是大趋势。
# Disentangling Cultural Evolution
Disentangling Cultural Evolution论文描述了实现上述文化分析的算法原理。我们应用深度神经网络在上述数据集上遍历计算数千万的相似互文对,随后使用一个层次框架将相关文献组织起来构建文献互文网络。基于该网络的节点特征,计算任意两部文献之间的标准化互文分数作为检验各类文化现象的依据。论文首先计算若干通识性的文化现象互文特征值,以验证互文分析方法的有效性,例如:
- 宋明理学文献与先秦儒家典籍存在显著的互文联系;
- 《参同契》、《文始真经》、《阮籍集》、《嵇康集》这些道教与先秦道家文献及魏晋玄学类文献存在显著的互文联系;
#
随后,论文应用互文指标分析若干在传统思想史领域有争议性的问题,发现:
- 《吕氏春秋》在先秦学术流派维度上有相对均匀的互文分布,但略偏向道家;
- 《陶渊明集》中有作者争议的篇章与其他部分确实存在明显的互文分布偏差。
下图展示了《陶渊明集》与儒、道、墨、法、兵五家学派的互文联系强弱。Collection 1 代表陶渊明集中有作者争议的《五孝传》和《四八目》,Collection 2代表其余文本。
#
论文以二十四史和历代文总集作为历时性数据的观察对象,计算先秦诸子典籍与各时代的互文强度,以观察两千年间诸子百家的兴衰更替,将一系列历史事件的影响予以定量测度和可视呈现。在下图中,可以清晰地观察到暴秦一朝重用法家,两汉罢黜百家独尊儒术,以及道家玄学在两晋的复兴等。
# 研究过程与作者信息
这项研究成果的取得可谓跨学科合作的典范。研究选题由北京大学数字人文研究中心主任、信息管理系王军教授提出和规划。他敏锐地意识到数智化时代传统人文研究面临研究范式转型,并将数据驱动的文化分析作为实验室的主攻方向。他与外国语学院苏祺副教授、原哲学系教师现人工智能研究院杨浩副研究员组成跨学科研究团队,起初安排硕士生李佳纯同学在2020年以《论语》思想复用为题展开探索,并构建了“论语复用可视化平台”(https://reuse.pkudh.org (opens new window))。
2021年秋季,来自交叉科学研究院的段思宇同学在苏祺老师推荐下进入实验室读博,她对文化分析方向表现出极大热忱。在苏祺老师的指导下她首先钻研古代汉语互文分析算法,于2022年春季申请了算法专利。同时与李佳纯同学合作,共同设计溯源平台原型系统。在苏祺老师的安排下,计算语言学研究所的罗睿轩和毕潇晗同学承担了繁重的系统开发任务。在杨浩老师推荐的语料库构建范围和分析方向上,思宇以极大的热情反复实验,全力补充古典文献和古代历史的基础知识,不计工本地清洗数据。初稿写成后经苏祺老师反复打磨,2022年底投稿后得到积极的评审意见,大修后最终于2023年6月见刊。论文的发表鼓舞了整个实验室的研究热情,也坚定了思宇在这一方向上继续钻研的信心,继续埋头撰写介绍平台构建的论文。
在论文撰写过程中,付炳豪同学默默地配合思宇修补原型系统的漏洞,满足论文评审对系统的各项要求。2024年2月11日,由思宇主笔撰写的论文于再次被 Humanities and Social Sciences Communications 接收。
认识到文化平台作为数字人文基础设施的价值,2022年底,数字人文中心与王选所高良才老师的开发团队携手,重新设计与开发应用级别的文化分析平台。由王凤翔同学设计原型系统草图,付炳豪同学负责数据加工,夏松江工程师负责产品架构,龙燔等工程师负责研发。新系统( https://ca.pkudh.org (opens new window) )于2023年3月在哈佛大学主办的数字人文国际会议上亮相,造成了轰动效应。