“吾与点”智能数据平台

「吾与点」智能数据平台是由北京文点益度科技有限公司自主研发并运营的通用型智能数据平台。平台集成了多种先进的多模态深度学习模型,支持文本、图像等多种数据格式的智能化处理,涵盖知识图谱自动构建、智能表格抽取、大语言模型微调训练,以及古汉语自动句读和古汉语分词等多种专业任务。平台通过高效的人机协作机制与数据社区共享模式,帮助用户高质量地完成数据整理、知识抽取与模型优化任务,灵活满足数字人文研究、人工智能开发等不同领域的专业应用需求。
北京大学数字人文研究中心负责协调和组织领域专家,为平台建设提供专业指导意见,并提供平台数据社区中的部分高质量数据资源。其中,北京大学提供的相关古籍图文数据版权归北京大学所有。此外,北京大学还负责平台的学术宣传与推广活动。
# 主要功能
- 智能表格抽取:「吾与点」可从文本、图像等多种格式的原始材料中,自动识别并提取结构化的表格信息。例如,如果你有一页古籍上记录了官员的任职时间和职位,系统可以把这些非结构化的信息,变成一张机器可读的表格,包括“姓名”、“职位”、“时间”等字段。
- 知识图谱生成:「吾与点」可自动从文本中提取出“实体”(如人物、地点、事件等)和它们之间的“关系”(如“某人-担任-某职”)并组织成网状结构。可以把它理解为一种“图谱”或“关系网”,其中每个节点代表一个知识点,节点之间的连线则表示知识点之间的逻辑关系。这对于理解复杂历史关系、构建智能查询系统具有重要价值。
- 智能问答构建:「吾与点」可利用已有的结构化数据或知识图谱,自动构建专业问答系统。此外,平台还支持对已有大模型进行微调,以适应特定领域的问答任务。
- 数据灵活共享:「吾与点」提供灵活的数据管理模式,用户可以根据需求自由选择数据的共享范围。用户既可以创建和管理私有项目,确保数据的安全性和私密性;也可以邀请团队成员协作,共同整理和完善数据;还可以选择将处理后的高质量数据集发布到公共数据社区中,与更广泛的用户群体共享交流,实现数据资源的开放共享与协同创新。
# 特色
- 多模态数据处理:「吾与点」不仅能处理文本数据,还能处理图像数据。用户上传扫描版古籍、历史档案、手写文献等复杂的原始材料后,平台可从图像中自动提取有价值的信息,并将它们转换为电子表格、知识图谱等结构化数据。
- 多格式数据输出:「吾与点」提供灵活多样的数据输出格式,以满足研究者、开发者、工程师等不同用户群体在多种应用场景下的需求。例如: (1)纯文本格式:便于用户直接阅读或进一步编辑; (2)结构化数据格式:如JSON、CSV等,便于用户进行程序化分析和二次开发; (3)RDF格式:用于构建语义网和知识图谱,支持语义检索与知识推理; (4)序列标注格式:适用于命名实体识别(NER)、词性标注、分词等多种序列标注类机器学习任务。
- 高度定制化:「吾与点」不仅提供丰富的预设功能,还允许用户根据自身需求灵活定制数据处理流程。用户可以自主定义信息抽取类型、数据组织方式、实体类型、关系类型等任务参数,并自由选择适合自身任务的AI模型。这使平台不仅适用于标准化项目,也能满足用户的个性化研究需求。