自动编目的语料库方法——从书目数据中提取领域知识和标引知识



    “自动编目的语料库方法——从书目数据中提取领域知识和标引知识”是得到“OCLC/ALISE图书馆情报学研究基金”资助的国际项目。OCLC(Online Computer Library Center)是图书情报领域著名的、以促进图书馆信息服务和研究为宗旨的、非营利性的国际组织,成员遍布84个国家。ALISE(Association For Library & Information Science Education)成立于1915年,是美国图书馆学情报学教育的最权威的学术机构。OCLC/ALISE联合设立的“图书馆学情报学研究基金”(Library & Information Science Research Grant Program)每年在全球范围内资助图书馆学情报学领域的前沿科学研究。由于每年只资助三个研究项目,竞争非常激烈,因此被图书馆学情报学领域的同行视为一项荣誉。北京大学信息管理系王军副教授所带领的课题小组这次赢得OCLC/ALISE的项目,是这项基金自1985年设立至今,首次资助北美以外的国家/地区的学者。

    本课题的研究目标是从书目数据中提取领域知识和标引知识,将它们和图书馆的知识组织工具(包括分类法和主题词表)集成起来,构建一个标引知识库。在此基础上,实现自动分类和自动标引。也就是说,应用计算语言学基于语料库的统计方法,将书目数据作为训练数据集,构造分类器和标引器。书目数据是图书馆最丰富的数字化资源,有着数十年的长期积累。这些书目资源覆盖所有的学科领域,其中包含有丰富的领域知识。更重要的是,其中包含图书馆员在编目的过程中投入的宝贵的分类/标引知识,这主要体现为书目数据中的关键词和分类号/主题词的对应关系。从海量的、全面的书目数据集中挖掘这些知识是本课题研究的核心内容。如果课题的研究目标能够实现,将大大降低图书馆编目工作的劳动量,将编目工作的重点转移到编目知识库的维护上来。进一步,将这一方法应用于网络环境下,解决信息资源的元数据自动生成、自动标引、自动分类和自动组织。还可将上述构造的网络知识组织工具作为网络服务构件向搜索引擎、门户站点等应用提供关于分类组织结构、词汇控制等知识服务。为实现整个Web向数字图书馆的转变,贡献图书馆情报学领域的贡献。

    OCLC向本课题提供可达二百万的书目数据和“杜威十进制分类法Web版”(WebDewey),美国国会图书馆提供“国会图书馆主题词表”(LCSH)。课题的下一步目标将寻求国内相关单位的支持,以同步展开中文资源的研究和实验。

 


  主页 | 科研项目 | 科研成果 | 小组成员 | 相关资源 | 学术论坛 | 教学课程 | TOP♂  
Copyright 2003 OPAQUE. All Rights Reserved.