Gazetteer Correlation:电子地名表关联分析


1. 背景简介
2. 研究内容
3. 实验说明
4. 演示工具
5. 应用前景

1.背景简介
    2004年1月到9月期间,我们与美国加州大学圣巴巴拉分校的ADL数字图书馆合作,共同进行了“从ADL地名库中发现通用词汇以丰富地名词表”国际项目。(更多信息可以浏览英文网站:http://www.alexandria.ucsb.edu/gazetteer/

    Alexandria Digital Library(ADL),是美国加州大学圣巴巴拉分校(UCSB)建立的亚历山大数字图书馆。它是美国最大的、持续时间最长的数字图书馆研究项目之一,自1995年起受到了美国自然科学基金会的数字图书馆创始项目的两期资助,已经发展成为分布式的、数字化的地理信息参考服务。

    “Gazetteer”,指地名词典,也即:地理名称的列表,以及它们的地理定位和描述信息。作为ADL研究的一个子项——ADL Gazetteer,是一个包含有近六百万个全球的地名或历史地名、及与其相关的地理空间内容的地理信息数据库。它最主要的贡献是,整合并创建了描述这些地名及历史地名的受控主题词表——《地理主题词表》(Feature Type Thesaurus,FTT词表)。FTT是严格按照等级结构组织排列的、规范的主题词表,收录了210个正式叙词,分属六个大类,其领域囊括了整个数字地名库,能对每一个地名都给出了标引主题词。

2.研究内容
    Gazetteer同现分析,目的是:
  • 1) 从地名中发现有检索价值的新通用词汇,并分析它们和标引主题词间的同现关系,据此在等级层次结构上对主题词表进行词汇的丰富与扩充。
  • 2) 进而利用丰富后的主题词表,建立新地名与正式主题词之间的关系,实现对地名的自动标引。


  •     举例来说,从地名“Olympia Water Supply”,可以得到通用词“Water Supply”(淡水贮藏)。
        然后,依据FTT词表的等级结构,把“Water Supply”映射到与之联系最紧密的、权重最大的主题词“Hydrographic Structures”(水文建筑结构)上。进一步,可以将“Water Supply”作为“Hydrographic Structures”的近义词使用。在遇到新的地名“Condon Water Supply Pump”时,发现其中有“Water Supply”一词,于是自动使用“Hydrographic Structures”来标引它。

    3.实验说明
        实验使用的ADL Gazetteer数据库总计有5947661个地名,包括了2141805个不同的单词。在初始阈值=100的条件下,抽取出8805个不同的词或词组。设定关联强度=0.9,其中的1036个新词可以映射到FTT的主题词上。

        在这1036个确定同现关系的词中,有407个词映射到“Populated Places”(人口聚居区)上,占1/3强。另有257个词不能确定明确意义。我们对剩下的372个词做了评估。在被评估的部分中,同现分析正确率达到了82.7%。

    4.演示工具
        我们开发了一个工具来反映同现分析的数据。在它左边显示的是抽取出来的通用词,右边是FTT、NGA、USGS三个词表中与某个通用词相关的所有主题词。研究者可以通过调整初始阈值和模糊匹配,来检索通用词。

    进入:/gazetteer/analysis/

        另外一个工具提供了对FTT词表的丰富。它的左边是现有FTT词表,右边是对相应主题词节点补充的新词。

    进入:/gazetteer/enrich/

        现在这两个分析结果都可以通过网页方式来浏览。

    5.应用前景
        此类同现分析有多种用途:
  • 可以在标引新地名时,建议可能的主题词,减轻标引员的智力负担;
  • 可作为前端查询界面中检索词汇提示与自动扩检等服务的实现途径;
  • 用新发现的通用词丰富FTT词表,进而为自动标引提供可能的基础;
  • 由于ADL Gazetteer中除FTT词表外,还同时使用了NGA、USGS词表,以地名为中介通过同现分析,将三者相互映射也是值得尝试的。
  • 
      主页 | 科研项目 | 科研成果 | 小组成员 | 相关资源 | 学术论坛 | 教学课程 | TOP♂  
    Copyright 2003 OPAQUE. All Rights Reserved.