关于信息类参考文献格式范文 跟基于语义的多语言信息组织模式类论文写作资料范文

本论文可用于信息论文范文参考下载,信息相关论文写作参考研究。

基于语义的多语言信息组织模式

李月婷,司莉

摘 要 互联网信息多语言化已成趋势,跨语言信息检索成为研究热点,对多语言信息进行有序的组织是实现跨语言信息检索的基础.文章分析微观、中观、宏观三种多语言信息组织模式的层次结构,并对多语言语义词典、多语言叙词表等五种实例进行分析,总结这三种模式存在的问题并提出改进建议.

关键词 多语言信息组 织信息组织模式 多语言语义词典 多语言叙词表 多语言数字图书馆

引用本文格式李月婷,司莉.基于语义的多语言信息组织模式研究cn.图书馆论坛,2016 (2):13-19.

本文系教育部人文社会科学重点研究基地重大项目“基于内容的多语言信息组织与检索研究”(项目编号:14D870001)研究成果之一

O引言

随着网络用户分布的国际化与网络信息的多语种化,信息资源多语言的特征和用户所掌握的语言的差异性与有限性导致自由获取信息愈加困难,与此同时,不同语种信息间的交流与传播越来越频繁,如何突破语言壁垒,实现无障碍交流,成为亟待解决的问题.目前还缺乏对多语言资源内容的深度揭示以及对关联关系的深度挖掘与组织,资源的加工、组织和管理仍然停留在较大粒度的文献、文件或网页层面,难以满足用户基于内容(语义)的信息需求.需要将不同语言的信息资源中具有一定意义和价值的概念、图表和数据等较小粒度的知识单元挖掘出来,采用一定的方法和手段加以科学组织,帮助用户从多样的语言与粗粒度的信息中发现、获取和利用相关信息资源.为了消除信息资源利用中的语言障碍问题,多语言信息组织与检索技术应运而生.

目前国内外对多语言信息组织的研究主要集中在多语言叙词表的构建、WordNet的应用与本地化,以及知识组织系统的语义互操作项目等方面,尚未有文献围绕多语言信息组织模式这一主题展开研究.笔者依据多语言信息组织的对象总结分析多语言信息组织的3种模式.

1基于语义的多语言信息组织模式分析

多语言信息组织的对象主要涉及多语言网络资源.黄如花根据信息组织的对象,将网络信息组织模式划分为4个层次:第一个层次为微观的组织模式,主要表现为文件、超媒体、数据库与网站等方式,第二个层次为中观的组织模式,主要包括编目与学科信息门户的方式:第三个层次为宏观的组织模式,主要指网络资源指南与搜索引擎,第四个层次为分布式组织模式,代表形式为数字图书馆.笔者参考其划分思路,将多语言信息组织模式划分为3种模式.

1.1以词语为组织对象的微观组织模式

1 1 1 微观组织模式的层次结构

微观组织模式的组织对象是多语言词语,其代表形式是多语言语义词典与多语言叙词表.微观组织模式的层次结构如图1所示.

1 1 2微观组织模式的调查

本文讨论的多语言语义词典均为基于Word-net的系列词典.笔者利用Global WordNetAssociation(GWA)平台,对多语言语义词典的发展现状进行调查,结果见表1.

另外,笔者于201 5年4月12-13日利用Taxonomy Warehouseia词表注册网站,调查多语言叙词表发展情况.调查结果有41部多语言叙词表,表明多语言化已成为叙词表发展的趋势之一.涉及20种语言以上的叙词表分别为EuroVoc叙词表与AGROVOC叙词表.

多语言叙词表在学科分类信息组织和检索中发挥了重要作用.在调查的41个多语言叙词表中,EuroVoc、美国国家农业叙词表(NALAgricultural Thesaurus)和加拿大统计叙词表(Statistics Canada Thesaurus)等可以检索所有学科和主题的术语,剩余多语言叙词表涉及众多学科和主题,如农业、医药、环境、文化遗产.多语言叙词表的专业性较强,对信息有序化组织起到了重要的作用.EMMNewsExplorer项目采集包含34种语言的新闻文本,利用EuroVoc进行跨语言主题提取和文本聚类,在此基础之上开发了多语言新闻摘 要系统.

1 2以特定学科领域信息为组织对象的中观组织模式

1 2 1 中观组织模式的层次结构

中观组织模式主要是对特定学科领域信息的组织.其组织对象涉及某个或多个学科或主题的相关多种语言信息,信息类型包括电子图书、电子期刊、数据库等.其信息组织的优点在于收集与组织的多语言资源与所限定的学科或主题的相关性强,覆盖面全,囊括本学科或主题所有资源.这一组织模式的代表形式是多语言学科信息门户.中观组织模式的层次结构如图2所示.

1 2 2中观组织模式的调查

笔者于2015年4月16-20日对多学科信息门户网站进行调查,详细情况如表2所示.

1 3以复杂信息为组织对象的宏观组织模式

1 3 1 宏观组织模式的层次结构

宏观组织模式是对复杂的数字化多语言信息的组织.其组织对象是海量信息,几乎囊括了所有网络信息,可以限定只收集某主题或某地区的多语言信息,也可以收集所有领域多语言信息.其组织信息的类型较中观组织模式的组织对象更多种多样,从常见的新闻、网站、论文、报告、图片等类型,到手稿、文物、口述史等类型.这种模式的代表形式是多语言搜索引擎和多语言数字图书馆.宏观组织模式的层次结构见图3.

1 3 2宏观组织模式的调查

(1)关于多语言搜索引擎的调查.有研究者分别对多语言搜索引擎做过不同的调查和分析…,笔者通过使用,总结出目前提供多语言服务的搜索引擎有9个,分别是Yahoo、Ask、Google、Bing、 Excite、 lxOuick、 IBoogie、 Exalead、SenseBot.为调查9个搜索引擎跨语言检索的实际效果,笔者设置了两种方式进行检索.选用汉语、日语和法语词汇作为检索词,检索词为“国家图书馆”,检索时间为2015年3月6日.在“检索语言与限定语言相同”设定条件下,9个搜索引擎都支持用法语“BibliothequeNationale”一词进行检索.在“检索语言与限定语言不同”的设定中,选用法语“BibliothequeNationale”、汉语“国家图书馆”和日语“国立因害馆”进行检索,检索结果显示,无论输入哪个检索词,IBoogie都无法进行检索;Excite只能利用英语检索.Ask、lxOuick和Exalead虽然可限定语言,但检索结果语言与检索语言相同.所以仅剩下Yahoo、Google、Bing和SenseBot等4个可以初步实现跨语言检索的多语言搜索引擎.在以上4种搜索引擎中进行试验,首先设定检索语言与限定语言相同条件,将限定语言设置为法语,检索词为“BibliothequeNationale”.4个搜索引擎得到的结果相关度都较强,均是法国国家图书馆的或含有“BibliothequeNationale”的法语网页和少量英语或其他语言的国家图书馆网页.之后将限定语言设定为法语或日语,即输入的检索语言与限定语言不同,Yahoo、Google和Bing检索结果中既有检索语言的相关页面,也有限定语言的相关页面;SenseBot所得到的结果页面与限定语言相同,可以说这4个搜索引擎实现了初步的跨语言检索.

(2)关于多语言数字图书馆的调查.根据研究者对多语言数字图书馆的简单介绍及笔者的实际使用,笔者选取5个提供多语言服务的数字图书馆作为调查对象,其多语言信息资源如表3所示,调查时间是2015年4月21-22日.

通过实际使用,笔者发现仅有Europeana初步实现跨语言信息检索.Europeana通过元数据翻译来实现多语言结果显示,通过元数据翻译的方法描述多语言馆藏资源,无需翻译整个文献资源,极大地提高了检索系统的效率.采集各种资源的元数据信息,将其翻译为各种语言的元数据,在用户进行检索时,系统只需搜寻所有语言的元数据即可返回检索结果.

1.4三种多语言信息组织模式的总结

1 4 1 三种模式的多语言信息组织侧重点不同

在多语言信息组织的过程中,三种模式各有侧重点,微观组织模式注重组织词语间的语义关系;多语言学科信息门户和多语言数字图书馆侧重对多语言信息的收集与整合,强调收集多语言信息资源的覆盖面与高质量,这也与其分布式组织特点相呼应.而多语言搜索引擎则倾向于对跨语言信息检索技术的研究.

在相同模式中不同的信息组织工具也存在不同,多语言语义词典组织多种语言自然语言词汇,而多语言叙词表为受控语言,并将这些受控词汇作为检索标识,规范性较强,多语言搜索引擎注重收集海量的信息,但标引和描述工作都是由机器完成,由于缺乏规范与标准,因此检索效率得不到保障,比如常出现死链接的现象,而多语言数字图书馆注重收集大量信息资源.大部分标引和描述工作,即使是元数据翻译工作都是由人工完成,遵循统一的元数据标准,资源格式具有一致性,因此资源的质量都比较高.

1 4 2合作共建是多语言信息组织工具构建的

主要方式

以上调查发现多语言信息组织工具建设通常都是采用合作建设的方式.3个多语言语义词典是由高校之间或研究机构之间共同合作研发,多语言叙词表的互操作项目通常都是由多个国家的研究机构共同合作.除多语言搜索引擎通常是由科技企业完成研发外,多语言学科信息门户和多语言数字图书馆为保证多语言信息资源的来源,需要世界多国大量研究机构、图书馆、档案馆与博物馆等机构的共同合作建设.此外,在完成翻译工作、信息维护等工作时,还需要多国志愿者的参与.多语言信息组织因其特殊的组织对象——多语言信息,本来就需要具有不同文化和语言背景的组织人员或研发人员,实现共建共享是促进多语言文化交流的重要方式和必行之路.

1 4 3翻译和映射是语义资源建设的主要方法

对于多语言信息组织,翻译法是主要方法.常用于对词语或术语的翻译,可以直接从源语言术语翻译为目标语言术语,从而产生两种可对照的不同语种的具有相同结构和含义的知识组织系统.也可以设定一个核心语言,再将其他语言均翻译为核心语言的词表或词典.词典词语的翻译限制较小.对术语翻译来说,为保证翻译后目标语言术语与源语言术语在语义上的一致性,在翻译过程中必须要遵循以下要求要基于概念进行翻译,目标语言选词要具有一致性,即实现目标语言术语与源语言术语一对一,要基于层次结构进行翻译,即要考虑到术语在源语言中的上下位关系和平行概念的关系.

映射是词表间语义互操作常用方法,词表映射是构建语义数据层的主要方法,以Europeana词表的映射过程为例,Europeana先选用人名表VIAF、地名表Geonames和WordNet作为轴心表,然后把其他词表到轴心表间进行对齐和映射.此外,Europeana还选用MACS项目已建成的映射关系.在进行映射时,Europeana借助Amalgame对齐工具,首先把词表转换成SKOS/RDF存储格式,通过主题词匹配、基于词表微观结构的匹配和基于实例的匹配三种方式实现词表自动对齐.当对齐后如果出现目标词表和源词表概念上形成“多对一”情况时,则需要借助人工分析词语的结构层次关系并选择唯一值,以完成该词语的映射.概念映射的工作量非常大,而且为实现语义层面上的映射,还需要借助外部资料,如语义词典和语料库等工具计算术语间的概念相似度,从而实现映射.

2基于语义的多语言信息组织模式存在的问题及改进建议

2.1基于语义的多语言信息组织模式存在的问题

2 1 1 基础多语言信息组织工具数量较少

基础多语言信息组织工具是指微观组织模式的代表性多语言信息组织工具,这些组织工具应用于中观和宏观组织模式中,为标引与检索多语言信息资源提供依据,是实现跨语言、跨系统、跨库资源关联的中介,对机器翻译、词义消歧都有重要作用,所以其构建与应用对多语言信息组织模式的发展具有重要影响.目前已开发了少量的基于WordNet的多语言语义词典,多语言叙词表在数量上具有一定优势,已有41部.但以词语为组织对象的多语言信息组织工具还有很多,如分类表、人名表、地名表、权威文档,这些信息组织工具的多语言化较弱.而从实际应用上看,只有AGROVOC用于构建农业领域本体,MACS的成果应用于Europeana的语义数据层构建等一小部分实践成果.与多语言语义词典和多语言叙词表所有的成果数量相比,实际应用还有很大的发展空间.

2 1 2英语资源外的多语言信息资源相对匮乏

多语言资源中英语资源占大多数.以多语言语义词典MultiWordNet为例,英语词汇占所有同义词集数量的40.6%,且英语作为检索语言使用的频率最高(49.3%),表明英语资源占据资源的大多数.

其他模式的多语言信息资源建设也以英语资源为主.以ODP的资源为例,以“Library”作为检索词,获得29373条结果,而以“图书馆”作为检索词的结果为258条.World WideScience的100个来源数据库中,英文数据库近80个,含其他9种语言的数据库20多个.TEL收录的资源中,英文资源占400多种语言资源总数量的30%以上.

2 1 3跨语言信息检索效果不理想

通过以上对各多语言信息组织工具的使用分析,可知大部分多语言信息组织工具只是对多语言信息资源的整合,真正实现跨语言信息检索的工具还不多,只有多语言学科信息门户WorldWide Science基本实现平台内的跨语言信息检索.多语言搜索引擎Yahoo等4种、多语言数字图书馆Europeana初步实现了跨语言信息检索.虽然目前跨语言信息检索的性能可以达到普通信息检索性能基准的90%,但受资金等方面原因影响,其实际应用并不多见.

翻译的效果也会影响跨语言信息检索的效果.目前主要有提问式翻译、文献翻译、中间语种转换和非翻译方法四种方式.对检索结果的翻译是实现跨语言信息检索的一种直接方式,World Wide Science、Google和Bing都支持对检索结果进行翻译.World Wide Science应用的是Bing翻译技术,但目前并不能进行结果翻译.Google和Bing由于是机器翻译,实际翻译效果也并不理想.Europeana是通过元数据翻译等方式进行多语言信息检索和多语言结果显示,元数据翻译通常由人工完成,质量高,但效率较低,且通常元数据只能翻译为一种语言.

2.2对基于语义的多语言信息组织模式的改进建议

2 2 1 重视基础多语言信息组织工具的构建与应用

以词语为对象的多语言信息组织工具,如语义词典、叙词表、分类表、人名表、权威文档等组织工具是宏观组织模式,是语义数据层实现的资源保障,同时也是多语言本体构建的来源.目前微观的多语言信息组织工具建设还不够完善,并且开发力度不够.

因此,要加快建设各种微观的多语言信息组织工具,对已具备内部语义关系的信息组织工具,通过映射、翻译等方式,形成更大范围的语义网络,组成中观、宏观组织工具的语义数据层,用来处理概念查询的逻辑问题,或实现按人物、主题、时间、语种等不同方式的浏览和检索.可通过上文提及的中介索引、自建、翻译、映射、连接等方法构建基础多语言信息组织工具.

2 2 2重视多语言信息资源的采集

多语言资源的采集是多语言信息组织的基础工作.无论是对多语言词汇、特定学科领域的信息,还是海量复杂信息,都应针对具体情况,全面收集各种语言相关信息.丰富的多语言信息是开展多语言信息组织的基础资源,只有拥有大量的基础资源,才能对其进行组织并实现不同方式的浏览和检索.WDL在2009年刚刚推出时,资源来自19个国家的26个机构,到2013年合作伙伴(包括提供资源的图书馆、档案馆等机构和提供技术或财政捐助的协会、基金会和个体公司等)增至172个,目前更是增至185个.多语言信息资源的收集是持续并可发展的,前提是重视对这些基础资源的收集与整合.尽可能多的采集多语言信息资源可通过以下两个方式

(1)机构合作.从三种多语言信息组织模式的研发者和资源提供者来看,不仅有学校间的合作,也有国际间的合作.对于多语言数字图书馆这种基于海量复杂信息的宏观组织模式,其合作机构基本都要上十个,甚至是上千个.对于多语言信息组织,跨国跨语言的机构合作是获取多语言信息资源最直接的方式,可以整合和共享不同机构拥有的多语言资源,优化利用资源.

(2)各语言志愿者共同参与.志愿者参与多语言信息资源的建设,即可节省成本也可以广泛收集多语言信息资源.多语言学科信息门户和多语言数字图书馆的志愿者中就包括技术志愿者、各学科志愿者和各语言翻译志愿者.

2 2 3多语言本体的开发与应用

多语言本体是本体在不同语种中的表现形式.多语言语义词典和多语言叙词表是多语言本体构建的基础,由于WordNet具有较强的语义结构,所以基于WordNet的多语言语义词典EuroWordNet已被视为一个本体.目前多语言本体的实际开发和应用并不多,国内这方面的研究更少.多语言本体可以应用于跨语言信息检索、机器翻译、词义消歧等领域.在跨语言信息检索中主要用于实现查询扩展、查询表达和检索对象的语义标注、基于概念的索引和查询翻译消歧.国外有一些多语言本体开发后得到实际应用,如美国加州大学伯克利分校信息管理系统学院(University of California, Berkeley School ofInformation)的TIDES项目,就是通过利用领域资源进行双语词典的构建和多语查询式的映射,进行跨语言信息检测、抽取摘 要.日本国立情报学研究所、日本国立传染病研究所、越南国立大学、泰国农业大学等多家研究机构共同合作的基于医学领域本体的BioCaster项目,使用文本挖掘技术,进行多种语言的信息发现与跟踪.美国新泽西理工学院计算机系(New Jersey Instituteof Technology, Department of Computer Sci-ence)的M.O.R.E项目包含一个多语言的商业领域本体,通过该多语言本体可以实现跨语言的垂直信息搜索.总之,多语言本体的构建与应用对实现多语言信息挖掘和跨语言信息检索具有重要意义,应加强对多语言本体的开发和应用.

作者简介

李月婷,硕士,国家图书馆社会教育部助理馆员;司莉,博士生导师,武汉大学信息资源研究中心教授,图书馆学系主任.

收稿日期 2015-10-22

信息论文范文结:

关于对不知道怎么写信息论文范文课题研究的大学硕士、相关本科毕业论文信息论文开题报告范文和文献综述及职称论文的作为参考文献资料下载。

1、信息系统项目管理论文

2、小学信息技术论文

3、生物信息学论文

4、电子信息工程毕业论文

5、电子信息工程专业论文

6、移动信息期刊