数字图书馆类有关论文例文 与基于关联聚合和关联分析的数字图书馆知识发现服务方面学士学位论文范文

本文是一篇关于数字图书馆论文范文,可作为相关选题参考,和写作参考文献。

基于关联聚合和关联分析的数字图书馆知识发现服务

当前,随着计算机技术的不断发展,数据特征提取和知识表示应用的不断成熟,知识发现服务成为数字图书馆信息服务的主要内容之一,然而知识发现服务中所用到的数据资源分散于数字图书馆各个资源库和互联网上,并且呈现独立、无序和分散的特点,使得读者在利用知识进行工作学习时容易遇到问题[1].针对此种情况,数字图书馆通常采取的是对分散在各处的数据资源进行元数据整合,例如对知识发现服务中所使用的数据类型、数据格式、数据来源进行搜集汇总,形成元数据库,进而实现数字图书馆知识发现服务[2].然而,这一模式只能以单一的专题形式进行整合,并且只是解决了数据资源的分散问题,无法根本解决数据资源的无序化.随着互联网技术的不断发展,语义网技术、数据挖掘技术得到快速推广和应用,关联聚合、关联分析等新概念逐渐出现,数据资源也开始由整合模式逐步向聚合模式方向发展,各种类型的数据被整合在一起,实现数据资源的有效利用[3].当前,数据资源的关联聚合和关联分析已经成为数字图书馆知识发现服务的一个新的研究方向.笔者通过探讨此问题,以提高数字图书馆知识发现服务水平.

1 关联聚合和关联分析研究现状

关联聚合和关联分析技术是数据挖掘技术的一种,它是一门交叉领域的新技术,该技术在进入21 世纪后逐渐受到学者的关注.世界上一些著名的企业通过对该技术的研究和新产品开发,推动了此项技术的发展.我们常见的软件,例如SAS、SPSS、IBM、ORACLE 等都是建立在此项技术基础之上的[4].最初,关联聚合和关联分析主要被应用在企业竞争能力的提升方面,然而随着数据挖掘技术的不断推广应用,关联聚合和关联分析技术已经应用到各个领域当中,例如金融业、零售业、电信服务业等.对于此类技术的结果展示方面,多种形式的可视化技术得到应用,极大地方便了该技术的推广和应用,促进了各领域知识发现服务水平的提升.

国外多个图书馆已将关联分析技术应用到图书管理当中,通过使用该技术,图书馆不仅是一个文献检索服务机构,而且发展成为一个信息服务机构.同时,这些图书馆员也逐渐成长为信息服务人员,甚至成为信息专家[5].Michael Cooper 教授通过采用关联分析和时间序列分析方法对图书馆用户类型进行了划分,这为研究图书馆用户的行为规律奠定了基础.Neumann 等人通过使用关联技术对图书馆借阅服务记录进行分析研究,建立了图书借阅导向式入口,并实现了图书的推荐服务.国内对此课题的研究起步较晚,通过利用关联聚合和关联分析技术来服务于图书馆建设是近几年才兴起的.自2008 年前后,该课题进入了实质性研究状态,多位专家学者开始从多个方面、多个角度来对此进行研究,这也揭示了数字图书馆信息服务在经济社会发展中的重要地位.国内所做的研究主要侧重于信息服务的综合研究、实践应用研究,研究方法包括关联聚合、关联分析、时间序列分析方法等.

2 数字图书馆信息资源关联聚合与关联分析过程

数字图书馆知识发现服务数据来源主要有高校图书馆、各类大中专院校、互联网以及纸质期刊的扫描件等,这些数据的类型主要有电子图书、会议期刊、学位论文、专利成果、人物、机构、项目动态等.面向数字图书馆信息资源的关联聚合与关联分析就是利用数据关联技术将这些不同种类的信息数据进行收集汇总,并分析这些信息资源之间的内在联系.关联聚合和关联分析主要是对数据信息所涉及到的资源进行有效整合,包括对数据的规范化处理、数据的精准分类,例如对数字图书馆文献期刊、人物信息等进行元数据处理;对文献期刊所涉及到的学科分区、影响因子等进行精准分类.数字图书馆关联聚合和关联分析层次主要分为数据资源层、信息服务层和知识表示层,如图1 所示.

2.1 数据资源层

数据资源层是整个关联聚合的基础,它主要是对系统中数据信息源所涉及的多学科资源进行有效整合,即对所涉及的数据信息进行合理收集与整理,形成一个独立的包含多种数据资源的系统,方便系统其他模块调用.数据资源层是由多个数据库按照特定的结构组成的,每个数据库中都存储了大量的数据信息,这些数据包括了数字图书馆馆藏数字资源、数字图书馆购买的商业资源、社会学术机构数据资源等.数字资源的不同使得数据库构造较为复杂,虽然不同数据库之间的结构可能不相同,然而所服务的对象却是一致的,均是为系统信息服务层提供必要的基础数据,以便系统可以根据用户需求进行分析.

2.2 信息服务层

信息服务层是整个关联聚合的中间层,它主要是在元数据技术的基础上对数字图书馆各学科数据信息进行规范语义描述,进而达到揭示数据信息内容及外部特征的目的.该服务层通过调用数据资源层数据,实现系统预设的各种功能.同时,在数据资源的调用过程中,通过采用多种算法使数字图书馆中的无序数据信息规范化、有序化.信息服务层涵盖了大量的数据算法,而不同算法所得到的效果是不同的.例如:元数据管理模块主要对数据资源层中数据库建立索引,在系统发生需求响应时可以尽快通过索引检索到需求数据;信息传输模块主要是建立知识表示层和数据资源层之间的联系,同时开展数据资源的转化与传输.

2.3 知识表示层

知识表示层主要是通过知识发现、知识组织技术来建立数据信息间的内在联系.传统知识发现与组织技术有分类分析法、叙词表等,现在常见的知识发现、知识组织技术主要有关联聚合、关联分析、语义网分析等技术.在数字图书馆数据信息资源知识发现中,关联聚合和关联分析在知识表示层可以有很好的发挥,它可以实现多学科知识的有效组织,同时对不同学科的各种概念界定进行规范化处理,建立数据信息资源间的语义关联.

3 数字图书馆知识发现服务模型构建

基于关联聚合与关联分析的数字图书馆知识发现模型的构建包括了3 个方面的内容:多学科数据信息资源间的关联模型、基于元数据的资源对象语义描述以及多学科资源的主题规范化处理,如图2 所示.

3.1 多学科信息资源间的关联模型

笔者采用基于关联聚合和关联分析的方法来描述多学科数据信息资源的语义关联模型,同时对多学科信息资源对象间关系开展知识组织.多学科信息资源知识组织的一个前提是各信息资源的概念清晰,且概念间关系明确.多学科信息资源涉及的概念主要包括两个方面:学科信息的主要对象,即学科人物及学科机构建设;学科信息所涉及的文献类资源,例如图书期刊、学术论文等,对于期刊而言,还将涉及期刊刊名、卷期号、文章索引等.通过明确以上概念,并采用关联聚合和关联分析建立数字图书馆知识组织中各学科信息资源关系.

3.2 基于关联聚合和关联分析的资源对象语义描述

在上述多学科信息资源语义关联模型中,各学科概念包括了信息资源的属性和学科对象的属性,数据属性揭示了多学科信息资源对象的基本特征,并且不同对象的属性间又代表了不同概念间的关系.由此可见,信息资源的属性是整个信息资源的基础,它反映了信息资源最根本的特征.信息资源属性和学科对象属性可以采取关联分析中的元数据技术以及本体来进行语义概念描述,这种描述打破了信息资源属性和多学科对象属性间的壁垒,使得多类型信息资源间关系得到重组,同时可以派生更多的关系属性.对于多学科信息资源而言,其类型主要分为人物类、期刊文献类和机构类.

3.3 多学科资源的主题规范化处理

在多学科资源语义关联模型中,主题一词是一个重要的概念,它作为一个核心点是关联聚合和关联分析的关键所在.数字图书馆所有资源信息都将围绕这个核心点来建立相应联系,同时主题这一概念还嵌入了多学科信息资源概念.也就是说,对于多学科信息资源来讲,不同学科所有知识点、知识单元与主题是一一对应的关系,通过这些主题可以实现相应学科知识点、知识单元的表示.不同主题间关系是相对独立的,然而可以通过关联聚合来建立相应联系,这一建立过程涉及了语义化描述和语义关联描述等方法.在对多学科资源主题进行关系聚合时,主题内容的规范化处理非常重要.主题中的知识点、知识单元类型及描述多数是不相同的,有些甚至包括多种非结构化数据,这将给主题关联聚合造成影响,主题的规范化处理可以避免此种情况的产生.通过规范化处理,可以使主题所涉及的知识点、知识单元进行有机聚合.

4 数字图书馆知识发现服务策略

关联聚合和关联分析主要使用统一的标识符来对事物进行标识,借助资源描述框架来链接聚合所描述的每个事物对象,进而组成一个无限延伸的语义网.通过该语义网可以实现各类信息资源的知识发现.基于关联聚合和关联分析的数字图书馆知识发现服务策略主要分为3 个层面,即数据信息集层、元数据描述层和知识发现层.

4.1 数据信息集层

数据信息集层所链接的信息资源来源可以有多种不同数据集构成.数据集之间是相对独立的,也就是说数据集之间数据类型可能相同,但是数据结构呈异构化.这样的一个特征使得数据信息集层可以聚合数字图书馆内部信息资源,也可以实现数字图书馆系统外部资源的聚合,这样就极大地丰富了数据信息集层的信息.由此可知,在应用关联聚合和关联分析实现数字图书馆知识发现服务时,首先要对数据信息集所涉及范围做好规划,例如数字图书馆多学科信息资源不仅包括馆藏数字资源,而且还包括数字图书馆每年购买的商业数据库信息资源;其次,要对规划内信息资源关系类型做好关联分析,识别不同信息资源集所涵盖数据的类型、数据内容,以便对此进行聚合.数据信息集层在实际使用中还可能派生出其他信息内容,这也是应当注意的.

4.2 元数据描述层

元数据描述层主要是通过采用元数据分析技术来实现资源外部特征及内在联系的关系描述.数字图书馆多学科信息资源所涉及的资源对象主要包括文献期刊、人物等,其中文献期刊又涉及期刊文号、卷号等.通过对这类数据进行关联分析,并建立元数据库,实现数字图书馆多学科信息资源的关系聚合.在元数据描述层的构建中,首先应当将信息资源类型划分作为重点,尤其针对非结构化数据资源应当进行详细分析,通常将非结构化数据资源进行结构化处理.其次,通过关系聚合实现元数据资源关系建立时,应当注重数据资源间关系的划分.对于不同种类数据资源,应当先确定其主题,通过主题来建立多学科数据资源间的联系.元数据描述层由于存在其自身的特殊性,因此构建过程中应当按步骤、分层次进行.

4.3 知识发现层

知识发现层是在关联数据的基础上,对关联聚合的数据进行深层次的分析所得到的数据资源层.关联数据是通过应用语义网来实现数据的网上发布的,所发布的数据之间存在着特定的语义关联.关联数据自身不存在语义联系,主要是借助元数据技术或者本体来实现语义描述和语义关系的建立.因此,对于数字图书馆知识发现层而言,一方面要重视语义描述中叙词表的建立,通过叙词表实现多学科不同概念间的关联;另一方面要通过语义关联实现多学科知识点、知识单元的提取,同时通过关系聚合实现所提取知识点、知识单元的关联聚合.知识发现层通过将不同学科数据集之间、不同信息资源之间的知识点建立关联来实现立体化的知识表示体系.

5 结语

随着数字图书馆的不断发展,馆藏数据资源量与日俱增,这些数据资源的使用价值没有得到很好的利用,造成了大量的资源浪费.通过笔者的研究,提高了数字图书馆数字资源的利用率,提升了数字图书馆知识发现的能力和服务水平,对于图书馆的数字化建设具有现实意义.然而,整个研究过程主要侧重在数据资源类型和关系的分析处理上,没有更多地研究关联聚合在数据资源关联中可能造成数据遗失的问题,这将成为未来此方面内容的一个研究方向.

数字图书馆论文范文结:

关于本文可作为相关专业数字图书馆论文写作研究的大学硕士与本科毕业论文数字图书馆论文开题报告范文和职称论文参考文献资料。

1、图书馆杂志

2、论文数字

3、数字通信杂志

4、数字媒体论文

5、图书馆建设杂志

6、参考文献后面的数字是什么意思