发展趋势相关论文写作资料范文 和大数据框架下古籍数字化趋势类参考文献格式范文

本文关于发展趋势论文范文,可以做为相关论文参考文献,与写作提纲思路参考。

大数据框架下古籍数字化趋势

杨凡

(河南省图书馆,河南郑州450052)

[摘 要]随着网络媒体的兴起,促使因新兴技术而产生的数据成倍增长,巨大的数据标志着大数据时代的开端.数字化产品普遍运用于日常生活,如何能在纷繁复杂的数据流中获取及时、有效的信息是大数据时代关键性难题.结合古籍文献数字化发展的实践,就大数据技术给古籍文献数字化产业带来的问题进行分析,提出应对数字化发展的对策.

[关键词]大数据 古籍文献 数字化

[分类号]G255.1

1 大数据的概念与特征

数据是信息的表现形式和载体,是事实或观察的结果,是对客观事物的逻辑归纳,并用于表示客观事物的原始素材.在互联网时代之前搜集整理数据的成本过高,数据的大规模使用并不广泛.随着网络技术的革新,人们通过微信、微博等社交软件发布和获取信息变得更加快捷,由此数据的产生与累积速度也在加快.如今,在移动通信行业中已经出现了PB级为单位的数据集,这样的数据不断发展壮大,标志着大数据时代已来临.

1.1 大数据的概念

大数据是个相对模糊、抽象的概念,大数据并不是一个新的专业名词,也没有一个标准的概念,目前的一些定义也都是从功能或特征方面对大数据进行的概括性描述.IBM根据大数据的特性提出了3V说:即大数据具备规模性、多样性和高速性.数据必须同时符合这三种属性才能称为大数据.规模性是指海量的数据量;多样性是指数据种类繁多;高速性指数据创建、处理和分析持续速度加快.国际数据公司(International Data Corporation,ICD)指出,目前大数据会包含两种或两种以上的数据形式,一般情况下要达到超过100TB的数据,并且是高速、实时的数据流;也有可能是对小数据的收集,但每年的增长率会在60%以上.IDC对大数据进行了定量描述,意为达到一定数据量或增长率的数据集可称为大数据[1].

维基百科对于大数据有一个直观的表述:大数据是指利用常用软件工具来获取、存储、管理以及处理数据,所耗时间超过可容忍时间的数据集.笔者认为此种表述易于理解大数据的浩瀚,但相较IDC给出的概念缺少必要的量化指标.

1.2 大数据的特征

首先是数据量大.随着互联网、社交软件的普及,彻底颠覆了人们的工作和生活状态.人们以用户的形式出现在网络中,产生了巨大的数据量,主要有、上网痕迹、社交记录等形式的数据.尤其是VR技术的兴起,在用3D技术模拟现实世界的同时产生了巨大的数据量.原来音频、视频的数据占有量大多以MB、GB为单位,VR技术产生的数据量则是以TB为单位,这些数据累加在一起形成庞大的数据集.大数据时代海量的信息流与我们的生活密不可分,数据来源于生活并对生活带来冲击和影响.

其次是数据多样化.过往的数据库为便于统计和管理,大都使用结构化数据,也就是即行数据,即可以用二维表结构化来逻辑表达实现的数据.此类数据的特点是预先已经建模完毕,能以特定的结构表来表述,存贮于数据库中可随时重复使用.大数据产生的庞大数据流中除了少部分的结构化数据,除了一部分的结构数据,余者绝大多数是半结构化数据和非结构化数据合成的数据集.这样的数据集具有一定的结构性,但不具备规范的建模,也就不能用数据库管理软件进行编辑.有学者研究表明,结构化数据只占日常生成数据流的5%,其余95%则是种类繁多的半结构化数据和非结构化数据.

再次是数据流动速度快.数据流的速度是指数据新建和处理的频率,大数据的时效性是数据流动速度快的特征.随着信息技术的革新,人们可以通过手机终端访问各种类型数据库.这些因访问而形成的数据是在线式的具有实时更新的特性,也就是流式数据.流式数据的工作原理是全程数据采集和监控,由于数据的庞大量能和随机性,固有的数据管理系统无法传输.

最后是数据价值密度低.数据的价值是数据产生、存储并传播的核心目的.虽然数据的量级在不断增长,但其中有效的信息量却没有因此而增加,随着数据的增多,其价值米苏不断被稀释.这从另一方面持续增加了从数据中提取有效信息的难度.

2 古籍文献数字化的现状及存在问题

2.1 古籍文献数字化的概念及发展轨迹

古籍数字化,从利用和保护古籍的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成古籍文献书目数据库和古籍全文数据库,用以揭示古籍文献信息资源的一项系统工作.[2]

古籍文献数字化将古籍的文献属性与数字技术及网络数字特点相结合.在具体实践中古籍文献数字化就是通过信息技术对古籍文献进行加工,使其成为可重复利用的数据资源.古籍的纸质载体转换为数据载体,古籍数据被赋予了复制、传播的属性.通过建模采集、分析等方式将古籍文献数字化资源组建成数据库既能保护珍贵的古籍,又能扩大实用性,方便大众使用.

古籍文献数字化并非新生事物,随着计算机技术的发展已经历了数个阶段.

首先,古籍文本的数字化.它是通过对古籍中的文字以人工录入或是光学字符识别(OCR)的方式输入数据库而形成的文献.此类数字古籍文献可以阅读也能定位检索,这样的古籍数据资源具有检索性,但无法客观表现古籍底本的原貌.由于人工录入的错误、OCR的识别错误、古写异体字的缺笔等问题,导致古籍文本数字化的最终目的,因准确性太低而无法实现.

其次,同时提供原古籍书影与文本参照.使用古籍书影来查看古籍原本的原貌,用矢量文本进行定位和检索.此类古籍数据资源是对古籍文本数字化准确率太低所做的妥协,兼具客观性和检索性,但制作和使用都很繁琐,发展空间较小.

再次,双层PDF技术.通过将古籍书影与文本文字进行映射,检索文本文字定位书影位置的方式达到检索效果.此种技术广泛应用于数字图书馆中文电子资源的制作.但古籍中竖排的行文方式和字体的不规则,使得双层PDF在实际操作中准确率不高.

最后,国家古籍保护中心的古籍数字化方案.它是对古籍进行拍照或扫描,通过数据库著录,以标引到“卷”的方式提供检索式.这种方式最大限度还原了古籍的原貌,保证了客观性和准确性,但只能通过卷次检索,无法做到全文检索.

2.2 古籍文献数字化在大数据框架下所面临的问题

在原有模式下,古籍数字化的建设标准有“GB/T 7517-2004《缩微摄影技术在16mm卷片上拍摄古籍的规定》”“WH/T 51-2012《图像元数据规范》”“WH/T 50-2012《网络资源元数据规范》”“WH/T1-2012《图书馆数字资源保存元数据规范》”[3].在“大数据”的冲击下,现有的标准有内容不够全面、缺少细节规范等问题.在数据管理方面,关于古籍数字化的项目选题、验收的时间周期等细节问题均未涉及.在技术方面,古籍数字化的加工工序、底本选取原则、文字的字体设置也没有进行统一规范.这些标准上的缺失导致各制作单位的数据在细节上不能统一.

其次是数据的安全问题.大数据的本质就是数据的集合,只要有数据就存在数据安全问题.在原有的模式下,数据安全只存在于古籍数字化的数据库本身.在大数据的影响下,数据安全管理还应包括用户使用古籍数字化成果时所产生的所有数据.这在现阶段的古籍数据库功能下是无法实现的.

最后是大数据冲击下古籍文献发展存在两大突出矛盾:(1)古籍数字化和古籍数据化的矛盾.很多全文数据库通过OCR技术将古籍格式转化为可以被人工智能识别的全文文本格式,并加注句读.这样的形式破坏了底本的客观性,使用户无法获得文献本身自带的信息.这种矛盾正是大数据新技术对古籍文献数字化原有模式的最大的冲击.(2)古籍文献数字化文献检索便捷性与客观性的矛盾.若要保证数字化古籍文献的客观性,并兼顾用户的直观感受,文献最好使用纯书影的方式建立数据库.但这样做带来的问题是便于浏览而无法检索,如第一历史古籍馆的数字化项目.无法检索的数字化产品不可能让用户快速、有效获取文献数据,这样不符合大数据时代的数据特点,其后果必然是被大部分用户所抛弃.便捷性和客观性的矛盾是困扰古籍文献数字化产业发展的主要技术原因.

3 基于大数据的古籍文献数字化发展策略

通过上述分析我们认识到,新的技术动摇原有模式的同时带来新的发展契机,但也不能只看大数据带来的技术革新,而是应该完善古籍文献数字化基础性建设,建立古籍文献标准数据库,以用户对数字化文献的希望和要求作为理论研究的方向.

3.1 加强标准化建设,成立数字化领导机构

在大数据的框架下必须加强标准化建设.在确保数字古籍资源格式统一、数据规范、长期可读、便于共享的原则指引下制定标准、统一的规范[4].在古籍文献数字化管理工作中,可以根据数字化基础,参考国际标准和国外成功的经验,制定适合古籍文献数字化开发的管理标准.如借鉴已经成熟的古籍数字化经验,以国家古籍保护中心为核心,联合全国各古籍收藏单位,统一数字化标准,成立独立领导机构,最终完成古籍数字化行业标准化建设.

3.2 建立古籍文献数字化标准数据库

古籍文献数字化标准数据库是指按照大数据标准化流程对古籍进行数字化制作的数据,拥有检索功能,复合大数据特点的数据库类型.

由国家古籍保护中心牵头,各省级图书馆参与,对已入选《国家珍贵古籍名录》的古籍进行数字化处理.由公共图书馆制作古籍数字化标准数据库的母库,再由高校或各科研机构母库的基础上,按照各自不同的学科需求、专业特点加载相应的插件软件,通过个性化升级满足不同用户的需要,并且可以通过双层PDF优化、植入式广告等手段调整成面向市场的热点对应查询数据库.

古籍数字化标准数据库是对古籍数字化基础性先天不足的补充,可以解决互联网新技术冲击下暴露出的各种问题,使古籍数字化工作能为社会认知、为用户认可.

古籍文献数字化标准数据库可以解决盲目开发、乱开发的问题.国家古籍局通过古籍文献数字化标准数据库,对全国各个古籍单位的藏量有了大致的掌握,已经形成了系统的古籍书目信息.国家古籍局可以根据社会热点,按照已经掌握的信息有针对地指导各古籍单位制定开发计划.这样既可以使开发的数字化文献获得社会认可,又可以避免重复性选题,节约资源开发更好的项目.

古籍文献数字化标准数据库可以消除古籍工作人员与其他学科研究人员认识的差异.古籍工作人员对于古籍文献的认知来源于工作实践,是整理古籍后积累下的感觉,注重微观讲究观风望气,翻开古籍可通过细节判定版本.其他学科研究人员是古籍数据化的支持者,因为数据化的文献更方便于科研活动.这部分用户注重古籍全文文本数字化,理论系统不在意是否能客观体现古籍原貌.通过制作标准数据库将两种用户的需求放在一起,可以通过个性化需求的升级服务消除矛盾.

古籍文献数字化标准数据库可以解决古籍数字标准化与用户服务个性化的矛盾.由省级古籍馆做古籍文献数字化标准数据库的母库,其余古籍单位制作的数据库作为补充,在统一标准的规范下进行数字化采集和数据库的制作.在数据设计、制作和管理验收等环节做到标准化.在此基础上,各用户可按照各自对数据的要求进行个性化升级,既保证标准化的数据格式,又满足各层次用户的个性化需求.

古籍文献数字化标准数据库便于进入市场.商业公司进行古籍文献数字化是因为看到了数字化产业发展的发展空间.商业公司的优势在于市场运作,但他们不具备古籍文献的相关积累,所开发的数字化数据的质量不高,不能满足用户的需求.古籍文献数字化标准数据库的出现使得商业公司扬长避短,既降低了开发成本,减少开发时间,也可以集中精力寻找社会舆情与古籍文献的相关点,便于把握市场热点.以古籍文献标准数据库为基础的商业公司可以结合社会热点,适时推出与之相对应的产品.产品不仅局限于数据库,可以及时分类推送到使用各种移动终端的用户手中.通过商业运作引发社会关注,借助市场手段使资源持续流入数字化产业,推动大数据时代古籍文献数字化的进一步发展.

4 结语

随着数字化信息与人们生活的日益密切,社会各行业与大数据的联系也越来越紧密,大数据新的技术也为数字化行业带来了冲击和挑战.在这种前所未有的冲击下古籍文献数字化暴露出原有模式的不足与缺陷,如缺乏必要的数字化基础性建设,没有统一的制作标准等.同时大数据的新思维也冲击着古籍文献数字化标准、数据库结构等制作问题.古籍数字化是专业性较强的领域,而如何能让不同专业的用户通过古籍数字化文献,快速有效地查找到满意的数据,是大数据环境下古籍文献数字化研究的重点.我们实践中发现,当前用户对数字化文献覆盖的全面性、检索的精确度等方面的要求在不断提高.这是古籍文献数字化行业可持续发展的巨大机遇和挑战.要解决问题,就要整合各古籍单位的力量,取长补短,建立全新的权威机构完成古籍数字化基础性建设,建立古籍文献标准数据库,提高社会对数字化行业的认知度,最终建立完整意义的古籍文献数字化超大型数据库共享体系.

发展趋势论文范文结:

关于发展趋势方面的论文题目、论文提纲、发展趋势论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。