关于被引频次方面毕业论文模板范文 和社会化标签对论文被引频次影响方面毕业论文题目范文

本文是一篇关于被引频次论文范文,可作为相关选题参考,和写作参考文献。

社会化标签对论文被引频次影响

0 前言

在线科研社区,是指由具有相同研究兴趣爱好、相似科学背景的学术科研人员组成,以讨论学术问题、科研活动、学术会议为主,旨在实现科研观点的交流以及研究成果的传播和共享的人类共同体,它为科学知识的交流与分享提供了比传统方式(如期刊、会议以及面对面交流)更便捷的途径.随着互联网发展,在线科研社区如论坛、零点花园、经管之家(原人大经济论坛)正逐渐成为现代学术交流、知识共享的重要平台.在线科研社区因其丰富的知识储备、实时在线交流及个性化服务、开放包容的环境氛围,吸引着越来越多的科研人员和组织,在实现科学知识的传播和共享过程中发挥着越来越重要的作用.促进科研成果和科学知识的传播和共享是用户参与在线科研社区的主要动机,也是在线科研社区得以生存和发展的关键.因此,探究在线科研社区背景下科研知识的传播和共享状况的影响因素成为一个重要的研究问题.

文献、期刊是知识传播的主要渠道,也是科研工作者之间正式、公开、有序的交流工具.科研人员通过阅读和引用其他科研人员的论文来撰写文章,这些文章在发表后又有可能被其他研究人员所引用,这种频繁的论文引用与被引的过程实现了科研知识的传播和共享.论文被引用是科研成果、科学知识的传播和共享的一种具体表现形式,本文以论文被引频次作为科研成果传播和共享状况的量化指标来开展进一步的探讨.科研工作者的学术成就主要体现在其发表的论文数量和论文的被引频次两方面,而论文被引频次在一定程度上则说明了论文的质量以及科研人员的学术水平.但由于缺乏完整的学术评估机制和对论文被引频次的系统性研究,一些科研人员盲目推崇论文被引频次,更有甚者将其等同于论文质量[1].实际上,大量研究表明:科研成果的质量并不是影响论文被引频次的唯一因素,论文的长短、论文类型(如综述类论文、方法论类的论文、研究型论文等)、作者的数量、参考文献数量、作者在其研究领域的声望、性别,还有作者与读者的文化差异、语言的不同和社会关系等与论文质量关系不大的因素也会影响论文被引频次.

科研人员的研究活动、科研成果的发表和其他研究人员对论文的引用都属于社会活动,因此,论文被引频次不仅反映科研工作的质量好坏,同时体现出一些社会因素和特征[2].近期大量研究揭示了许多与论文被引频次密切相关的外在因素.Leimu 等[3]发现多作者会大大增加论文被引用的可能性,其解释是:第一,拥有多作者的论文可能会涉及多个学科领域,因此会引起许多学科的研究人员的关注并被他们所引用;第二,论文的作者越多,文献被自引的可能性就越大;第三,科研人员之间的正式交流与合作也有可能增加论文的被引频次.一些学者则认为论文的参考文献也是影响论文被引频次的重要因素.Webster等[4]以及Vieira等[5]都发现两者之间存在正相关关系,Webster等推断这可能是“一报还一报”的本性在发挥作用,即“我引用你的论文,你引用我的论文”.姜磊等[6]基于Web ofScience上的数据进行研究,证实论文的被引频次与论文的参考文献的数量和质量间都存在正相关关系,但这种相关性不是很显著.还有许多研究揭示了一些其它的影响论文被引频次的因素,如论文发表所在的期刊[7]、研究主题和研究的设计[8]、论文所使用的语言[9].在在线科研社区蓬勃发展的大背景下,是否存在新的因素影响论文的被引频次从而潜移默化地影响着科学知识的交流和传播?本文对论文在在线科研社区中所具有的独特属性进行分析,探究其是否对论文被引频次产生影响,从而了解网络环境下信息资源的利用情况和科学知识的传播情况.

社会化标签是描述Web 资源的元数据,是灵活、开放、准确的分类方法,鼓励用户根据自己对资源的偏好、需求和理解对资源的主题、类型、功能等进行描述,是联系客观信息和主观认知的中介,是用户实现资源组织、管理和共享的基础,是在线科研社区区别于传统科研社区的一大特征.因此,本文就在线科研社区中的社会化标签是否对论文被引频次产生影响,从而对科研知识的传播和共享发挥作用问题进行探究.

1 数据源与数据处理

CiteULike是由施普林格出版社(Springer)提供的一款免费的社会化书签网络工具,是专门协助用户存储、管理和分享学术文章的在线科研社区.CiteULike 支持一系列的文献管理服务和按作者、tags查询服务,还提供了用户间可以相互联系以及用户组等社交服务[10].该平台满足了该研究所需的在线科研社区环境以及社会化标签的研究条件,为相关研究提供了很好的数据支持.

本文所选的标签信息来源于CiteULike 网站.其原始数据包括网站自2011 年7 月1 日至2011年12月31日所有的用户操作数据,每条操作记录包括文章号、用户号、标注时间、标注的标签等4 个字段,共截取了573684 条数据.如果用户在收藏文章时没有提供标签,网站则会为文章自动生成一个“no- tag”的标签.根据CiteULike 的标注机制,用户手动标注文章则会产生一个特定的标注时间,因此,一篇文章在同一个时间点被同一用户标注多次则说明这些标签是被批量导入的,笔者将这类数据记录剔除.此外,“no-tag”这一社会标签对研究无实质性的意义,因此此类标签的数据也被剔除.

基于上述处理后的数据,根据数据中的文章号(DOI)在Web of Science中检索和收集论文的相关信息,包括论文的发表年份、参考文献数量、论文被引总频次(指论文从发表至2016年12月31日期间的被引总频次)和被标记后的被引频次(指论文从被标注至2016年12月31日期间的被引频次)、论文被下载次数以及论文所属的学科领域.根据论文信息,选取3个特定学科领域中的论文对其被标注的标签和被引频次间的关系进行探究.本文选取的领域是工程类(Engineering)、生物与化学类(Chemistry & Biology)、经济与管理类(Economics& Business).之所以选取以上3 个学科,是因为其具有一定的代表性.工程类代表了实际应用型的科学领域;生物和化学属于实验性科学,可以代表基础科学领域;经济和管理则代表非理工类的科学领域,为研究数据添加社会人文因素,从而使数据更加全面、科学.通过数据的筛选、剔除,所得数据如表1所示.

基于上述的数据处理结果,对每篇论文的标签数量分别进行统计、记录.除标签数量外,本文还对标签的语义内容对论文被引频次的影响进行探究,笔者将根据标签的语义内容对标签进行分类来开展这一探究.Sen 等[11]提出3 种标签类型,笔者在此基础上作了改动,即将事实型标签改为客观型标签.数据中的标签将根据如下分类标准进行归类:(1)客观型标签.主要描述论文的客观事实,如作者、地点、时间、以及论文类型.(2)主观型标签.主要用来表达用户对某篇论文的观点、情感、认知等, 如general、persuasive、art.(3)个人型标签.主要是便于用户组织、收藏和管理论文,如一位用户在1月1日阅读了一篇论文,并在收藏该论文时标注一个“1-Janurry”的标签,便于今后检索、查找该论文.此外,如果对某一标签的分类不明确,即该标签不包含以上任何一类中,则将该标签归入其它标签类.本研究邀请3位学者对标签进行编码归类,如果对标签的分类存在异议,则进行讨论直至3 位学者意见一致.标签的分类、统计结果如表2所示.

由于标签类别为分类变量,需设置虚拟变量.选择客观型标签为参照基础,设置T1,T2,T3三个虚拟变量.若标签是主观型则T1等于1,否则T1等于0;若标签是个人型则T2等于1,否则T2等于0;若标签属于其他类标签则T3等于1,否则T3等于0.此外,学科类别也是分类变量,笔者以生化类为参照,设定S1和S2两个虚拟变量.若文章属于工程类则S1等于1,否则S1等于0;若文章属于经管类则S2等于1,否则S2等于0.

2 分析处理过程

2.1 散点图分析

根据所得数据绘制标签数量和论文被引频次的散点图.由图1可知,现有的数据很难反映出标签数量与论文被引频次间的相关关系.因此,借助与标签数量相关联的其它指标间接的对标签数量和论文被引频次的关系进行初步探究.

科研工作者在引用论文时存在个体倾向,即倾向于引用那些被他们标注过或下载保存过的论文.将科研人员的论文引用行为与标注行为相关联,则引用行为的发生会涉及多个步骤:第一,为论文添加标签;第二,社区用户看到被其他用户标记的论文(如一些在线科研社区会对被标注次数较多的论文进行推广);第三,用户保存、下载论文;第四,阅读论文;第五,发现、判定论文是否对自己的研究有价值;第六,借鉴、引用论文.由于这一行为链较复杂和繁琐,笔者将只考虑论文被标注、论文被下载和论文被引用等3个主要步骤来简化这一过程.此外,笔者将通过探究论文下载次数对论文被引频次的影响而间接地初步推断标签数量与论文被引频次间的关系.

为探究论文下载次数和被引频次间的相关关系,基于各类标签,对每一类标签的论文下载次数的平均值和被引频次的平均值进行了计算和对比,如图2.4类标签分别对应的论文被引频次的均值和下载次数的均值间具有一定的相关性.下载次数均值较大的值对应着一个较大的被引频次均值,反之较小的下载次数均值则对应着一个较小的被引频次均值.这意味着论文下载次数和被引频次之间可能存在正相关关系.笔者在下面的研究中对这种相关关系作了进一步的验证.

基于论文的学科类别,将论文下载次数作为自变量,论文被引频次作为因变量,分别绘制3个学科领域的散点图.通过统计软件SPSS,分别得到了工程领域、生物与化学领域以及经济与管理领域的散点图,如图3-5所示.从3个散点图中可以看出,论文下载次数与论文被引频次在一定程度上呈现出正相关关系.所得结果与图2所得结果一致.虽然3个散点图中都存在一些异常值,但并不影响论文下载次数和被引频次间的整体关系.在下面研究中,笔者将对这些异常点进行处理.通过散点图的检验,可以得出结论:论文下载次数和被引频次间存在线性正相关关系.这在一定程度上也反映了标签数量和论文被引频次间可能存在一定的相关关系,对此,笔者将在下面的研究中作进一步的分析探究.

2.2 方差分析

基于上文提到的论文被引过程链以及论文下载次数和被引频次的关系,笔者认为,标签的数量对论文被引频次具有一定的影响.下面基于标签类型的视角,探究标签类别是否对论文被引频次产生影响,了解不同标签在文章被引过程中所起的作用.从图6可以看出,每一学科中的各类标签所对应的论文被引频次均值是明显不同的,因此,有必要对标签类型这一分类变量与论文被引频次之间的关系进行探究.

方差分析是用于两个及两个以上样本均数差别的显著性检验方法,通过推断自变量各水平下因变量的总体分布是否有显著差异来实现其分析目标.为了更好地反映标签对论文被引频次的影响,笔者将论文被引总频次和论文被标注后被引频次作为方差分析中的两个观测变量,从标签类别这一视角进行方差分析.

表3显示了变量列表和方差分析的结果.从表3可以看出,标签类别显著影响论文被引总频次和被标注后的被引频次(P值均近似为0),说明不同类别的标签对论文的引用有显著的影响.

2.3 逐步回归分析

基于上述研究,将标签数量、论文下载次数、标签类别作为回归模型中的影响因素.考虑到论文自身携带的一些特征也会影响论文的被引频次,因此将论文的学科类别、发表年限和参考文献数也带入到回归模型中.为了更好地反映标注标签与论文被引用之间的关系,将论文被引总频次和标注后被引频次作为两个因变量.选择以上两个因变量的原因有:第一,考虑各自变量对论文被引用的总体影响趋势.第二,考虑论文被标注后,标签对其被引用的影响.

笔者分别对被引总频次为因变量的模型和标注后被引频次为因变量的模型中的变量进行了多重共线性分析,所得结果完全一致.结果如表4所示,各变量的容忍度均大于0.9(接近于1),且VIF均小于10,说明多重共线性较弱.此外,最大特征值为5.301,其余依次减小,且第三列中的条件指数值均不大.以上结果均证明各变量间不存在多重共线性.因此,以上选定的自变量均可进入到回归模型中.

从表5 可以看出,共有5 个因素(标签数量、下载次数、标签类别、学科类别、发表年限)进入到回归模型中,参考文献数这一变量被剔除.表5显示,模型e的R2值最大,表明5个模型中模型e效果最好.如表5 所示,整体估计的结果比较令人满意,且与实际情况和研究预期相吻合.首先,发表年限对被引总频次有积极的影响.这一结果符合实际情况,论文发表的时间越长越有可能被人所知、阅读,甚至被引用.其次,标签数量对被引总频次产生积极的影响,回归系数为14.970,且影响非常显著(p<0.001),该结果与上述散点图分析的预想一致.此外,标签类别对论文被引总频次产生了一定的影响,且除个人型标签和其他类标签外(影响不显著(p>0.05),其余类别的标签产生的影响显著度为一般显著(p<0.05).出乎意料的是,主观型标签对论文被引总频次有负面的影响.对此笔者猜测,一个用户根据自己对论文的理解和情感给其添加的标签可能会与论文本身的主题和中心有所偏差,从而会误导其他用户,使他们无法正确地判断该论文对于自己的研究是否有借鉴价值,进而影响论文的被引用.其余的标签类则对被引总频次有积极的影响,可能是这些标签有助于用户理解论文并对论文进行价值判定,从而影响论文的被引用.这说明标签的语义内容对论文被引起着重要的作用.另外,值得注意的是,学科类别对被引总频次产生消极的影响, 且影响显著(p<0.01).最后,论文下载次数与被引总频次之间有显著的正相关关系,与上述散点图分析所得结果一致,符合本研究最初的预想.

从表6可以看出,将标注后被引频次作为因变量得到的结果与上面的结果一致,即模型e效果最好.如表6所示,其估计结果与表5中的结果大体一致.唯一的不同点是,除其他类标签外,其余类别的标签对标注后被引频次均产生显著的影响(p<0.05).此外,学科类别对标注后被引频次产生了显著的消极影响,而标签数量、下载次数与发表年限对标注后被引频次均有积极的影响作用,且影响显著(p<0.001).此结果与表5中的结果一致,与实际情况和笔者的预期相吻合.

综合以上分析可知:(1)标签数量与论文被引频次间存在显著的正相关关系,这符合实际情况和研究预想.一篇论文的标签越多,说明该论文被越多的用户关注、阅读过,因此也就增加了论文被引用的可能性.(2)除主观类标签外(产生负面的影响),其余类别的标签与被引频次间存在正相关关系,这意味着在很大程度上论文被标注的标签会引起该论文被引用,且被引用的可能性与标签的语义内容密切相关,这有可能是因为不同类别的标签给科研人员传递了不一样的信息.有趣的标签可以引起研究人员的注意,并帮助他们理解论文和判定该论文的借鉴价值.而有些标签则无法引起研究人员的注意,甚至这些标签都不能被他们所认知、理解,所以这些标签对研究人员来说毫无意义,也就无法对他们的引用行为产生影响.因此,标签类别对论文被引频次有显著的影响.(3)学科类别与被引频次之间有显著的负相关关系.对此结果,笔者认为,当某一篇论文归于某一学科后,该论文很大可能只会被所属学科领域的科研工作者所引用.而当论文所涉及的学科领域越多,则该论文越有可能被各研究领域的科研人员看到,继而产生更多的引用.论文的学科属性划分一定程度上限制了论文的引用.因此,学科类别对论文被引频次产生消极的影响.

3 结语

本文将CiteULike 作为实例对象,探究在线科研社区中标签(包括标签的数量和类型)对论文被引用的影响.对论文添加标签可以提高论文的认知度,从而增加论文的下载次数,最后可能增加论文的被引频次.本文基于提出的问题进行分析检验,并对分析结果作出相应的解释.本研究作出的主要贡献包括:首先,基于标签的视角对关于论文被引频次的影响因素的研究进行扩充.现有研究主要从论文主题或自身所带的特征、作者和读者以及期刊、影响因子等视角出发对论文被引频次的影响因素进行探究.笔者从标签数量和标签类别两个研究视角出发,探究标签对论文被引频次的影响.研究发现标签无论是在数量方面还是语义内容方面都对论文的被引有着显著的影响.其次,还研究了学科类别对论文被引频次的影响.笔者选择3个典型的代表性学科领域(工程类、生化类和经管类)对这一问题进行探究,发现学科类别在一定程度上限制了论文的引用.最后一方面揭示了在线科研社区中用户标注的标签与论文的被引频次间的数量关系,有助于人们从新的角度来理解学术知识的传播和共享.科研工作者可以在在线科研社区上展示和介绍他们的研究成果,实现研究的学术价值和科学知识的传播、共享;另一方面,在线科研社区的服务提供商要鼓励用户积极的参与到标注活动中,这有助于促进服务平台的发展.

本文的研究结果具有较强的实证数据支持,可以作为未来引文研究的垫脚石,但在理论框架和研究方法上仍存在一定的改进空间,主要局限包括:第一,该研究基于CiteULike平台2011年7月1日至2011年12月31日的用户操作数据进行探究,数据集的时间跨度不是很大,在一定程度上还不能很好地反映出整体趋势.在今后研究中作进一步的扩充和完善.第二,该研究考虑学科类别这一影响因素时,选择工程领域、生物与化学领域和经济与管理领域,发现学科类别对论文被引频次具有消极影响,但该结果对其他学科可能并不适用.在今后研究中将引入更多学科,并对学科类别和论文被引频次间的关系作进一步的科学解释.第三,本研究主要考虑论文的下载次数、参考文献数、发表年限、学科类别、标签数量和类别等影响因素,在未来研究中将引入更多的因素来完善当前的研究模型.

被引频次论文范文结:

关于本文可作为相关专业被引频次论文写作研究的大学硕士与本科毕业论文被引频次论文开题报告范文和职称论文参考文献资料。

1、高被引论文