晓木虫
学术数据库客户端

刘则渊:迈向引文分析4.0时代

 找回密码
 注册会员

QQ登录

微信登录

刘则渊:迈向引文分析4.0时代

摘要:   迈向引文分析4.0时代  ——胡志刚著全文引文分析一书序  刘则渊  科学文本,其形式包括论文、报告和专著,与非科学文本的突出区别,就在于带有引文,即引用参考文献。科学文本及其引文,是科学交流与传播 ...

  迈向引文分析4.0时代
  ——胡志刚著全文引文分析一书序
  刘则渊
  科学文本,其形式包括论文、报告和专著,与非科学文本的突出区别,就在于带有引文,即引用参考文献。科学文本及其引文,是科学交流与传播的方式和痕迹,也是科学情报获取与文献检索的手段和方法。由于科学情报及其引文数据库的建立,导致科学计量学从科学数据的统计分析,转向引文分析为主的方法,并不断升级,深化拓展。如今随着全文本引文数据库的产生,开始进入全文引文分析的新阶段,迈向引文分析4.0的时代。
  呈现在读者面前的全文引文分析:理论、方法与实践一书,就是在这一背景下作者胡志刚所做出的一项创造性成果。
  然而,由科学引文带来的引文分析、科学评价及相关的被引次数与影响因子等指标,或因使用不当,或因人们误解,而一直颇遭诟病。有的学者甚至试图撇开引文,以“Altmetrics”(被误译为“替代计量学”)来取代引文分析。这是对引文分析的严峻挑战,我们必须回应和回答。因此,这里想借为本书作序之机,对上述疑惑和问题做必要的历史追溯和理论说明。事实上,科学文本的引文现象,以及由此发生的引文分析,有着久远的历史渊源和广泛的理论基础。
  科学文本的引文存在,是近代科学产生以来的一种特有现象。科学引文是科学共同体在逐渐达成的两个基本共识——科学的无偿馈赠性和发现优先权的基础上,实现科学文本规范化、制度化的产物。从科学学的一般学习范式看,一方面,科学作为一种认识现象,离不开前人获得的知识、方法与工具,并据以对自然的观察实验获取新的知识,前人的科学知识是不费分文而可以自由引用的;另一方面,科学作为一种社会现象,又必需尊重和承认前人科学发现的优先权,无论引用的目的和动机如何,都要注明被引文献及其作者,承认被引文献的署名权或著作权,否则被视为学术不端行为。因此,引文既是科学文本的知识基础和依据,又是对被引作者权利的承认和尊重,从而成为科学文本的组成局部,使科学文本取得合理又合法的地位,由此形成规范化的引文制度。这可以称为引文发生的知识馈赠-知识产权二重性理论。
  引文发生和引文分析的另一个理论基础,是科学交流与知识流动理论。科学文本是科学传播与交流的基本单元,而引文就是科学传播与交流的痕迹。随着科学论文数量的急剧增长,科学期刊发文的周期较长,效率低下,科学情报处理的手工作业方式,严重妨碍了科学传播和交流,各门学科最新进展无法得到及时迅速传递而影响到科研活动。科学学奠基人J.D.贝尔纳(J. D. Bernal)最早敏锐地觉察到这种科学情报危机,在多种场合提出各种举措来加以解决。从1939年的科学的社会功能[1],1958年的科学情报传播:用户分析[2],到1964年的科学的科学[3],贝尔纳反复强调以多种科学服务方式来取代科学期刊,实现科学成果的直接交流,同时主张借助自动化机器进行科学情报的处理、编目与归档,以加快科学情报的传播与交流。众所周知,在20世纪60年代以前,科学界一直凭借科学交流留下的引文踪迹,作为人工获取科学情报,查找与检索科学文献的一种途径与线索。E.加菲尔德(Eugene Garfield) 据此提出了科学文献检索的新方法。1955年,他发表了科学引文索引:文献学中贯穿观念联系的一个新维度[4]一文,提出借助科学论文之间的引用文献所构成的观念联系,作为检索科学情报的新手段。这就使科学交流从文本单元深化到知识单元。同时,加菲尔德受贝尔纳关于机器处理科学情报的意见启发,尝试建立起科学引文索引(SCI)系统,这不仅创造了一种新的情报检索工具,而且由此意外地诞生了一个副产品——科学引文分析,引起科学计量学方法的深刻变革。这样,加菲尔德将贝尔纳基于文本单元的科学交流思想,发展为基于知识单元的知识流动理论[5],从而成为引文分析的核心理论。引文分析的知识流动理论,阐明引文分析的本质是知识流动的过程,展现了知识单元的离散和重组、继承和创新、演进和升华的复杂过程。另外,由于一个知识领域的科学共同体,其最活跃的主要成员往往会敏锐地把握学科发展态势,产生新观念的知识共鸣,成为知识流动的共同来源,却又各自独立平行地获得类似的科研成果。这样,知识流动理论也为非引文关系的科学文献进行基于知识单元的共词分析,提供了理论依据。
  值得关注的是,引文分析还有一个更为厚实的理论基础——科学网络模型,包括贝尔纳关于科学发展的网络模型和科学计量学之父D.普赖斯(Derek John de Solla Price)关于科学引文的网络模型。早在1955年贝尔纳就认为,“科学中的总的发展模式还是相当清楚的:这种模式与其说像树,不如说像网。与课题或应用直接相关的科学工作的内容,可以比做网的网眼。各条线的交叉点是经验和思想集合的地方,是中心点,是一些新发现,从这里产生各种各样的应用技术和科学学科。……网不断在编制,网上尚有未连接起来的线头,可用不同的方法把它们连接起来。”[6]对此,普赖斯与贝尔纳气息相通,他透过加菲尔德发明的科学引文索引(SCI)看到更加激动人心的引文网络模型。他说:“出人意料的是,作为一项处理科学文献的引文索引法的副产品,把它用于进一步扩大上述各种模型的应用,是很完备的。而这一点主要应归功于贝尔纳为解决后来人们才认识到的情报危机而提出的那些颇具革命性和建设性的意见。因为引证许多论文,也就形成了一个以某种复杂的方式,把它们全都连接在一起的网络。借助这种网络模型,人们就可以用图论和矩阵的方法来加以学习。它似乎还向人们暗示,论文一定会聚集成团,而形成几乎绘制成地图的(显示出拥有高地和不可逾越的沼泽地)‘陆地’和‘国家’”[7]。紧接着在著名的科学论文的网络(1965)[8]一文中,普赖斯把上述构想变成了现实:“每篇已发表论文和与之有直接关联的其他论文链接起来,从而展现出当代世界科学论文网络的总体特征。”此文开启了以引文分析和网络分析为基础的科学计量学新方向,阐发了绘制科学引文网络图谱来探测科学前沿的可能性。该文开头,普赖斯有一句箴言:“参考文献的模式标志科学学习前沿的本质。”这句话是贝尔纳的创意、加菲尔德的发明和他自己的破解三者的结晶。它表达的引文网络模型,连着你、我、他,连着昨天、今天和明天,连通全球知识世界,从现有知识基础走向科学学习前沿。普赖斯特别强调指出,正是学习前沿将科学从其他学问中区别开来,并确认引文使科学比非科学更快速累积的机制。
  综上所述,关于科学文本引文现象与引文分析的三个基础理论:知识馈赠-知识产权理论、科学交流与知识流动理论、科学网络与引文网络理论,揭示了科学文本引文现象的内在基本特征,解开了科学引文分析持续发展、长盛不衰的奥秘。
  如前所述,科学文本不可分离的参考文献,是区别于非科学文本的显著特征。科学文本的引文,所引注的参考文献,无论是夹注、脚注和尾注,都是科学文本的组成局部。人们从引文可以追索论题、领域或学科的来龙去脉,一直追到概念和思想的源头,由此引发科学文本内容的更新换代,日新月异,突飞猛进。而非科学文本却并非如此,其引注虽然也有多种方式,如朱熹的四书集注采用夹注方式,对论语等四书的每一句话都引经据典做了批注,但这只是后人对先贤的解读,反映了儒家思想从孔子(公元前551-公元前479)到朱子(1130-1200)长达1700年的缓慢变化;而文学作品则几乎没有引文。正是科学文本引证不同理论、不同领域、不同学科的参考文献,形成复杂的科学引文网络,直接间接反映了不同理论之间、理论与实验之间的矛盾关系,科学引文之间多学科、跨学科的结构关系,引文代际之间继承与创新、基础与前沿的关系,表征了科学文化相对于非科学文化的优势与特征,从而构成科学生生不息、加速累积的内在机制与发展动力。
  同时,科学学视野下的三个科学引文理论,反映了科学引文分析的内生动力与神奇魅力,展现了引文分析方法的发展潜力与广阔前景。自1964年科学引文索引(SCI)数据库诞生以来,引文分析方法应运而生,迅速起步,不断深化与拓展,大致可以分为如下几个阶段:普赖斯、加菲尔德首创基于SCI的引文分析,可谓引文分析1.0,以普赖斯的科学论文的网络为代表,虽然这个阶段仅10多年时间,却预见到基于引文分析的科学图谱革命必将到来;继之,著名科学计量学家斯莫尔(Henry Small)的科学文献共被引分析[9]、两位著名科学计量学家怀特(Howard D. White)和麦肯(K.W.McCain)的作者共被引分析[10],先后突起,上升为引文分析2.0,以斯莫尔的科学文献的共被引为代表,这个阶段持续长达四分之一世纪,艰难探索引文分析的知识图谱;之后,20世纪末信息可视化技术产生并引入科学引文领域,导致基于引文网络分析的科学知识图谱悄然兴起、迅速发展,堪称引文分析3.0,以著名信息可视化专家、引文网络分析可视化软件CiteSpace发明人、美籍华人学者陈超美(Chaomei Chen)的科学前沿图谱:知识可视化探索[11]为代表。这样,自上世纪60年代至本世纪初叶,科学计量学进入引文分析主导的黄金时代。现在伴随全文本科学引文数据库的推出,新一代的引文分析——全文引文分析问世了,我们开始迈向引文分析4.0的时代。
  全文引文分析,作为引文分析4.0相对于与引文分析3.0,有些什么变化呢?任何引文分析的学习对象都涉及施引文献(科学文本)与被引文献(参考文献)之间的交集,而作为高端的引文分析3.0,CiteSpace知识图谱体现了知识流动的引文时空分布,它巧妙地设置表示时序的色调实现其引文时间分布;它从施引文献提取基于知识单元的标识词,以表征共被引聚类显示的学习前沿;它凝聚了被离散的知识单元,从而发现了科学文本与其参考文献之间交集的共性知识内容。然而,由于依托非全文科学引文数据,缺失科学文本本身的空间信息,CiteSpace图谱的“引文空间”只是笼统的抽象空间,无法展现知识流动在现实科学文本中的空间分布。与引文分析3.0不同,全文引文分析最突出特征在于依托全文科学文本中的引文空间信息,反映施引文献全文与其被引文献之间交集内容的知识流动理论,拓展为完整的引文时空结构与分布理论。全文科学文本蕴藏的丰富引文空间信息,是一片尚待开垦的处女地,为拓荒者提供了大展宏图的机遇与场所。令人欣慰的是,一批意气风发,脑洞大开的中外学者,包括大连理工大学WISE实验室的年轻博士,几乎同时开展全文引文分析的探索,引领引文分析4.0的新潮流。
  全文引文分析:理论、方法与实践,就是作者站在这个引文分析4.0潮头大胆弄潮的一部力作。我快乐地看到,该书在原来博士论文的基础上,经过修改、调整和补充,展示出结构更加严谨、创新更加突出的全新面貌。其独到创新之处主要是:
  首先,设计和开发了一种基于XML格式全文数据的引文分析系统,进而通过对施引文献与被引文献之间交集内容进行辨识,构建了一个由引文空间要素的位置、强度和语境所组成的全文引文分析框架,并推演出全文引文分析方法的基本功能,从而搭建了可供引文空间分析及其应用学习的全文数据分析平台。
  其次,以国际期刊信息计量学学报(Journal of Informetrics)全部论文(2007-2013)的全文数据为案例,借助XML格式全文数据分析平台,实现了全文引文空间的位置、强度和语境及其特征的分析,其中独创了一种直观展现全文引文位置空间分布的可视化图谱,显示出被引经典文献在施引论文中的空间分布规律性。
  最后,从全文引文的位置、强度和语境三个方面,分别应用于科学知识图谱、科学论文评价和科学文献检索等领域进行了探索性的学习,取得了全文引文分析所特有的优越效果。例如,基于全文不同章节高被引文献的共被引网络知识图谱,展示了不同章节引文图谱的不同内涵,从而更加微观地反映了科学学习前沿及其知识基础。
  诚然,这部著作毕竟是对全文引文分析的初探,难免存在一些不尽如意之处。在我看来,某些术语、概念存在纠结,值得深入推敲;对全文引文分析的理论基础学习尤为单薄。该书所利用的全文引文信息远不及全文遮蔽的引文信息,它所学习处理的全文引文几个方面的问题远少于它所引出的未予关注的问题。对此,我相信作者当会在全文引文分析领域继续学习中给予关注和探讨。
  作为该书基础的博士论文阶段,我作为指导教师之一,提出的许多意见和建议得以接受和吸收;该书仍有个别方面与我的见解不尽一致,在学术上是正常的,我们师生之间相互尊重、彼此相长。我尤其欣赏志刚的创意,细致而坚韧的精神与学风,他不轻易放弃个人观点和独立的人格,显得更为难能可贵。这是这部著作成功之所在。
  现在,针对一些人对于引文分析领域产生的一些疑虑和责难,我们可以从全文引文分的视角和前述三个基础理论的高度做出回应了:我认为这些质疑和责难的缘由,在很大程度上在于人们对引文作为科学文本不可分割的基本特征认识缺乏;对引文作为科学与非科学的区别并使科学比非科学更快累积的机制不甚了解;对科学文本的引文特征作为科学评价的内生指标及其不可替代性不足理解;对引文分析作为科学文本的内生方法及其潜力估计缺乏。
  因此,蔑视科学文本内生的引文分析,企图用“Altmetrics”(被误译为“替代计量学”)取而代之,是不可能的。但是科学文本的传播与影响涉及诸多方式与方面,在科学评价中补充一些指标是完全应当的,或许把全文科学论文的内生指标与外生指标结合起来进行科学评价更为合理。基于此,我建议将“Altmetrics”直接译为“补充计量学”[12],或者改用“Suppmetrics”(“补充计量学”, Supplementary metrics)的术语来取代“替代计量学”的译法。
  至于科学界反对用期刊影响因子进行科研评价的呼吁和行动,我认为是完全正义的。期刊影响因子与引文分析本身不同,倒是成为科学期刊阻碍科学交流的新例证,因此与其抨击影响因子,不如响应伟大科学家和科学学奠基人贝尔纳的一贯倡导,取消科学期刊,实现直接交流。现在一系列全文科学论文预印本发布数据库网站的涌现,为科学直接交流、废止科学期刊创造了条件。
  末了,似应对全文引文分析的前沿问题与未来方向做一个概括,但我以为不必如此,细心的读者或许已从前面的讨论中了解到我的基本看法,如果再发表几条,不仅有画蛇添足之嫌,而且会误导或限制刚刚兴起的全文引文分析学习与发展。
  所以,还是回到为该书作序的本意上来,向我们的科学学及科学计量学界、科学情报学界、科研管理界和对引文分析领域感兴趣的广大读者,推荐全文引文分析这本值得一读的书。同时,也期待作者胡志刚博士,继续奋发努力,永不停息,向着引文分析4.0的不尽前沿迈进,做出无愧于这个伟大时代的贡献。
  参考文献:
  [1]J. D.贝尔纳..科学的社会功能[M].陈体芳译.北京:商务印书馆,1982:292-409.
  [2]Bernal J. D. The Transmission of Scientific Information: A User's Analysis. Contribution to International Conference on scientific information.Washington,1958,Published in Report on Proceedings.
  [3]J. D.贝尔纳.二十五年以后[A].载M.戈德史密斯,A.I.马凯主编.科学的科学[C].赵红州,蒋国华译.北京:科学出版社,1985:245-267.
  [4]Garfield,E. Citation Indexes for Science: A New Dimension in Documentation through the Association of Ideas[J]. Science,1955 , (122):l08-111.
  [5]梁永霞,刘则渊,杨中楷.引文分析学的知识流动理论探析[J].科学学学习,2010, 28 (5), 668-674.
  [6]J.D.贝尔纳.科学学习的战略(1955)[A].载科学学译文集[C].北京:科学出版社,1981:25-33.
  [7]D.普赖斯.科学的科学[A].载M.戈德史密斯,A.L.马凯主编.科学的科学[C].赵红州,蒋国华译.北京:科学出版社,1985:227-245.
  [8]D.普赖斯.科学论文的网络[A].张崴译,梁立明校.载刘则渊,王续琨主编.科学•技术•发展——中国科学学与与科技管理学习年鉴2008/2009 年卷[C].张崴译,梁立明校.大连:大连理工大学出版社,2010::29-39.
  [9]Small H.Co-citation in Scientific Literature: A new measure of the relationship between publications[J].Journal of the America Society of Information Science,1973,24(4):265-269.
  [10]White H.D., McCain K.W., Visualizing a discipline:An author co-citation analysis of information science, 1972-1995[J]. Journal of the American Society for Information Science,1998, 49(4):327-356.
  [11]陈超美.科学前沿图谱:知识可视化的探索(第二版)[M].陈悦,等译.北京:科学出版社,2014.
  [12]
  翟自洋科学网博客.由信息计量学新词altmetrics的翻译想到的. 发表2013-4-12/引用2016-10-30.博文中介绍著名科学计量学家鲁索(Ronald Rousseau)学术报告,鲁索不赞成这个提法,提出用Influmetrics术语取代;而武夷山建议译为“补充型指标计量学”,博文将Influmetrics译为“社媒影响计量学”。引者注:altmetrics一词不知何时被谁误译为“替代计量学”,因此,这里参考武夷山的建议,本序将altmetrics直接译为“补充计量学”,或者改用Suppmetrics (“补充计量学”, Supplementary metrics)的术语。
刘则渊:迈向引文分析4.0时代  |  责任编辑:晓木虫

路过

雷人

握手

鲜花

鸡蛋
返回顶部