后SCI时代，拿什么来评价人才和科技成果

晓木虫 · 发表于 2016-8-28 08:17

后SCI时代，拿什么来评价人才和科技成果

李侠

炎热的七月，对于中国学界而言，最火爆的事情不是天气而是科技评价体系可能面临的变革。这个事情的直接导火索就是，2016年7月11日汤森路透公司（Thomson Reuters）正式宣布将于未来几个月内以 35.5 亿美金出售旗下的知识产权与科技业务，其中就包括中国科学界最为熟知和敏感的 SCI业务。至于接手的新东家（Onex Corp 和霸菱亚洲投资）将如何处理与定位SCI，一切尚不为人知？仅就商业并购而言，这是一次很普通的商业事件，之所以引发人们的热议，是因为以SCI作为科研考评手段已经渗透到中国科技管理体制的血液中，经此一变，管理部门与从业者真不知道未来该如何去评价与做科学了？

SCI（科学引文索引的简称）原本是美国科学计量学家加菲尔德（Eugene Garfield，1925-）于20世纪50年代首先提出的设想，并于1964年首次发布SCI。客观地说，SCI首先是作为一种检索工具开始被认知与发挥作用的，时至今日，这个功能也是非常强大的；其次，才衍生出科技评价功能。SCI设想的出现，源于加菲尔德敏锐地意识到：随着二战结束后美国加大科技投入，科技产出必将快速增加，此时信息的收集、检索与评价就成为非常紧迫的任务，由此推动他开发SCI的检索系统，事后证明这项工作极大地推动了科技的发展，并衍生出很多新的功能，如影响因子（IF）等，而这些新的功能直接影响了科技工作者的研究偏好与研究方向的选择。在此基础上，加菲尔德提出著名的文献集中定律，即80%的有价值的学术文章发表在20%的学术期刊上，由此，也开启了学者对于著名期刊的崇拜情结。

SCI作为科技评价工具在中国科技界的登场，始于上个世纪80年代末，南京大学是始作俑者。客观地说，当初的引进目的有二：其一，避免人情对于科技评价的干扰，还科学评价以客观性；其二，树立一种路标，起到导向作用。改革开放之初，国内科技水平很低，也没有像样的评价体系，引入SCI也相当于借船出海。因此，就SCI引进初衷而言，这些设想虽然不完善但基本上还是合理的。问题在于，中国的改革是单边改革，即只关注状态改革，而不去关注体制结构的改革，管理者一旦拥有这个法宝，并取得一些可见成绩后，就肆意扩大化。这就造成科技管理部门的进步速度远远赶不上科技发展的速度，为了掩盖这种认知上的落差，管理部门只好越来越依赖SCI作为科技评价工具。

由此而来，文章越来越多，而真正解决实际问题的研究却越来越少。科技界又是聪明人扎堆的地方，一些人开始意识到这套游戏规则背后的秘密，然后开始充分利用这套规则的缺陷，去套取由之而设的奖励。在短期内，数据非常漂亮（短短三十年的时间，中国已是世界上第二大SCI论文生产国），这份成绩单既满足了管理者的政绩要求，又满足了公众的自豪感，同时还让科技界那些脑袋灵光者赚的钵满盆满的，一派繁荣景象，这真是一个多赢游戏。这期间偶尔也会出现一些学术不端事件，然而在群情亢奋中，这些缺陷总会被善意地辩护。直到某些突发事件出现以后，竟然发现没有合适的应对之策。那座曾经宏伟的科学大厦竟然不能解决来自生活中的诸多不是“难问题”的问题，这一刻，公众开始意识到，那座看起来很美的科学城堡原本是金玉其外，败絮其内，中看不中用。这个时候人们开始去反思如何评价科技成果和人才是合适的？一个会写文章的医生和一个会动手术的医生哪一个是病人最需要的？治理盐碱地和一篇不咸不淡的SCI论文哪一个对于国计民生意义更重要？回想新世纪的这十五年，SCI已经成为中国科技界的通行证和万能钥匙，拥有它可以顺利毕业、可以晋升职称、可以申请到项目、可以结题，还可以获得众人仰慕的各类称号，赢者通吃已不是传说。在科技界的江湖，SCI就是倚天剑和屠龙刀。为了它，科技界衍生了多少恩怨情仇，正所谓：少年子弟江湖老，红粉佳人白了头。

坦率地说，时至今日，SCI的评价标准已经潜移默化为中国科技共同体行动的无形指挥棒，根深蒂固，短期内很难去除。一个最初作为评价手段引进的工具，在三十年后终于摇身一变成为研究目的。在见证如此沧海桑田之变的时刻，不妨回顾一下：我们造就了无数SCI英雄，但就是没有创造出一些引领世界的重大创新成果。这种评价模式造成的科技界的扭曲状况是不能令人接受的。那么，在后SCI时代，我们将怎样评价科技成果与人才呢？

后SCI时代，如何约束管理者的自由裁量权？

如果说引进SCI有什么深远影响的话，那么，它唯一的益处就是基于公平并最大限度上约束了管理者在科技评价中的自由裁量权问题。所谓公平是指，它看重杂志本身（以及衍生出来的影响因子）而不看重研究者的身份与地位，这相当于罗尔斯提出的“无知之幕”，由此导致评价结果从程序上是公平的。由于程序公平，它实现了最大限度上遏制权力对于评价过程的干扰与影响。在一个盛行官本位的社会，这套模式之所以能被广大科技工作者热捧与认同，并被奉为圭臬，其原因皆在于此。问题是，科研成果并不仅仅是论文可以完全覆盖的，科技是一个非常庞大的建制，其涉及的领域千差万别，其成果产出形式也是千差万别，仅凭论文是无法完全代表的。那么，那些无法用论文代表的科研成果与人才该如何评价呢？坦率地说，这是一个世界性的难题，时至今日，并没有形成一个全世界公认的评价范式。

由于我们的科学研究的根基比较浅，还没有形成一个自律感较强的共同体与科学文化，再加上这些年科技管理部门的懒政，目前并没有一套得到公认的现成办法，其中最大的困难仍旧是不知道该评价什么？在这个模糊区间，管理者的自由裁量权又可以肆意越界。这就是为什么人们都知道SCI评价存在问题，但一直容忍它存在的深层原因。毕竟，相比于管理者的自由裁量权而言，SCI的标准虽然狭窄，但其公平，这是共同体成员在两害相权取其轻的内在偏好主导下的一种不得已的选择而已。其实，评价科技成果和人才的困难在于我们不了解科技成果的智力属性，从而造成评价的困境。

道理很简单，不同的科技成果是由人类的不同智力要素实现的结果。因而，只需要把人类的不同智力要素揭示出来，然后针对这些特定要素再制定有针对性的评价规则即可。现代心理学以及认知科学等的研究成果已经能够证明人类智力的多元要素结构。如哈佛大学心理学家加德纳（Howard Earl Gardner，1943-）在1983年提出多元智力论（theory of multiple intelligences），他认为智力不是单一的概念，而是多元的，而且各种智力之间是相对独立的，他通过研究认为通常人有8种智力（语言智力、数理-逻辑智力、空间智力、音乐智力、身体-运动智力、社交智力、自我认识智力、自然观察者智力）。不论加德纳的这些智力要素集合是否完备，但是有一点是可以肯定的，即智力是由多要素构成的。以不同智力要素为主产生的成果也不能一刀切采取一个评价标准，比如音乐和体育的评价标准就是不一样的。我们再来看一个与之类似的简化版本，这就是美国心理学家斯坦伯格（Robert Sternberg，1949-）在1985年提出智力三元论（Triarchictheory of intelligence），在斯坦伯格那里智力包括分析能力、创造能力与实践能力。结合这些成果，我们可以清晰发现以分析能力为基础的科技成果是可以采用SCI这类评价标准来评判的，但是以创造能力为基础的科技成果就不能完全采用论文这种评价模式，可以辅之以专利等市场标准来评判，要知道市场对于创新是最敏感的。对于以实践能力为基础的科技成果可以采用经济指标与市场认可为评价标准。如文艺作品的评价，完全可以采用市场模式来评判，工程技术类（包括文史哲类）产品可以采用市场与专家的综合评价。对这些存在区别的评价标准不能厚此薄彼而要给予同等承认。这样一来就会最大限度上避免SCI评价范围扩大化的问题，而且这种模式也可以最大限度上约束管理者的自由裁量权带来的混乱与寻租现象。只要想想经过市场评价的邓丽君歌曲，这么些年过去了，我们仍然觉得很美、很动听，这就是市场评价带来的客观结果，相反，当年那些被权力的自由裁量权干扰评审出来的获奖歌曲，如今早已被人们丢进历史的垃圾堆，其原因就在于此。

一旦SCI评价范围被限制与被弱化后，如何重新设立有效的激励机制，并使科技进步与社会福祉最大化成为可能，就是后SCI时代的科技管理者必须解决的问题。

后SCI时代的鉴别成本与激励机制

管理者之所以喜欢采用SCI作为评价标准，不是因为他们不知道其中存在的局限与困境，而是因为采用SCI所具有的潜在收益巨大，因而无法舍弃而已。抛开这些收益（管理者的政绩诉求、公平的口碑、操作简单等）不谈，采用SCI的一个明显优势就是降低整个社会的鉴别成本，换言之，成果的鉴别被变相地委托给了期刊、杂志，而管理者不用费心就可坐享其成。何乐而不为呢？再加上西方的科技水平比我们普遍高，因而这个结论遭到质疑的风险也比较小。综合这些因素，SCI的流行是管理者为主，科技共同体有意配合的一次合谋行为。千万别小瞧这个问题，在大科学时代，专业化分工如此深入，鉴别一项成果是极其昂贵的行为，对于整个社会而言，这个鉴别成本是非常巨大的，甚至是整个社会无法承担的。只要看看当下社会对于人才出身的变态性关注，不也反映了在鉴别成本约束下所导致的节约型选择模式吗？基于统计学规律，只要你是好学校毕业的，那么你的水平和能力就是有保证的，也是可信赖的。就如同成果发表在高影响因子期刊上被认为重要一样，因为学校（期刊）为人才（成果）提供背书。尽管这种鉴别方式存在很大的误差，但符合节约成本原则。那么，在后SCI时代，如何降低鉴别成本呢？在笔者看来，对智力成果进行分类，然后利用市场接受与专家共同体的评判相结合是一条可行的道路，因为市场鉴别的成本是由社会承担的，而且社会的鉴别比较客观。一项技术成果的好坏，市场对它的检验是比较苛刻的，也是高度敏感的。以往对研究的分类所采用的：基础研究、应用研究与试验发展研究，仍是基于小科学时代的简单认知框架做出来的，并没有反映出各类成果产生的主要智力要素。在今天这种分类已经造成评价的困难。

降低鉴别成本只是问题之一，还有一个老问题也需要解决，即SCI评价模式扩大化蕴含着潜在的道德风险问题。这里的道德风险可以简单地看成：为了获得发表SCI的奖励，可以采用一些技术性措施，如把一篇文章拆分成几篇文章来发表（学术界把这些做法称为最小出版单元或萨拉米香肠式的发表），以此获得最大收益，而这种做法是与科学的精神气质不符的，这时就会出现道德风险。道德风险的出现责任不仅仅在于个人，更在于制度设置出现了问题。在信息不对称的背景下，作为理性的个体去追求利益最大化本无可厚非，但是这里存在一个问题，即这些聪明的个体所获得的多余收益是由全体纳税人买单的，这是不可接受的。只要管理部门有兴趣可以到SCI网站上去找一些发表记录超级强悍的作者，看看他们的文章解决了什么科学问题？又取得了哪些突破或者创新，以及通过这些文章个人又获得了什么收益（项目、称号等），以及两者之间是否相称，相信会有一些让人震惊的发现。更为严重的是，这种现象延长了歧视性政策的生命周期，而歧视性政策通过累积作用会扭曲群体的认知，这个后果早已被社会心理学的研究所证明。

道德风险的蔓延揭示出科技管理中长期存在的“委托——代理”关系中存在问题，我们设定管理部门是委托者，那么科技共同体就是代理人。由于双方之间存在信息不对称现象，以及成果鉴别的困难，委托者如何激励代理人去努力工作呢？简单的去数SCI，显然无法激励代理人投入巨大精力对解决真正重大的科学问题，只会寻找付出最少的简单问题去做。由此可见，靠SCI去进行科研管理存在很大的道德风险，而且真正的损失都是国家买单，这是懒政行为。为了避免这种危险，管理部门倾向于采取过多、过频的检查，以此对代理人形成激励，但这种做法又会造成对研究的干扰，那么合理的解决办法在哪里呢？

后SCI时代，委托-代理的关键在于，激励代理人的努力供给。换言之，让代理人的努力付出有超过以往数SCI时的收益。作为委托人的管理者不能太抠，一分价钱一分货，这是市场的铁律。笔者以前曾提出对优秀成果实行事后赎买制，其实质也在于对努力供给的一种补偿与激励。另外，对于那些不肯付出相应努力的代理人实行惩罚。胡萝卜和大棒都是必要的，缺一不可。前些年笔者一直批评那些所谓的重大项目，原因就在这里：缩水严重。没有一个重大项目不结题，但又没有多少重大项目取得重大成果。

来源：《今日科苑》2016（8）

后SCI时代，拿什么来评价人才和科技成果

xiaotangling · 发表于 2016-9-29 00:56

论坛有你更精彩！

cristy5201 · 发表于 2016-9-29 11:07

论坛有你更精彩！

hxk06102558 · 发表于 2016-9-29 11:07

好东西一定要看看！

kangmaj · 发表于 2016-9-29 16:59

以后多分享一些这样的有价值的帖子啊

feiyang · 发表于 2016-9-29 22:00

谢谢您的分享！

pengye · 发表于 2016-9-30 04:53

大家都不容易！

THINKER · 发表于 2016-9-30 09:30

大家都不容易！

cristy5201 · 发表于 2016-9-30 09:37

大家都不容易！

香吉士的青橙 · 发表于 2016-9-30 09:53

好东西一定要看看！

玫瑰之泪 · 发表于 2016-9-30 14:11

大家都不容易！

账号		自动登录	找回密码
密码			注册新账号

后SCI时代，拿什么来评价人才和科技成果

晓木虫

后SCI时代，拿什么来评价人才和科技成果

相关帖子