我国科研诚信政策特征及演化逻辑
——基于文本挖掘法

杨 锐1,2,杨 亮3,李良强3,张 楠2,廖觅燕3

(1.四川省科技促进发展研究中心,四川 成都 610041;2.清华大学 公共管理学院,北京 100084;3.四川农业大学 商学院,四川 成都 611830)

摘 要:科研诚信是科技创新的基石,构建以诚信和责任为基础的创新生态已成为科技治理体系建设的重要内容。科研诚信建设政策发展至今已较为成熟,但鲜有文献对其政策特征及演化逻辑进行客观分析。基于2000—2019年国家及部委颁布的268份科研诚信建设相关政策文件,将政策文件从时间上划分为3个阶段,通过高频词识别、共词分析及关键词聚类等文本挖掘法,从内容上区分为9个主题,探索不同阶段科研诚信政策主题演变趋势。结果发现,政府对于科研诚信政策的制定是一个由点及面再到点的过程,科研诚信政策关注重点呈现出“个人—环境—全过程管理”的变化逻辑。

关键词:科研诚信;科技政策;文本挖掘;共词分析;演化逻辑

Characteristics and Evolution of Research Integrity Policy in China
——Based on Text Mining Method

Yang Rui1,2, Yang Liang3, Li Liangqiang3, Zhang Nan2, Liao Miyan3

(1.Science & Technology for Development Research Center of Sichuan Province, Chengdu 610041,China;2.School of Public Administration, Tsinghua University, Beijing 100084,China;3.School of Business, Sichuan Agricultural University, Chengdu 611830,China)

AbstractResearch integrity is the cornerstone of scientific and technological innovation.Building an innovation ecology based on integrity and responsibility has become an important part of the construction of scientific and technological governance system.The development of research integrity policy has been maturity, but there are few literatures to objectively analyze its policy characteristics and evolutionary logic.Based on 268 policy documents about research integrity construction which issued by the country and ministries between 2000 to 2019, these policies were divided into three periods.This paper divided the feature words of these policy documents into nine categories through text mining, such as high frequency word recognition, word clustering analysis, explore the characteristics of different stage research integrity policy tool and its trends in evolution.It is found that the formulation of research integrity policy is a process from part to whole, and then from surface to point.The focus of research integrity policy showed the change logic of "individual —environment — whole process management".

Key Words:Research Integrity; Science and Technology Policy;Text Mining; Coword Analysis; Evolution Logic

DOI10.6049/kjjbydc.2020020699

收稿日期:2020-06-19

基金项目:国家社会科学基金西部项目(20XZZ011)

作者简介:杨锐(1986-),女,四川乐山人,四川省科技促进发展研究中心助理研究员,清华大学访问学者、“西部之光”访问学者,研究方向为科技政策、数据挖掘;杨亮(1998-),男,四川遂宁人,四川农业大学商学院硕士研究生,研究方向为信息管理与商务智能、政策分析;李良强(1981-),男,四川广元人,博士,四川农业大学商学院讲师、硕士生导师,研究方向为信息管理与商务智能、政策分析;张楠(1978-),男,天津人,博士,清华大学公共管理学院副教授,研究方向为政策信息学;廖觅燕(1994-),女,四川自贡人,四川农业大学商学院硕士研究生,研究方向为信息管理与商务智能、政策分析。本文通讯作者:李良强。

开放科学(资源服务)标识码(OSID):

中图分类号:G311

文献标识码:A

文章编号:1001-7348(2020)20-0089-10

0 引言

随着科研活动的日益频繁,科研诚信问题越来越成为世界性议题。科研诚信是科技创新的基石[1],政府和科技部门在科研诚信建设中扮演着引导、管理及惩治等重要角色,在科研诚信问题治理中发挥重要作用[2]。政府公共管理的主要手段即公共政策,现阶段社会管理均通过新的公共政策选择和实施而实现[3]

美国作为科研诚信体系建设最完善的国家,早在1992年就设立了科研诚信审查办公室(Office of Research Integrity, ORI),以此加强对科研活动中不端行为的监督[4]。我国于1999年印发了《关于科技工作者行为准则的若干意见》,2006年5月教育部宣布在人文社会科学委员会下设立社会科学学风建设委员会,以加强学术道德和学风建设,遏止科研不端行为[5];同年,《国家科技计划实施中科研不端行为处理办法(试行)》政策出台,国家将“科研诚信”第一次写入政策,此后各个部委纷纷从各自业务范围出发制定了一系列加强科研诚信建设的政策法规[6]。2009年,科技部等十部门联合发布《关于加强我国科研诚信建设的意见》,对科研诚信建设各个环节进行了系统指导和规范。随着全面深化改革进入新阶段,各部委接连颁布大量科研诚信相关政策,为科研诚信建设提供了明确方向和坚实保障。

现有研究主要关注科研诚信定义及治理等方面。王飞[7]从科研诚信教育角度出发对比中外教育现状差异,发现当前我国科研诚信教育存在主体责任不明确以及高校机构科研诚信教育积极性缺失等问题;朱邦芬[8]认为,当前我国社会存在急功近利、道德水准普遍滑坡、高校学生唯分数的风气,科研人员以各式各样成果奖励为标准的数字化管理评价体系导致现阶段我国存在严重的科研诚信问题。

高校是科研诚信建设的第一责任主体[9],多数文献着重从高校视角研究科研诚信相关议题。曹蓓等[10]认为,科技资源管理相对落后、科研评价监督机制存在问题以及高校学生和科研人员科研诚信训练缺失导致高校学术不端事件频发;蒋来、詹爱岚[11]系统梳理近10年来国内发生科研不端行为的案例,从科研活动不同阶段分析高校存在的不端行为,深入研究不端行为成因并提出“疏、堵、防、治”的综合治理体系。

综上所述,现阶段对科研诚信的研究大多停留在理论层面,科研诚信治理结果研究较少,从政策文本视角切入的研究更为少见。科研失信治理不仅需要教育部门发力,更应联合多方职能部门通力治理。在政策迭代、更新完善过程中,中国科研诚信体系建设脉络呈现哪些发展态势?是否具有阶段性特征?为回答上述问题,本文采用文本挖掘方法,从中国科研诚信政策中提炼政策特征及演化逻辑,从中总结规律并为未来科技治理提供方向。

1 文献回顾

1.1 科研诚信定义

学界和业界通常采用“学术不端”“科研失信”或“科研不端”等负面定义作为科研诚信的研究对象[12]。赵瑞芹等[13]阐述了目前各国对学术不端的定义,发现国内外没有统一标准,并对当前主要国家的科研诚信政策进行了描述性分析。1989年8月8日,美国公共卫生局[14]颁布了第一个关于科研不端行为的正式定义:科研不端行为是指在科研活动中发生的捏造、剽窃或篡改或者违背科研共同体公认规则的行为;董建龙[15]在研究国外科研诚信问题的基础上,提出一个综合性的学术不端定义,即在项目申报、研究计划、项目执行、同行评议及成果发表等方面存在伪造、篡改、剽窃等背离学术道德和准则的行为;王聪等[6]根据国家2017年之前4部委对科研诚信的定义,认为科研诚信概念包括正面规范、准则(符合科研诚信的行为)和负面有问题的研究行为(违背科研诚信的行为);袁军鹏等[16]通过对国内相关政策的整理发现,国内对科研诚信的定义多从科研人员自身角度出发,从而导致概念定义存在交叉。

本文认为,科研诚信内涵不但包括对科研人员从事科研活动规范、准则等建设性内容,还包括对信守科研诚信的激励(如科技评价、科技奖励等)和约束性内容(如科技监督、失信惩处等)。因此,本文在政策收集过程中综合考虑上述影响科研诚信建设的因素,提取政策中的关键信息。

1.2 学术不端现象因果分析

关于科研诚信问题产生的原因,Qiu[17]在《Nature》上发表观点称“在高影响力期刊上大量发表论文的压力可能会鼓励学术不端行为”,大多数学术评估需要提供学术论文,科研人员在就业、晋升、项目经费、论文发表等压力下铤而走险,接受调查的1/3的研究人员承认剽窃、伪造或捏造数据;刘兰剑等[18]认为,引发科研诚信问题的因素包括个人因素、组织因素及环境因素,其中个人因素发挥着主体作用;Okonta & Rossouw[19]在2012年调研中发现,超过50%的受访人员认为外部资助压力、获得认可、发表论文以及对不当行为的不充分谴责对科学不当行为产生了强烈影响;Haven等[20]通过问卷和焦点小组访谈混合实验发现,监督不足、同行评审不严谨、草率评审、评审人盗窃思想行为、裙带关系等是当前科研诚信中较为突出的问题,且在不同学科领域有所差异;危怀安等[21]提出一个科研诚信问题生成机理概念模型,认为主体性诱因和环境性诱因是科研诚信问题产生的刺激因素。其中,主体性诱因是科研诚信问题产生的内在根源,环境性诱因是科研诚信问题产生的前提条件;Fanelli等[22]通过对2010—2011年所有已撤销或更正论文的Logistic回归分析发现,学术不端行为更有可能发生在缺乏科研诚信政策的国家,因此应研究诚信政策、改进评价机制、加强科研诚信教育以及鼓励研究人员透明交流。

在不同时期,造成科研不端的原因不同,国家、部委或者机构一般会遵照当时情况制定对策,有针对性地解决当下的科研诚信问题。由此,本文认为,科研诚信政策发展有一定的阶段性特征。

1.3 科研诚信政策相关研究

1.3.1 国外科研诚信政策制定经验总结

我国科研诚信建设进程整体上滞后于欧美发达国家[15,23],一些学者通过对国外科研诚信政策展开研究并汲取相关经验,极大地促进了我国科研诚信政策发展。田瑞强等[24]从政策工具角度对美国学术不端行为治理政策进行量化分析,并对实践案例进行文本抽取分析发现,美国学术不端治理形成了政策法规立体体系、多阶段处理程序、梯度工具篮子;王飞[25]通过系统分析丹麦奥胡斯大学现有科研诚信政策以及相关实践,提出了我国大学科研诚信建设的可行思路。政策制定不仅需要科学依据,政策执行过程中的协作对政策执行效果也会产生直接影响;黄军英[26]通过分析美国科研诚信政策发现,白宫政策原则和规定是联邦各部门的最高指导原则,其它部门必须在此前提下制定与本部门相符的科研诚信政策。

1.3.2 国内科研诚信研究情报学分析

王聪和鸿鹏[6]通过系统梳理科研诚信政策发现不同政策间相同概念界定不一致的情况,并进一步识别出科研诚信相关概念含义与具体使用情况;陈雨等[23]从政策文本内容分析和文献计量分析角度,对国内外科研诚信相关概念进行历史溯源,对科研诚信相关政策和里程碑性事件系统梳理,通过学术论文关键词特点分析,揭示了国内外科研诚信研究热点演进特征。结果显示,国内科研诚信研究明显滞后于国外;胡元姣[27]认为,当前我国科研诚信存在3个问题,即科研诚信管理问题、科研诚信体制问题及科研诚信教育问题,因此应加强科研诚信建设,从政策方面保证落实。政策在明确制度规范、界定各方权责及制度落实等方面发挥重要作用,是科研诚信建设重要的一环。

1.3.3 科研诚信政策文本分析相关研究

对于政策文本,少量学者使用定量分析、文本挖掘方法对政策进行了量化分析。靳彤等[28]使用政策文本计量和内容分析法对科研诚信政策文本从时序、机构、文本、内容等方面进行了探索;汪伟良等[29]在知网总库中进行文献检索,在共词网络理论基础上对当前科研诚信文献进行分析,探析我国科研诚信研究现状、结构。

综上所述,以往学者对科研诚信定义、科研不端成因及科研诚信改善对策等进行了较为全面的研究,也不乏梳理政策脉络的文章,但仍有一些问题值得探讨:①当前国内对科研诚信相关问题的探讨主要使用定性方法,其优势是可以按照事先设定好的分析需求,有针对性地对某些政策点进行编码和归纳总结,对特定主题挖掘效果较好。但是,若遇到大量文本,该方法就显得低效,加之标注者学术背景、知识储备及思维方式等差异可能导致结果出现偏差;②当前,科研诚信建设演进对象以文献计量为主,对科研诚信政策的研究要么采用正向规则和准则,要么选取负向科研不端,少有学者在广义科研诚信概念下进行政策分析研究。

鉴于此,本文以2000—2019年中央及各部委发布的与科研诚信相关的政策文本为研究对象,使用文本挖掘方法对近20年科研诚信相关政策文件分阶段进行分析,探讨各阶段政策工具特点及演变逻辑。

2 研究设计

2.1 数据来源

本文政策文本来源于北大法宝。笔者通过对文献研究的总结(陈雨等,2017;史昱,2019),结合曾起草过科研诚信文件的经验,确定“科研诚信”“科研不端”“学术不端”在内的7个检索词。由于北大法宝数据库不具备多个关键词同时查询的功能,本文将检索词分别在“法律法规—中央法规司法解释”类别中查询。本研究认为,科研诚信作为一种倡导性的道德约束词汇,除国家层面出台的少部分政策在标题中使用外,更多政策只在部分内容中对科研诚信进行规制。因此,本研究在检索规则制定上采用“全文”“精确”检索政策数据。在样本数据采集上,将关键词累积命中频率小于10的认为是局部科研诚信政策。因此,样本政策文本选择只截取包含关键词的(1个或者多个)段落;关键词命中率大于等于10的政策将全文作为样本。经人工筛选,剔除部分科技计划申报通知、职称评审通知、创新人才选拔通知等文件,并人工删除非部委级别发文检索结果数据,原始数据检索及采纳结果如表1所示。

在单个关键词检索完成后,本文对同源(来自同一份文件)数据进行合并,将同源文件归并为1条数据,关键词累计命中大于等于10的以全文样本进行数据采集。最终获取政策数量268份,按照采纳类型区分,部分采纳253份,全文采纳15份;按照文件类型划分,法律文件5份,行政法规17份,部门规章类197份,党内法规33份,行业规定2份,团体规定14份。

2.2 阶段划分

由样本数据统计结果发现,科研诚信建设最早在国家及部委层面于2000年提出。鉴于此,本文以2000-2019年为时间段,将此期间发布的科研诚信建设相关政策文本作为研究对象。进一步发现,不同类别政策中提及科研诚信的时间不同:部门规章始于2000年,法律文件是2002年,行业规定是2005年,党内规定是2006年,团体规定和行政法规是2007年,司法解释类仅在2008年提及“学术道德”。本文所选的科研诚信检索词基本上都最先在部门规章中提出,学术道德和学术风气于2000年提出,学术不端于2003年提出,科研诚信和科研不端于2006年提出,学术造假于2007年提出,科研规范于2012年提出。危怀安和韦滨[21]对近20年来国内主要数据库进行检索发现,科研诚信及学术不端研究文献在1999-2008年增长缓慢。在此期间,相关研究注重对科研诚信问题治理措施的探讨及概念界定[23]。而政策作为指导性和方向性文件对学术研究发展具有引领性作用,学术研究发展一定程度上能够反映政策发展。综上所述,本文认为2000-2008年为科研诚信概念提出及科研诚信政策探索期。

表1 样本政策检索结果描述

政策类别法律文件行政法规司法解释部门规章党内法规团体规定行业规定小计首次出现20022007-2000200620072005科研诚信20062(2)6(6)0(0)144(80)17(15)14(9)0(0)183(112)科研不端20060(0)2(2)0(0)42(20)3(1)1(0)0(0)48(23)科研规范20120(0)0(0)0(0)5(3)1(1)1(0)0(0)7(4)学术不端20033(3)9(9)0(0)183(85)16(16)27(12)6(1)244(126)学术道德20001(1)4(4)1(0)276(115)13(11)18(10)5(4)318(145)学术风气20000(0)2(2)0(0)51(23)6(4)1(1)3(1)63(31)学术造假20070(0)1(1)0(0)13(7)4(4)2(1)0(0)20(13)

注:检索时间为2019年12月28日;表中“数字(数字)”中,前者为检索出的结果数,括号内为实际采纳样本政策数;加粗下划线所在单元格为关键词最早出现的政策类别

根据以上分析,本文根据每年度政策文件发布总数、关键词出现总数和每个政策关键词平均出现数绘制样本数据时间序列图(见图1)。由图1可以看出,科研诚信政策文件发布数量总体呈增长趋势,这与史昱[30]绘制的“国家层面科研诚信政策年度数量分布情况”一致,并且发文数量和关键词平均在每个政策中出现的次数均在2013年存在一个明显拐点。2009-2013年,政策以科技和教育部门共同规制为主,代表性政策为2009年8月26日科技部、教育部等10个部门联合发布的《关于加强我国科研诚信建设的意见》,为推动科研诚信建设以及调动广大科研人员积极性作出了重要贡献,成为一个时期以来科研诚信的重要指导[31]。综上所述,本文认为该阶段为科研诚信政策建设期。

在2014-2019年,多领域、多部门联合规制文件占据主体地位,尤其是2018年5月3日,中共中央办公厅、国务院办公厅联合印发了《关于进一步加强科研诚信建设的若干意见》,该文件基本构建起现代科研诚信制度体系,明确了科研诚信建设要求。2014年6月14日,国务院印发了《社会信用体系建设规划纲要(2014—2020年)》,这个文件首次从国家层面统筹规划建立社会信用体系,对教育、科研领域诚信建设具有重大意义。综上所述,本文认为该阶段为科研诚信完善期。

图1 2000-2019年科研诚信政策数据时间序列

2.3 研究方法

本文通过文本挖掘法对科研诚信政策文本进行分析。文本挖掘也称文本数据挖掘,通常是指从非结构化文本文档中提取有趣且非常规模式或知识的过程,可被视为数据挖掘或来自结构化数据库的知识发现的扩展[32]。文本挖掘能够从非结构化文本信息中发现潜在的联系、规律等,方便进一步抽取可理解、有价值的信息[33]。近年来,许多学者倾向于利用文本挖掘法对政策文本进行研究。袁野等[34]使用数据挖掘与数据可视化方法对中国内地16个省份人工智能产业规划进行定量分析,从现有政策高频关键词及内容关联度两个方面对政策主体、研究热点、重点领域进行分析;李芳[35]使用ROST CM文本挖掘软件对现有民办幼儿园认定管理政策文本进行文本挖掘,按照“普惠性民办幼儿园”概念、认定条件、认定程序、管理监督、保障扶持5个维度,制定分析单元编码表并归类政策文本内容;吴瑜等[36]对2016-2019年科技政策研究进行量化分析,通过关键词词频统计及聚类分析探讨中美科技政策研究热点,并对中美异同进行了比较。

通过政策文本分词处理,可以得到政策高频词、词与词间的连接关系以及同类词语间的分布状况,本研究文本挖掘流程如图2所示。

2.3.1 分词及高频词分析

通过文本分词能够缩小研究细粒度,所有文本挖掘工作都在分词基础上进行。本文使用Python及jieba第三方库进行分词和频数统计,对268份科研诚信文件分阶段汇总,分别对3个阶段文件进行预处理、分词及词频统计操作。

在分词过程中,本研究使用现有哈工大停用词库去除无意义的词语。为提高分词结果精度,首先,本文根据科研诚信政策文件内容,将“学术不端”、“科研不端”、“学术道德”等共108个词语加入自定义词库;其次,使用jieba库下的精准模式分别对3个阶段进行文件分词处理,为减少无关词语的影响,本文基于词性过滤除动词及名词之外的词语,分词后各阶段词语总数分别为4 585个、7 018个、21 010个。

图2 科研诚信政策文本挖掘流程

2.3.2 关键词抽取

本研究使用TF-IDF方法抽取政策文本中的关键词。TF-IDF,英文全称为Term Frequency-Inverse Document Frequency,是一种基于词袋模型(Bag of Word)的关键词抽取方法,在文本挖掘中被广泛用于评估一个词语对文本的重要程度,从而提取其中的关键词[37]

TF-IDF计算公式包括两部分:第一部分的TF(Term Frequency)表示词语在一个文档中出现的频率,假设文档长度为doc_lengthtf代表关键词在该文档中出现的次数,一个词语词频越高表明其于这个文档就越有意义,计算公式为:

(1)

第二部分IDF(Inverse Document Frequency)逆向文档频率衡量一个词语的普遍重要性,包含词语的文档数量越少表明词语越有代表性,通过IDF能够有效减少文档中一些介词、连词等词语的影响,其计算公式为:

(2)

其中,df表示文档频率,即包含某个词的文档数目,N为训练集中文档总数。

某一文档内的高频词,以及该词语在整个训练集中的低文件频率,其能够产生高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见词语,保留重要词语。TF-IDF计算公式为:

TF-IDF=TF*IDF

(3)

本文使用Python分别对3个阶段文本关键词进行抽取,同时过滤一些无实际意义且与本研究无关的词,如“相关”、“重点”、“强化”,以及主题关键词“科研诚信”、“学术道德”,最后将TF-IDF值由大到小排序并选取前60个关键词进行共词分析(见表2)。

表2 关键词抽取结果(前60)

关键词TF-IDF关键词TF-IDF关键词TF-IDF关键词TF-IDF学术12.072 219 机制6.650 090 课题4.904 856 学术风气3.987 781 科技11.084 519 学风建设6.419 657 实验室4.830 414 职业道德3.958 310 建设10.536 007 管理6.350 184 考核4.738 830 计划3.933 794 创新10.252 012 高校6.295 048 科技工作者4.727 541 弘扬3.904 417 教育9.895 031 社会6.039 931 违反4.701 443 评估3.871 842 项目9.706 211 教师5.950 624 监督4.696 339 提高3.798 692 科学9.081 012 营造5.432 781 研究生4.408 682 论文3.782 736 学术不端8.603 729 诚信5.387 617 调查4.318 330 专业3.769 553 工作8.279 125 精神5.337 587 情况4.293 299 学风3.769 280 研究8.076 169 师德5.316 441 人才4.285 529 科研人员3.727 645 科研7.267 878 国家5.288 612 责任4.104 630 评审3.710 022 建立7.137 774 规范5.233 536 机构4.081 187 组织3.697 357 完善6.909 121 道德4.949 044 成果4.072 643 学位3.688 078 制度6.762 113 单位4.945 590 文化4.039 985 学生3.625 040 评价6.723 435 发展4.933 772 学术规范4.026 536 人员3.624 016

2.3.3 共词网络

共词分析法最早由法国计量学家于20世纪70年代中期提出,该方法后来被运用到各领域[38]。共词分析通过计算文本语料库中一对词语共同出现的次数反映词语间的关系程度以及词语所代表文本主题间的关系。在共词分析过程中,共词矩阵通常用来表示词语间两两共词的频数,通过共词网络体现词与词间的关联,网络节点间远近程度则反映了关键词间的紧密程度[39]。共词矩阵导入Gephi软件中可形成共词网络图,实现网络可视化。本文形成的共词矩阵样例如表3所示。

表3 共词矩阵(部分)

学风发展机制规范 学风232923 发展233732 机制293736 规范233236 责任18172827 计划4191414 弘扬19252726 创新2654736 国家1232323 监督1522435 成果11232721 论文118218 管理18363534

2.3.4 聚类

关键词聚类能够凸显各关键词间的类别联系,聚类分析根据关键词间共词强度将关键词划分为不同类别[40]

上文使用TF-IDF算法抽取268份政策文件中的前60个关键词,设定阈值为20并生成共词矩阵,最后使用K-means聚类算法对共词矩阵中的关键词进行聚类。本文使用手肘法确定K-means中的k[41],其中误差平方和公式为:

(4)

式(4)中,Ci表示第i个簇p为中的样本点,miCi的质心,SSE表示聚类误差。由图3可知,当k=9时曲线有明显转折,因此本文取k值为9,即对提取的关键词通过K-means聚类算法聚为9个主题。

3 科研诚信政策阶段演变特点

3.1 探索阶段(2000-2008年)

在探索阶段,科教兴国战略的推进以及社会主义现代化建设事业的发展极大地推动了我国科教事业发展,尤其在高校市场化改革之后。在此过程中,教育主管部门在制定各类激励评价政策时均对学术不端有所提及,如教育部于2002年印发的《关于加强学术道德建设的若干意见》,2004年教育部印发的《高等学校哲学社会科学研究学术规范(试行)的通知》,这些政策均对科研人员科研活动有约束性要求,但更多政策都在倡导通过科技评价制度改革促进科研活动开展。受2006年“汉芯事件”的直接影响,科技部制定了《国家科技计划实施中科研不端行为处理办法(试行)》。

由高频词可知,本阶段主题可概括为“学术道德建设”。其中,“学术道德”共出现95次,词频率为0.020 7,在所有词语中居于首位。这表明,该阶段科研诚信问题相对不突出,科研人员依靠自身道德修养规制自身不端行为。设定阈值为8,得到第一阶段的共词网络,见图4。关键词“建设”、“科技”位于共词网络图中心,表明这些词在网络中比较重要。“建设”、“研究”、“科学”、“提高”等关键词节点较大,表明这些词在共词网络中出现次数较多。这进一步验证了科研诚信政策起步阶段多是概念完善及正向制度建设。这一阶段,国家科研诚信政策重视从科研人员个体角度进行科研诚信建设,这其中就包括科学技术评价、科研行为规范、科研人员教育等具体方式,个人学术道德品质培养对科研诚信建设起到直接且显著的作用。科研人员自身学术道德水平对科研行为有直接影响,如果科研人员道德素养没有随经济发展而提高,就极有可能产生科研不端行为,“汉芯事件”即为其中的典型案例。

图3 KSSE关系

图4 2000-2008年关键词共词网络

3.2 建设阶段(2009-2013年)

这一时期国家整体科技实力及创新能力在促进社会发展过程中起到重要支撑作用,同时我国处于全面建成小康社会关键时期和深化改革开放攻坚期。这一阶段,国家相关部门相继发布了一系列针对高校、项目及基金道德建设的政策文件,如2009年教育部下发了《关于严肃处理高等学校学术不端行为》的通知,科学技术部、教育部、财政部等联合发布了关于印发《关于加强我国科研诚信建设的意见》的通知。2012年,北京化工大学陆骏学术成果造假事件成为《教育部关于进一步规范高校科研行为的意见》出台的诱因。

通过高频词可以发现,本阶段主题可概括为“诚信建设机制”。其中,“建设”一词出现次数最多,共出现121次,词频率为0.081 8。具体来看,本阶段出现“学术不端”、“学风建设”、“制度”、“机制”等高频词,强调建设阶段科研诚信治理的主要工作并突出本阶段特点。设定阈值为16,得到第二阶段共词网络,见图5。关键词“建设”、“完善”、“科学”等位于共词网络图中心,表明这一阶段科研诚信政策注重对现有制度、机制等的建立和完善。同时,“建设”、“科学”等关键词节点较大,表明以上关键词在网络中出现次数较多。在网络图边缘出现“弘扬”、“精神”、“营造”等关键词,表明这一阶段政策更加注重对社会诚信的引导以及诚信精神的弘扬。相较于第一阶段,本阶段政策对科研诚信问题的治理更加细化,重点是将科研诚信融入其它科研管理事务中,如科技计划项目、教师诚信教育等。

3.3 完善阶段(2014-2019年)

这一阶段有关科研诚信的文件数量快速增长,共颁布了145份政策文件。2018年,中共中央办公厅及国务院办公厅印发了《关于进一步加强科研诚信建设的若干意见》,引起全国性反响。相较于起步阶段,科技部等十部门联合发布的《关于加强我国科研诚信建设的意见》进一步强化了顶层设计,细化了具体实施措施。

由高频词可以发现,本阶段主题可概括为“加强科研诚信体系建设工作”。该阶段“科研诚信”一词出现次数最多,共出现388次,词频率为0.142 1;其次是“宣讲”、“调查”、“项目”及“管理”等高频词,表明此阶段十分重视项目全过程的科研诚信管理,从立项到项目实施再到项目结题与评价,政府都从文件上进行了明文规定。设定阈值为25得到第三阶段共词网络,见图6。“建设”、“制度”、“完善”等关键词位于网络中心,在网络边缘出现“监督”、“发展”等关键词。相比前两个阶段,这一阶段的科研诚信政策更加注重细化监督管理过程,并且强调科研诚信全过程管理,从科研项目立项、项目实施到项目完成再到项目验收审查,每个环节均完善了相应监督与追责条款。

图5 2009-2013年关键词共词网络 图6 2014-2019年关键词共词网络

4 科研诚信政策文本演变规律

4.1 关键词文本聚类结果

使用K-means聚类算法对关键词进行聚类,结果如表4所示。从中可见,Cluster 1包含机制、规范、创新、工作、教育等关键词,所以可将该类别归纳为机制完善与规范;Cluster 2包含计划、论文、专业、人员、违反、诚信等关键词,所以将该类别归纳为失信行为惩治;Cluster 3包含责任、弘扬、成果、组织等关键词,所以将该类别归纳为机构责任界定;Cluster 4包含国家、监督、评价、单位等关键词,所以将该类别归纳为科研监督与评价;Cluster 5包含实验室、学术风气、研究生、师德及科技工作者等关键词,所以将该类别归纳为高校学风建设;Cluster 6包含学术、建设、制度、建立等关键词,所以将该类别归纳为制度建设;Cluster 7包含学风建设、学术规范、高校、职业道德及学生等关键词,因此将该类别归纳为职业道德建设;Cluster 8包括发展、营造、社会、道德等关键词,所以将该类别归纳为学术氛围营造;Cluster 9包括管理、科研、科技、研究4个关键词,因此将该类别归纳为科研管理。

4.2 不同类别阶段演变规律

根据前文聚类结果,本文统计3个阶段不同类别间关键词出现的总数,并将其归一化以比较不同阶段间的数值变化,归一化公式如下:

(5)

其中,xmin表示最小值,xmax表示最大值。

政府通常会通过不同政策工具进行组合实现一个或多个政策目标[3]。科研诚信政策具有阶段性特点,不同类别在阶段间的变化趋势如图7所示。

表4 K-means关键词聚类结果

Cluster_1Cluster_2Cluster_3Cluster_4Cluster_5Cluster_6Cluster_7Cluster_8Cluster_9机制计划责任国家实验室学术学风发展管理规范论文弘扬监督学术风气建设学风建设营造科研创新专业成果评价研究生制度学术规范社会科技工作人员提高单位学位科学高校道德研究教育评估组织项目师德建立考核精神学术不端调查机构文化教师完善违反课题职业道德科研人员科技工作者学生诚信评审情况人才

图7 不同类别阶段变化趋势

(1)多数类别政策条款数量呈上升趋势。①对于机制完善与规范类相关政策,其数量不断增长,总体来说科研诚信政策发展3个阶段都十分重视机制完善与规范。早期科研诚信政策主要关注学术评价和监督机制建设与完善,以此建立科学评价体系。中后期进一步规范了相应监督与评价机制,如建立科技项目诚信档案、建立同行专家评议机制等,进一步加大了对学术不端的惩治。此外,在科研诚信政策发展中后期更加注重多元机制建设,即出台一个综合科研诚信问题治理方案;②对于机构责任界定类政策,从探索阶段到建设阶段再到完善阶段,有关科研活动中责任划分的政策条款越来越多,对科研活动中各个环节不同主体责任的界定越来越完善。教育部在《高等学校“十二五”科学和技术发展规划》中明确提出强化科研过程管理,加强科研诚信全方位监督。科研诚信政策起步初期主要目的是应对日益严峻的学术不端问题,这一时期,相关管理人员并未意识到对不同主体责任界定及通过科研活动监督加强科研诚信管理,虽然有部分政策提及,但并未引起足够重视,也未涉得到实施。随着时间的推移,科研诚信相关政策倾向于从源头及全方面加强科研诚信管理,相应主题的相关政策条文数量有所增加;③对于科研监督与评价类政策,2003年,教育部《关于进一步发展繁荣高校哲学社会科学的若干意见》要求高校行政管理部门进行科学管理,建立公平竞争、科学评价的体制。随着科研诚信治理的不断深入,政府同时推动各学会加强科研评价与监督。根据科研监督与评价类政策变化曲线可以发现,随着阶段演进这类政策更加精细化、科学化;④科研管理类政策一直强调加强科技计划、科技项目实施与科技经费管理。这类政策条款数量随时间变化不断增加,内容上随着科研诚信研究的不断深入,对科研项目的管理也越来越规范。后期科研管理类政策从项目决策、执行、评价等不同阶段进行了规定和建议,并且开始注重信用管理。

(2)部分类别政策条款数量波动较为曲折。①对于失信行为惩治类政策,相关政策条款数量先减少后增加。早期科研诚信政策重视对科研失信行为的惩治,早在2002年教育部《关于加强学术道德建设的若干意见》就明确了部分学术风气不正、学术道德失范的具体表现,并且强调通过建立学术惩戒处罚制度加强科研诚信建设。在建设阶段,该类别政策数量相对较少,完善阶段其数量急剧上升。在这期间,惩治对象范围逐渐扩大,从对科研人员失范行为的惩治扩大到相关评估人员、监管人员等责任主体的系统惩治体系,同时强调不同部门间跨部门联合惩戒;②对于高校学风建设类政策,政策条款数量相对较少,其数量变化呈现先增长后下降趋势。通过数量变化趋势可以发现,高校学风建设政策出台相对较晚,高校是国家创新驱动发展战略的重要驱动力,但同时也是科研诚信问题的重灾区,由于科研诚信政策探索阶段更多是对高校主体的行为规范,较少涉及学风建设。直到2011年教育部出台《关于切实加强和改进等学校学风建设的实施意见》,各高校才充分认识到当前加强高校学风建设、学术规范的紧迫性,并提出系列措施加强高校学风建设,充分激发了高校各主体的创新积极性;③对于学术氛围营造类相关政策,科技创新具有长期性及复杂性特征,3个阶段均提到营造科研诚信良好氛围。其政策条款数量变化较为平稳,先减少后增加,总体呈上升趋势。科研诚信政策发展初期旨在营造诚信、宽松、多样的良好学术环境氛围,激发科研人员创新精神;④对于职业道德建设类政策,其政策条款数量先增加后减少。科研诚信政策发展中后期开始强调师德师风建设,教师言行举止对学生具有强烈的影响,他们的首要责任就是教书育人,加强师德建设、严格教师考核标准能够对学生思想行为产生警示作用。

(3)制度建设类政策条款数量持续减少。为鼓励创新以及弘扬科学精神,各部门早在科研诚信政策探索阶段便颁布了一系列加强科研诚信制度建设的政策,如学术惩戒处罚制度、科研诚信管理制度、科研工作者道德诚信档案制度、科研成果鉴定评价制度等。总的来说,科研诚信制度建设相关政策条款数量呈现下降趋势,但在政策内容上不断细化,不端行为惩罚力度不断上升,早期对于科研诚信活动主要是从局部管理入手,逐渐演变成全过程管理,形成一套从申请、计划、审核、实施、验收到评审的系统性政策保障体系。

5 结语

5.1 研究结论

科技创新是国家进步的重要动力,而科研诚信是科技创新的基石,加强科研诚信建设能够推动高质量科技创新。本文基于文本挖掘技术,对2000-2019年268份科研诚信相关政策进行高频词分析、共词网络分析及聚类分析,总结了20年来科研诚信相关政策阶段特征及演变趋势,得出如下结论:

(1)政府对科研诚信相关政策的制定是一个由点及面再到点的变化过程。在科研诚信政策起步阶段,政府对现有学术不端问题的认识不够深入全面,且缺乏相关行为定义,既重视从科研人员个人层面对其具体行为进行规范约束,同时也注重加强对科研人员的教育引导。在科研诚信政策建设阶段,政府逐渐意识到科研诚信发展是一个系统工程,不仅要提高自身自律水平,还要完善相关体制从而加强外在约束。科研诚信政策制度不断完善,科技部关于《深化科技体制改革加快国家创新体系建设》的意见明确提出加强国家科研诚信制度建设,建立诚信档案以便实现信息共享。在科研诚信政策完善阶段,政策依然注重科研诚信建设顶层设计,但对引发科研诚信问题的各个方面都提出针对性措施,包括科研诚信监督、科研机构管理等,此时对科研诚信建设治理各个方面进行了细化,为政策执行实施提供了便利,科研诚信政策更加精细化。

(2)科研诚信政策中心点是一个不断完善深化的过程。20年来,科研诚信政策发展重点呈现出“个人—环境—全过程管理”的变化逻辑。一方面,对科研诚信的监督由最初个人监督再到机构监督最后到科研诚信活动全过程监督,最终形成了一套严密的监督体系。同时,科研诚信政策发展中后期开始完善追责机制,界定各主体责任以提高科研诚信意识;另一方面,政策对科研诚信管理也逐渐专业化,建立相关人员信息档案数据库以便信用信息共享,起初各部门间沟通协作较少,不利于科研诚信管理,信息公开共享后部门间联系增强,同时保证了公民的知情权。专业机构的引入使得原来存在弊端的自我管制系统变得更加科学化,从而完善了科研诚信管理。

5.2 意义与局限性

本文通过文本挖掘法对科研诚信政策文件进行文本挖掘,梳理了20年来科研诚信政策文件发展脉络和规律。一方面,本文结论可为政府部门政策制定及执行提供参考依据;另一方面,本文提到的一些管理方式变革为相关科研诚信管理部门提供了改进思路。但同时,本文还存在一些局限性:首先,只研究中央办公厅、国务院办公厅及国家各部委科研诚信政策,对地方科研诚信相关政策本文并未进行探讨;②科研诚信政策收集可能不尽完善,对相关政策文本的检索存在疏漏。未来需扩大研究主体,对地方科研诚信政策进行研究,并探讨与国家科研诚信政策间的关系。

参考文献:

[1] 徐巍.科研诚信治理的国际经验探析[J].科技创新与应用,2019(32):74-76.

[2] 宋雪冰.科研诚信治理主体的责任研究[D].北京:中国矿业大学,2018.

[3] 顾建光.公共政策工具研究的意义、基础与层面[J].公共管理学报, 2006(4):63-66+115.

[4] STENECK N H.Assessing the integrity of publicly funded research[C]//Proceedings of the First ORI Research Conference on Research Integrity,2000:1-16.

[5] 张立.中国科研诚信所面临的问题和对策[J].社科纵横, 2008, 23(10):52-53.

[6] 王聪,和鸿鹏.我国政策环境中的科研诚信概念研究[J].中国科学基金,2017,31(4):390-395.

[7] 王飞.当前我国科研诚信教育中的问题与对策性建议[J].科学与社会,2019,9(1):63-71.

[8] 朱邦芬.我国学术诚信问题的现状分析与应对策略[J].科学与社会,2019,9(1):34-40.

[9] 袁子晗,靳彤,张红伟,等.我国42所大学科研诚信教育状况实证分析[J].科学与社会,2019,9(1):50-62.

[10] 曹蓓,刘辉,张虹,等.高校科研诚信建设的现状与对策[J].科技管理研究,2014,34(15):89-91+107.

[11] 蒋来,詹爱岚.高校科研活动中的不端行为及对策研究[J].中国科学基金,2015,29(1):30-36.

[12] STENECK N H.Fostering integrity in research: definitions, current knowledge, and future directions[J].Science and engineering ethics, 2006, 12(1): 53-74.

[13] 赵瑞芹,董秀玥, 单政.国外打击学术不端行为的机构与政策法规[J].今传媒, 2014(12):29-31.

[14] 王阳,王希艳.论美国“科学不端行为”定义的历史演进[J].自然辩证法研究,2009,25(5):97-102.

[15] 董建龙, 任洪波.国外加强科研诚信建设的经验与启示[J].中国科学基金, 2007, 21(4):223-228.

[16] 袁军鹏,淮孟姣.科研失信概念、表现及影响因素分析[J].科学与社会,2018,8(3):22-38.

[17] QIU J.Publish or perish in China: the pressure to rack up publications in high-impact journals could encourage misconduct, some say[J].Nature, 2010, 463(7278): 142-144.

[18] 刘兰剑,杨静.科研诚信问题成因分析及治理[J].科技进步与对策,2019,36(21):112-117.

[19] OKONTA P, ROSSOUW T.Prevalence of scientific misconduct among a group of researchers in Nigeria[J].Developing world bioethics, 2013, 13(3): 149-157.

[20] HAVEN T L, TIJDINK J K, PASMAN H R, et al.Researchers' perceptions of research misbehaviours: a mixed methods study among academic researchers in Amsterdam[J].Research Integrity and Peer Review, 2019, 4(1): 1-12.

[21] 危怀安,韦滨.科研诚信问题的整体性治理[J].科技进步与对策,2019,36(21):106-111.

[22] FANELLI D, COSTAS R, LARIVIèRE V.Misconduct policies, academic culture and career stage, not gender or pressures to publish, affect scientific integrity[J].PloS one, 2015, 10(6):e0127556.

[23] 陈雨, 李晨英, 赵勇.国内外科研诚信的内涵演进及其研究热点分析[J].中国科学基金, 2017(4):86-94.

[24] 田瑞强, 姚长青, 刘洢颖,等.学术不端治理政策及案例计量研究[J].中国科技期刊研究, 2018, 29(4):355-361.

[25] 王飞.奥胡斯大学科研诚信建设政策与实践[J].科学与社会, 2018, 8(2):33-43.

[26] 黄军英.美国政府在科研诚信体系建设中的作用研究[J].科技管理研究,2018,38(12):254-259.

[27] 胡元姣.哲学社会科学科研诚信制度构建与政策思考[J].决策探索 (下), 2019 (10): 12.

[28] 靳彤,张红伟,赵勇.政策文本计量视角下我国科研诚信治理的特征与启示[J].情报工程,2018,4(5):116-126.

[29] 汪伟良,刘红.基于共词分析的我国科研诚信研究现状[J].科学管理研究,2014,32(4):35-39.

[30] 史昱.中国科研诚信政策的演变与评价(1949-2017年)[J].中国软科学,2019(10):158-164.

[31] 叶青,杨树启,张月红.科研诚信是全球永远的课题——中国科研管理与学术出版的诚信环境[J].中国科技期刊研究,2015,26(10):1040-1045.

[32] TAN A H.Text mining: the state of the art and the challenges[C]//Proceedings of the PAKDD 1999 Workshop on Knowledge Discovery from Advanced Databases.sn, 1999, 8: 65-70.

[33] 郑双怡.文本挖掘及其在知识管理中的应用[J].中南民族大学学报(人文社会科学版), 2005(4):129-132.

[34] 袁野,于敏敏,陶于祥,等.基于文本挖掘的我国人工智能产业政策量化研究[J].中国电子科学研究院学报,2018,13(6):663-668.

[35] 李芳,姜勇.我国普惠性民办幼儿园认定管理政策文本的ROST数据挖掘系统分析[J].教育经济评论,2019,4(3):108-121.

[36] 吴瑜,袁野,龚振炜.人工智能背景下中美科技政策比较研究——基于文本挖掘与可视化分析的视角[J].中国电子科学研究院学报,2019,14(8):891-896.

[37] KIM D, SEO D, CHO S, et al.Multi-co-training for document classification using various document representations: TF-IDF, LDA, and Doc2Vec[J].Information Sciences, 2019, 477: 15-29.

[38] 伍若梅,孔悦凡.共词分析与共引分析方法的比较研究[J].情报资料工作,2010(1):25-28.

[39] 吴晓秋,吕娜.基于关键词共词频率的热点分析方法研究[J].情报理论与实践,2012,35(8):115-119.

[40] 张燕刚,成全.基于共词分析的我国乡村振兴与田园综合体政策研究[J].农村经济与科技,2019,30(13):25-29.

[41] 王建仁, 马鑫, 段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用, 2019, 55(8):33-39.

(责任编辑:王敬敏)