科技计划项目评审中项目与专家精准匹配的技术实现
——以广东省科技计划项目为例

蔡桂兰1,彭健铿2,韦霁芸2,陈丽丽1

(1.广东省科技创新监测研究中心 信息规划部,广东 广州 510033;2.中山大学 资讯管理学院,广东 广州 510006)

摘 要:针对科技计划项目评审中项目与专家匹配效率低、效果差的情况,提出构建包含向量空间模型与协同过滤模型的专家智能匹配模型。在提取评审项目组与专家信息特征的基础上,通过向量空间模型产生专家匹配列表,并通过协同过滤模型对匹配列表进行调整优化,从而得到项目与专家匹配结果。以广东省科技计划项目数据为例,开展实验并对模型进行验证,实验结果准确率达97.6%,匹配效果良好。

关键词:科技项目;评审项目与专家匹配;向量空间模型;协同过滤

0 引言

科技计划是指根据国家(或地方)科技发展规划和战略安排,以中央(或地方)财政支持或以宏观政策调控引导,由政府行政部门组织和实施的科学研究与技术开发活动以及相关科学技术活动。它是各级政府贯彻科技工作方针、配置科技资源、解决社会和经济发展中科技问题的重要手段。任何国家层面战略规划和创新活动的实施,均以项目为载体,执行好每个项目、保证其成功,就能保证总体战略成功[1]。由此可见,科技计划项目是政府投资项目的重要内容,是政府为促进科技进步、科技创新而设立的。

科技计划项目立项与项目评审结果紧密相关,而项目与专家匹配作为项目评审的重要环节,一旦待评审项目内容与所匹配专家的专长不符,则难以保证评审结果的科学性和客观性。以广东省级科技项目为例,该省每年省级科技计划项目申报数量约2万个,涉及200多个技术领域,参与评审的各领域专家4 000多名,如果以人工方式进行项目与专家匹配工作,不但效率低,而且容易出错。因此,有必要对科技计划项目立项评审中的项目与专家匹配过程进行研究,通过模型构建解决匹配过程中存在的匹配效率低下和效果不佳的问题,保障项目评审结果的科学性、客观性。

1 相关研究现状

在科技计划项目评审中,专家匹配工作流程为:①形式化专家文档与项目文档;②形式化专家概念集合与项目概念集合;③计算两个集合的匹配度或相似度;④完成专家与项目的匹配。

目前,专家分配问题的解决方法较多,归纳起来可分为两类:①基于信息检索技术计算专家集合与项目集合匹配度的方法;②基于最优解思想计算专家集与项目集相似度的方法。

基于信息检索技术计算专家与项目匹配度的方法是指将专家信息与项目信息转换为多维向量,通过向量之间的相似度来度量专家与项目的匹配度。该方法可衍生出多种算法,主要包括基于内容的信息检索算法、协同过滤算法、基于内容与协同过滤的混合算法及数据挖掘。1992年,DumaisandNielsen首次提出利用LSI(Latent Semantic Indexing)算法计算项目与专家匹配度。随着检索技术的发展,有研究者开始应用数据挖掘[2]、向量空间模型[3]以及潜在语义索引[4]等智能技术。国内学者对以上算法和技术进行了优化。刘一星等[5]提出文本分类算法,构建TF-IDF特征权重阈值的向量空间模型和应用改进后的ATSVM分类算法。傅妍芳等[6]通过加入索引优化KMP算法,在专家集中随机抽取专家,实现盲审流程。余峰等[7]提出基于主题信息的项目评审专家推荐方法,增加LDA主题模型获取文档主题信息,解决项目与专家关键词获取问题。上述研究的目的是为了提高匹配精度,优化专家分配自动化过程,减少人工操作。

随着研究的深入,基于最优解思想计算专家集与项目集相似度的方法被应用于专家分配问题上。在仿生算法方面,有研究者通过应用遗传算法与蚂蚁算法来模拟专家分配过程,但两种算法各有利弊。此外,有研究者从数学模型中得到启发,把贪婪算法与进化算法[8]、关系图谱与稀疏关系矩阵[9]、二部图谱[10]等引入专家分配过程,同时开发了贪婪随机自适应搜索法和遗传算法(GRASPandGA)的混合算法[11]

综上所述,当前专家智能匹配研究存在以下不足:①大量研究集中在算法优化方面,虽然在精度上有一定提高,但运算量巨大,无法应用于实际工作中;②历史评审数据利用率较低,部分研究仅基于匹配过程中的限制条件而非专家与项目的语义信息,匹配结果并不理想。尽管基于信息检索技术计算专家与项目匹配度的方法在专家匹配问题上的应用较为成熟,但不同地区的科技项目评审各具特殊性,如项目申报书的格式、专家信息表的设计、专项基金的设立等因素都影响着专家智能匹配过程。因此,需要针对实际情况构建专家智能匹配模型。

2 项目与专家智能匹配方案设计

项目与专家智能匹配的实现主要由两部分构成:①项目与专家特征提取方案,属于项目与专家匹配的前期准备,在完成特征提取的基础上开展工作;②项目与专家智能匹配模型构建,即选择并应用相关算法,实现项目特征与专家特征的智能匹配。

2.1 特征提取方案

本文的特征提取即文本特征提取,是指通过量化从目标文本中抽取特征词表示文本信息的过程。文本特征提取的主要方法包括:①用映射或变换的方法把原始特征转换为较少的新特征;②从原始特征中挑选出最具代表性的特征;③邀请评审专家挑选最有代表性的特征;④用数学方法进行选取,找出最具区分度和代表性的特征。在实际应用中,不同的方法可以搭配使用。

2.1.1 项目组特征提取

项目组特征提取是指,在项目分组后对项目组内信息进行特征提取,并将组内项目的所有特征信息作为项目组的整体特征,与项目评审专家进行智能匹配。项目信息可从科技项目申报书中提取,通过对项目申报书的深入分析,可以发现利用项目申报书进行项目特征信息提取的可行性与不足,并以此确定特征抽取方案。

(1)在项目申报书中包含大量与项目研究内容相关的信息,为项目特征抽取提供前提保证。申报书中涉及项目研究内容的信息包括项目名称、项目总经费预算、课题研究方向、项目摘要、关键字、技术领域、学科领域、行业领域、立项背景和意义、研发内容和关键技术、国内外相关研究情况概述及结论等11项内容。

(2)项目申报书填写的完善度和规范度参差不齐,给项目特征抽取造成了一定困难。以当前广东省科技项目为例,该省科技项目申报书除项目名称、项目总经费预算、课题研究方向、关键字、技术领域、学科领域6项外,其余内容因为非必填项而时常空缺。而且课题研究方向、项目摘要、关键字、立项背景和意义、研发内容和关键技术、国内外相关研究情况概述及结论等信息规范性不足,不利于项目特征提取。

(3)调查发现,申报书的项目名称、技术领域、学科领域等信息相对规范,信息质量相对稳定:①项目名称体现作者的写作意图、文章主旨及核心;②技术领域和学科领域在固定分类体系下进行选取,其规范性相对较高。此外,考虑到相对稳定的技术或学科领域难以实时更新,而部分申报项目可能采用全新技术或属于新学科领域,在一定程度上可反映新技术和新领域的发展状况。因此,应将行业领域纳入考虑范围,最大限度地提取项目特征信息。综上所述,本文选取项目名称、技术领域、学科领域为主要特征字段,并选取行业领域作为技术领域与学科领域的补充,开展项目特征提取工作。

2.1.2 专家特征提取

专家特征提取是指针对专家库中每个专家的信息进行特征提取,用于与项目组的智能匹配。以广东省科技专家为例,专家信息可从广东省科技评审专家库的专家信息表中获取。在对专家信息进行调查分析后,得到以下专家信息特点:

(1)专家信息可划分为研究内容、科研经历及荣誉水平3类。研究内容包括从事的事业、主要研究方向、技术领域、学科分类、广东省科技项目分类技术领域、行业领域、专家特长等。科研经历包括近5年赴境外学习、进修、高访、合作科研等情况,近5年主持的国家(国际)级科技计划项目(课题)或省部级重大项目简介等。荣誉水平主要包括专家职称,近5年主要工作成绩、荣誉、奖励等。其中必填项为主要研究方向、技术领域、学科分类、广东省科技项目分类技术领域、行业领域、专家特长,其余内容为选填项。

(2)专家信息与项目信息填写存在不规范、不完善问题。此外,专家信息表中包含大量非结构化信息,难以直接量化使用,而且内容由专家自行填写,同一概念经常存在多种不同的表达方式,不利于特征提取与智能匹配。

(3)专家信息中的技术领域分类和学科分类均为结构化的必填字段,规范性和完整性可以得到保障,且与项目信息的技术领域分类和学科分类相对应,适用于智能匹配。

因此,本文选取有固定分类体系的技术领域分类和学科分类作为专家信息的主要特征字段。考虑到部分专家的研究内容属于前沿领域,而技术或学科领域未能及时更新的情况,结合行业领域与专家特长,由专家自行填写,不受分类体系的限制,可反映当前专家研究的新内容与新领域的特点,本文将行业领域和专家特长作为专家特征信息的补充。

2.2 项目与专家智能匹配模型构建

2.2.1 项目与专家智能匹配原则

科技计划项目与评审专家匹配应遵循相关性原则、数量原则、分级优先原则及系统匹配人工校验原则。

(1)相关性原则。每个专家与项目组内所有项目的相似度应尽可能高。在进行专家匹配时,要全面考虑专家与项目组内所有项目的相似度,不能只关注单一项目。分配到项目组内的专家需要评审组内所有项目。因此,整体考虑专家与整个项目组的相似度可以有效避免专家评审非专业领域项目的情况。

(2)数量原则。一般情况下,每个项目组匹配3~5名专家,每个专家参与评审的项目组数量不超过3组。科技项目评审是一个对比取优的过程,需要结合多名专家的意见,最后确定项目研究意义及其可行性等关键因素。因此,为保证项目评审角度的多元化,专家数量不能少于3名。同时,科技项目的评审工作要求专家在规定的时间内完成,根据评审实践经验,专家评审项目数量过多会导致专家工作量过大,容易影响评审质量。因此,规定每个专家参与评审的项目组数量不超过3组。

(3)分级优先原则。按优先级别依次进行专家匹配,重大项目>重点项目>一般项目。科技项目可按资金划分为重大(300万元以上)、重点(100~300万元)、一般(100万元以下)3组。根据项目资金级别依次进行专家匹配,可以对不同项目进行专家匹配工作,有效避免专家资源浪费,避免出现专家水平与项目级别不匹配的现象,让评审工作更加科学合理。

(4)系统匹配、人工校验原则。由于人工智能技术的限制,以及项目、专家结构化信息收集与更新存在困难,在实际业务中专家智能匹配仍是一个“技术+管理”的过程。因此,待评审项目组的专家匹配可以通过计算机完成,但最后挑选哪些专家参与项目组评审工作则需要人工调整与确认。

2.2.2 项目与专家智能匹配方法选择

在项目与专家智能匹配中,本文采用向量空间模型和协同过滤模型作为项目与专家智能匹配模型的基础算法。

项目与专家智能匹配过程属于分类问题,即将不同的专家分配到不同的项目中,或将不同的项目分配到不同的专家手上,其过程可归纳为:以相似项目构成的项目组为单位,将合适的专家分配到不同项目组中。因此,项目与专家智能匹配模型构建原则可以归纳为:①基于文本内容完成匹配,即通过项目内容与专家研究内容之间的相似度来衡量匹配效果;②项目与专家的历史匹配数据也可作为当前匹配效果的参考,从而对匹配结果进行优化;③在选择匹配算法时,需要考虑运算效率与稳定性。

从算法特点出发,本文选择的向量空间模型与协同过滤模型都是基于信息检索技术计算专家与项目匹配度的方法,两个模型的核心都是文本向量表示和特征项权重计算,形成文本的特征向量用于相似度计算。向量空间模型由G Salton等提出,其运算速度快,是目前最为成熟和应用最广泛的文本表示模型,可以用于计算项目内容与专家研究内容之间的相似度并给出匹配结果。此外,基于协同过滤模型中“如果用户过去的信息偏好是一致的,将来他们的信息偏好仍将一致”的思想[12],将项目与专家的历史匹配数据用于匹配结果的优化。

综上所述,本文在构建项目与专家智能匹配模型时,选择向量空间模型和协同过滤模型作为核心方法,其具体内容如下:

(1)向量空间模型。向量空间模型的基本假设是:一个文本所表达的内容特征仅与某些特定的语义单位在该文本中出现的频数有关,而与这些语义单位在文本中出现的位置或顺序无关。也就是说,一个文本中所蕴涵的知识内容可以通过构成文本的各种语义单位本身的特性及文本出现频数表示。在衡量文本间的相似度时,以两个文本所共同包含的语义单位显示其内容的相似性。

向量空间模型的核心是文本向量表示与特征项权重计算。文本向量表示在忽略了特征项之间顺序的前提下,对于给定文本d,确定其所含的互异特征项{t1,t2tn},将文本用特征项集合表示为:d=(t1,t2tn)。通过TF-IDF(Term Frequency & Inverse Document Frequency)算法计算出每个特征项权重{w1,w2wn},将文本表示为实际上是TF*IDFTF是词频(Term Frequency),IDF是逆向文件频率(Inverse Document Frequency),其主要思想是:一个词在特定文档中出现的频率越高,说明它在区分该文档内容属性方面的能力越强(TF);一个词在文档中出现的范围越大,说明它区分文档内容的属性越低(IDF)[13]TF表示词条在文档d中出现的频率,计算公式为其中ni,j表示词条i在文档j中的频率表示文档j中所有词条的总频数。IDF表示词条在文档中出现的范围,计算公式为其中|D|为文档总数,|{j:tidj}|为包含词条ti的文档数量,为避免出现词条不在语料库而导致分母为零的情况,以1+|{j:tidj}|作为分母。最后,通过计算两向量之间的余弦值得出文本之间的相似度,计算公式为

(2)协同过滤模型。协同过滤模型在分析用户兴趣的基础上,从用户群中找到与指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,系统预测指定用户对此信息的喜好程度。

基于融合协同过滤模型的思想,将专家智能匹配中的项目匹配专家过程类比为协同过滤中的用户信息喜好程度预测过程,即在历史评审项目记录中找到待评审项目的相似项目,得到相似值sisi的具体阈值可根据不同数据与要求确定。查找出相似项目的评审专家列表,如果计算产生的专家在专家列表中,则将项目相似值si乘以相应权重后与相似值相加,否则取0。计算公式为:

r0表示待评审项目与匹配专家的相似度,sim[pi,hi]表示待评审项目pi与历史评审项目hi的相似度,w表示权重,profpi表示待评审项目pi匹配的专家,PROFhi表示相似项目hi所对应的历史评审专家列表。

2.2.3 项目与专家智能匹配模型

给合项目组特征提取方案、专家特征提取方案,遵循项目与专家智能匹配原则和具体算法,在项目分组已完成且组内项目相似的前提下,构建专家智能匹配模型,如图1所示。

从待评审项目组集合与待匹配专家集合中分别提取相关特征信息,形成待评审项目组特征信息集合与待匹配专家特征信息集合。按照匹配原则,将待评审项目组特征信息与待匹配专家特征信息导入向量空间模型,通过空间向量余弦相似度计算,得到专家初步匹配列表。结合历史评审记录,将专家匹配列表导入协同过滤模型,对列表进行调整优化。以人工校验方式对调整后的专家匹配列表进行匹配校验,得到项目组-专家匹配列表,即最终匹配结果。

图1 项目与专家智能匹配模型

3 项目与专家智能匹配模型验证

为进一步验证模型效果,本文将部分已经过人工匹配的项目申报信息与专家信息作为实验数据,导入模型进行验证。

3.1 实验步骤

项目与专家匹配实验主要包括以下5个步骤:①实验数据收集;②数据清洗与预处理。实验通过Python2.7编写程序进行,利用第三方PythonJieba分词进行分词处理,获取词频大于1的词语构成特征向量;③构建专家智能匹配模型,并将数据导入模型;④设置阈值与权重,获得匹配专家列表;⑤获得人工校验匹配结果,并对原始匹配结果与智能匹配结果进行对比分析。

3.2 实验数据收集与处理

本文实验数据全部来自广东省科技计划项目,共选取计划类项目15组、自然基金类项目10组,共计1 066个项目。项目组专家人工匹配结果为25个,共计126位专家。计划类项目历史评审记录443条,基金类项目历史评审记录386条,共计829条。

根据特征提取方案,结合广东省科技厅在项目评审专家匹配工作中的经验,在项目与专家特征提取方面作以下调整:①选取广东省技术领域、国家技术领域与学科领域作为专家特征;②计划类项目选取项目名称、广东省技术领域和学科领域作为项目特征,自然基金类项目选取项目名称、申报学科领域作为项目特征。

采用Microsoft Excel 2010和Python3.0作为实验工具,自行编写程序对收集的数据进行清洗与匹配,主要操作流程如下:

(1)数据整理。用Microsoft Excel 2010对原始数据进行整理,将所有项目按类别划分进行存储,计划类项目共计15组626项,编号为Plan Project Test。基金类项目共计10组440项,编号为Funds Project Test。对每个类别内的项目组进行随机依次编号,并作为单独的Excel表存储在项目类别文件下。同时,对人工匹配的专家信息进行整合,按匹配结果分成Plan ProfessorFunds Professor两组,并为组内专家随机编号,其中Plan Professor组共计75名专家,Funds Professor组共计51名专家。

(2)分词与特征提取。将待评审的项目信息与待匹配专家信息进行分词处理和特征提取。在去除标点符号、停用部分无意义的词语后,保留专家信息中的全部分词结果与项目组词频大于2的分词结果。

(3)协同过滤模型阈值设置。根据向量空间模型得出的待评审项目组与待匹配专家之间的相似度平均值为0.5。因此,将在协同过滤模型中的待评审项目组与历史评审记录的相似度阈值确定为0.5,即与当前待评审项目组的相似度大于或等于0.5的历史评审记录才能被模型感知并用于专家匹配结果优化。

(4)相似度权重设置。项目组与专家匹配相似度由项目组与专家相似度以及项目组与专家历史评审记录相似度两部分组成。通过咨询专家与广东省科技厅工作人员,本文将向量空间模型所得作为专家与项目组的相似度,设定权重值为0.8;将协同过滤模型中所得作为专家评审经验,设定权重值为0.2。最终,计算得出项目组-专家匹配结果。

(5)数据输入与相似度计算。将经过特征提取得到的项目特征与专家特征导入模型并进行相似度计算,得到项目与专家匹配列表。

(6)匹配结果排序。根据匹配原则对项目组专家匹配结果进行排序,将分组优先原则作为专家筛选原则,在匹配结果中优先遵循相关性原则,其次遵循数量原则,即以项目组为单位,依次选取智能匹配中相似度最高的专家,同时不违反匹配过程中的数量原则,得到最优匹配结果,为最后人工校验与结果确认提供支持。

(7)空值处理。在选取待评审项目特征时,如果技术领域与学科领域同时为空,则用行业领域替补;在选取待匹配专家特征时,如果广东省技术领域、国家技术领域和学科领域同时为空,则用专家特长替补。如果按上述方法替补后信息仍然为空,则将信息取为Null作为项目组或专家标识,并将Null值添加在用户词典处,避免在分词时将其作为无用词去除。

3.3 实验结果

将已处理的数据导入Python3.0专家智能匹配模型并进行科技项目评审专家匹配,如表1和表2所示。原始匹配结果与专家智能匹配结果存在一定差异,但在人工校验中,除计划类项目中干细胞2组与基金类项目中眼科学组各有1名专家匹配度不高外,其余结果全部通过人工校验,即所匹配专家可胜任项目评审工作。

4 实验结果分析与讨论

共匹配项目组25个,专家125人次,具体结果如表2、表3所示。经过人工校验发现,在125个专家中只有3个专家匹配度不高,其余匹配结果均通过人工校验,智能匹配模型的精确率为97.6%。从实验过程和结果可看出,原始匹配结果与智能匹配结果存在一定差异,个别专家与项目组匹配存在问题,协同过滤模型确实对匹配结果具有优化作用。

4.1 原始匹配结果与智能匹配结果

原始匹配结果与智能匹配结果之间存在差异,究其原因,原始匹配结果是通过人工在专家库中挑选专家与项目组进行匹配获得,而智能匹配则是通过专家与项目组之间的相似度计算获得。由于在专家库中存在大量同领域专家,仅通过人工匹配无法准确把握每位专家的特征并进行对比,而智能匹配模型可解决大量专家特征提取与对比取优问题。在匹配结果的人工校验中发现,智能匹配优于原始匹配,前者所匹配专家更符合项目组特征。

表1 计划类项目实验结果(表中数字为专家编号)

计划类项目原始匹配结果专家智能匹配结果1(仅向量空间模型)专家智能匹配结果2(融合协同过滤模型)人工校验干细胞2组51,52,53,54,5557,17,45,25,6757,17,45,67,25专家67匹配度不高干细胞3组56,57,58,59,6017,57,45,58,7017,57,45,58,70通过海洋1组6,7,8,9,109,7,6,10,279,7,10,6,27通过海洋3组1,2,3,4,54,1,5,3,24,1,5,3,2通过文化旅游61,62,63,64,6564,63,2,65,6264,63,2,65,62通过新药创制1组46,47,48,49,5018,42,21,41,5018,42,21,41,50通过医疗器械1组66,67,68,69,7060,67,70,68,6960,67,70,68,69通过资源环境1组2,27,28,29,3026,30,29,40,2726,30,29,40,27通过资源环境2组-231,32,33,34,3537,26,31,36,2937,26,31,36,29通过人畜共患病防控71,72,73,74,758,20,71,74,728,71,20,74,13专家13匹配度不高新药创制2组41,42,43,44,4518,42,21,41,5018,42,21,41,50通过海洋2组11,12,13,14,157,35,6,12,1412,14,15,7,11通过优生优育1组21,22,23,24,2523,19,25,22,2423,19,25,22,24通过优生优育3组16,17,18,19,2016,19,24,25,2216,19,24,25,22通过资源环境3组36,37,38,39,4039,31,36,38,3739,31,36,38,37通过

表2 基金类项目实验结果(表中数字为专家编号)

基金类项目原始匹配结果专家智能匹配结果1(仅向量空间模型)专家智能匹配结果2(融合协同过滤模型)人工校验化学6,7,8,9,10,11,129,6,12,16,89,6,12,16,8通过生命科学1,2,3,4,51,2,11,48,511,2,11,48,51通过农学与植物保护学48,49,50,5149,48,51,2,349,48,51,2,3通过电子学与信息系统43,44,45,46,4744,36,43,46,4544,46,45,36,43通过计算机科学38,39,40,41,4246,44,38,41,4546,44,38,41,45通过自动化33,34,35,36,3734,35,37,45,3334,35,37,36,45通过管理科学与工程28,29,30,31,3230,28,32,31,3730,28,32,31,37通过运动系统23,24,25,26,2723,27,26,24,1323,27,26,24,13通过眼科学18,19,20,21,2222,20,19,21,122,20,19,21,1专家1匹配度不高中药学13,14,15,16,1715,14,16,1,1315,14,16,1,13通过

4.2 协同过滤模型优化作用

实验发现,协同过滤模型可对匹配结果进行优化,但数据量不足对于实验限制较大。本次实验采用的样本共包含1 066个待评审项目,126名待匹配专家与829条历史评审记录。从结果可以看出,经过协同过滤模型优化后,海洋1组、海洋2组、电子学与信息系统、自动化4组匹配结果都有相应调整。经人工检验后发现,调整后的结果更科学。但模型在人畜共患病防控组出现了匹配度不高的情况,专家13的技术领域包括植物产品加工、动物产品加工、食品安全、海洋生物资源开发。虽然组内项目有食品安全的关键词,但专家13的技术领域与人畜共患病防控组的项目内容差异较大。

其可能原因包括:①项目组内项目的相似度不高。项目组内涉及的细分领域过多,而专家的研究领域不能完全覆盖,导致专家匹配出现局部最优现象,匹配得到的专家与项目组内部分项目相似度高,而与部分项目相似度低;②专家数量不足。本次实验共有126名专家,而且部分专家数据不完善,导致匹配过程中无法达到最优状态,出现个别专家与项目组之间匹配度低的情况;③历史评审记录数量不足。本次实验共得到历史评审记录829条。从结果可以看出,主要集中在海洋、电子信息与自动化3个方面,并未直接对人畜共患病防控组进行优化。根据相关性原则,优先选取相似度高的专家与项目进行匹配。因此,该组的结果变化可能是由于其它组别的匹配结果调整而产生的,并非由协同过滤模型本身的错误引致。

4.3 个别专家与项目组智能匹配问题与原因

实验发现,个别专家与项目组匹配度不高,或受专家涉及领域过于宽泛的影响。专家信息与项目信息是智能匹配模型的重要数据来源,其信息质量直接影响智能匹配结果。由表2、表3可得,计划类项目中干细胞2组所匹配的专家67与基金类项目中眼科学组所匹配的专家1未通过人工校验。

通过分析专家的原始信息发现,专家67所涉及的领域非常广,其技术领域信息为创新药物、化学药物、生物医药、医疗器械及设备及医学专用软件、医学材料等。从匹配结果来看,专家67的技术领域中包含生物技术、生物医药、临床医学、医学材料等关键词,与干细胞2组中的高权重特征词如临床医学、生物、材料等相关。因此,模型将专家67匹配给干细胞2组。

专家1的技术领域信息为神经生物化学、神经形态学、细胞神经生物学、细胞神经生物学、神经变性、再生及相关疾病等。模型提取的专家特征中包含生物、细胞、疾病等关键词,与眼科学项目组中的特征词高度相关。此外,通过查看相似度计算数据可得,除专家1外,项目组所匹配专家的相似度均在0.4以上,而专家1的相似度仅0.1。在原始匹配结果中,专家18的信息缺失,在随机选取的专家集合中除专家22、20、19、21外,已无相关眼科学专家。因此,专家不足也是导致专家匹配度不高的原因之一。

4.4 项目与专家之间的相似度

在相似度计算结果中,项目与专家之间的相似度普遍较低。以基金类项目专家匹配结果为例,其匹配列表中50个结果的相似度分布情况如图2所示。相似度最高为0.709,最低为0.040,而且相似度在0.4以下的比例高达76%,其主要原因为:①分词效果不佳,在对项目与专家信息进行特征抽取时,产生的特征向量维度较高,而且在特征向量中存在不同数量的无意义匹配词语;②部分专家的研究领域较广或项目内容涉及多个交叉领域,在形成特征向量时维度较高。

图2 基金类项目与专家相似度分布

观察数值可知,大量项目与专家之间的内容关联度较弱,但在后期人工校验过程中发现,大部分匹配结果仍然符合要求。结合项目与专家抽取的特征信息内容可知,本模型是基于词语构建项目与专家的特征向量并进行相似度计算,匹配粒度较粗,未能达到理想的相似度。此外,通过相似度计算结果可以看出,模型所选项目与专家特征的匹配效果并不理想。因此,可考虑将项目主体内容与专家研究成果作为特征信息,优化现有模型。

5 结语

本文构建了由向量空间模型、协同过滤模型共同构成的专家智能匹配模型,对待评审项目组与专家信息进行特征提取,通过向量空间模型产生专家匹配列表,并使用协同过滤模型对匹配列表进行优化调整,得到最终匹配结果。利用广东省科技项目评审的部分数据对模型进行验证发现,智能匹配结果比原始匹配结果更优,前者可以有效提高科技项目评审专家匹配效率,也证明了协同过滤模型对匹配结果具有优化作用。针对科技计划项目管理,本文提出以下建议:

(1)对项目申报书实行规范化管理。对申报书格式进行规范,应根据实际业务需要对申报书格式进行统一,项目的学科类别、行业领域和技术领域内容应使用国家或本地区制定的权威分类标准,项目标题、摘要和关键词等信息应完整、规范地填写。

(2)对专家库信息实行规范化管理。针对目前专家信息填写不完整、不规范的问题,将专家信息表中该部分信息设置为必填项,尽量将非结构化信息转化为半结构化或结构化信息。此外,应该积极利用社会化方法收集专家信息。例如通过“科研之友”平台获取权威第三方数据库中评审专家的客观信息,在充分考虑多元信息集成的基础上,为评审专家精确建模,为专家与项目精准匹配的实现奠定基础。

本文提出的专家智能匹配模型还存在以下不足:①对专家与项目的原始信息质量依赖程度高;②未考虑专家与项目水平的一致性,以及专家与项目特征项之间的权重关系;③模型仅从词语层面对项目与专家进行匹配,未深入到语义层面。

后续研究可以从以下方面突破:①增加数据量。由于科技计划项目涉及的学科领域较广,而不同专家的研究领域也有差异,通过增加数据量,可以使匹配结果更全面、科学;②提高项目与专家信息质量,增加项目与专家信息维度,如将项目主体内容信息与专家研究成果信息纳入特征向量的构建中;③为特征词语赋予不同的权重;④在语义层面探索新的模型与方法。

参考文献:

[1] 胡义东,吴财郁.科技计划项目管理[M].南京:江苏科学技术出版社,2007.

[2] HETTICH S, PAZZANI M J. Mining for proposal reviewers: lessons learned at the national science foundation[C]. 12th ACM SIGKDD international conference on Knowledge discovery and data mining, 2006.

[3] BISWAS H K, HASAN M M. Using publications and domain knowledge to build research profiles: an application in automatic reviewer assignment[C].Information and Communication Technology, 2007.

[4] FERILLI S, DI MAURO N, BASILE T M A, et al. Automatic topics identification for reviewer assignment[M]. Berlin: Springer Heidelberg, 2006.

[5] 刘一星, 梁山. 基于改进 ATSVM 算法的评审专家自动推荐模型[J]. 重庆科技学院学报: 自然科学版, 2010(1): 134-136.

[6] 傅妍芳, 高祥, 张弘, 等. 专家分配问题的 KMP 优化求解方法研究[J]. 西安工业大学学报, 2014, 34(5): 355-359.

[7] 余峰, 余正涛, 杨剑锋, 等. 基于主题信息的项目评审专家推荐方法[J]. 计算机工程, 2014, 40(6): 201-205.

[8] MERELO-GUERVOS J J, CASTILLO-VALDIVIESO P. Conference paper assignment using a combined greedy and evolutionary algorithm[C]. Berlin :Springer, 2004.

[9] TAYLOR C J. On the optimal assignment of conference papers to reviewers[D]. Pennsylvania: University of Pennsylvania,2008.

[10] 毛晚堆, 谷千军, 褚蓓蓓, 等. 科技项目评审专家分组匹配算法[J]. 北京理工大学学报, 2014(5): 15.

[11] XU Y, MA J, SUN Y. A decision support approach for assigning reviewers to proposals[J]. Expert Systems with Applications, 2010, 37(10): 6948-6956.

[12] RESNICK P,IACOVOU N,SUCHAK M,et al.Group lens: an open architecture for collaborative filtering of net news[C]. ACM Conference on Computer Supported Cooperative Work,1994.

[13] SALTONG, CLEMENTTY. On the construction of effective vocabularies for information retrieval[C].Proceedings of the 1973 Meeting on Programming Languages and Information Retrieval, 1973.

(责任编辑:张 悦)

A Practical Research of Expert Matching in Science and Technology Project Review

Cai Guilan1, Peng Jiankeng2, Wei Jiyun2, Chen Lili1

(1.Department of Information Planning, Guangdong Science and Technology Innovation Monitoring Research Center, Guangzhou 510033, China;2.School of information management, Zhongshan University, Guangzhou 510006, China)

Abstract:In the situation of the low efficiency and poor efficiency which existing in the matching process of projects and experts of the scientific and technological project review, the paper proposes an expert intelligent matching model which consists of 2 parts: vector space model and collaborative filtering model. After the feature extraction of each project groups and experts, we generate expert matching list by using vector space model and optimize the matching list using the collaborative filtering model to get a better result. Using the simple data of Guangdong science and technology plan projects and the information of expert database, we design an experiment to test the model and have a good result that the accuracy is 97.6%.

Key Words:Science and Technology Project Review; Expert Matching; Vector Space Model; Collaborative Filtering

收稿日期:2017-05-05

基金项目:广东省省级科技计划项目(2014A080803008)

作者简介:蔡桂兰(1975-),女,广西柳州人,广东省科技创新监测研究中心信息规划部部长、副研究员,研究方向为科技管理、科技资源建设、科技信息服务;彭健铿(1992-),男,广东肇庆人,中山大学资讯管理学院硕士研究生,研究方向为网络信息计量、文本挖掘与分析、科技项目管理;韦霁芸(1992-),女,广西南宁人,中山大学资讯管理学院硕士研究生,研究方向为科学计量、文本挖掘与分析、科技项目管理; 陈丽丽(1989-),女,湖南邵阳人,广东省科技创新监测研究中心信息规划部信息专员、研究实习员,研究方向为科技管理、科技资源建设。

DOI:10.6049/kjjbydc.2017010532

中图分类号:G311

文献标识码:A

文章编号:1001-7348(2017)14-0030-07