专利数据在创新管理研究中的应用综述与展望

孙笑明1,马 钰1,王雅兰1,冯 涛1,郭 欣1,2

(1.西安建筑科技大学 管理学院,陕西 西安 710055;2.西北大学 法学院,陕西 西安 710055)

摘 要:大数据背景下,拓展研究者科研数据应用视野对于提高创新管理研究水平具有重要意义。围绕专利数据在创新管理研究中的应用,分别对专利数据分享平台、专利数据样本行业选择及时间跨度、专利数据清洗、专利数据合作网络、知识网络及引用网络、专利数据基本创新指标、专利数据创新绩效指标、专利数据处理分析模型及专利数据指标计算与分析平台进行综合评述,并从网络分析、创新指标挖掘与无形资产评估及案例研究3个方面提出专利数据未来应用方向,可为提高专利数据应用水平、研究创新管理问题提供理论和方法借鉴。

关键词:专利数据;创新管理;社会网络;技术创新;创新网络

Review and Prospect of Patent Data Application in Innovation Management Research

Sun Xiaoming1, Ma Yu1, Wang Yalan1, Feng Tao1, Guo Xin1,2

(1. School of Management, Xi'an University of Architecture and Technology,Xi'an 710055, China;2. School of Law, Northwest University, Xi'an 710055, China)

AbstractAt present, although scholars have accumulated some research results around patent data, especially in the field of innovation management, they do not make full use of the existing data resources. There are isolated islands of information among the data so that the application steps, validity of patent data, and platform resources of existing patent data supply and analysis have not been systematically summarized. This is an assignable obstacle for patent-related research. If some problems are not handled properly, it will even affect the research conclusion and its application value . Therefore, it is of great significance to broaden the application vision of researchers' scientific research data to improve the research level of innovation management.

This paper aims to help researchers utilize the published patent data to promote the development of innovation management research. Focusing on the application of patent data in innovation management research, the following work is carried out in this paper. First, the value and information of patent data are elaborated, and the acquisition platform of patent data in existing innovation management research is sorted out to help researchers to better apply patent data and fully explore the value of patent number. Secondly, this study summarizes existing patent data processing methods and measures to improve validity in this field, including industry selection, time span and cleaning of patent data samples. In particular, in view of the problem of patent data cleaning, this paper summarizes the existing processing methods from the aspects of inventor name elimination, organization, mobile developer, classification number version, legal status, data missing, data duplication and low-quality patent identification.

Due to the continuous progress in the research of social networks and complex networks, the attention to networks in management research has also been strengthened. The research of innovation networks represented by cooperative networks, knowledge networks and citation networks has become a prominent learning in the field. In the competitive environment, the establishment of different collaborative relations by innovators can realize complementary advantages and knowledge sharing. Therefore, the attention of management research on network is constantly strengthened. This paper summarizes the research on innovation network represented by collaboration network, knowledge network and citation network, and summarizes the main research dimensions and results of innovation network in the current stage. On this basis, this paper focuses on measuring the influence, importance and relationship of nodes in collaboration network, knowledge network and citation network, and summarizes the main collaboration network analysis index in extant studies. In addition, it summarizes the main innovation measurement index of patent data from aspects of R&D capability evaluation and technology value evaluation. From the perspective of measuring patent performance, this paper then summarizes the index of patent citation, the strength and depth of patent family, and exhibition the extant main patent data index analysis platform with the aim to provide valuable research index reference for innovation management researchers.

According to the related analysis in innovation management, this paper puts forward research suggestions about the usage of patent data on network analysis, innovation index exploration and case studies. Firstly, the patent-based social network analysis provides a better empirical condition for revealing the collaboration mechanism in innovation , the researchers could study a variety of network changes, network integration process, knowledge flow, and other issues. Furthermore, they can reveal the coupling mechanism between knowledge network and collaboration network and its impact on innovation performance from the perspective of network diversification. From the perspective of innovation index mining and intangible asset evaluation of patent data, this paper presents the important research significance of scientific evaluation index and evaluation index system of patent value to realize technology and achievement transformation, as well as suggestions for the application of patent data in case studies.

Patent data increasingly shows its huge information carrying capacity and value mining advantages. The development of computer technology and Internet has brought advanced technical tools and methods for patent data analysis and application. As a result, the research on innovation management based on patent data provides scholars with unprecedented new ideas and broad vision.

Key Words:Patent Data; Innovation Management; Organization Network; Technological Innovation;Innovation Network

收稿日期:2021-07-20

修回日期:2021-10-13

基金项目:国家自然科学基金面上项目(72072140);陕西省自然科学基础研究计划项目(2019JM-46)

作者简介:孙笑明(1982-),男,辽宁大连人,博士,西安建筑科技大学管理学院副教授,研究方向为复杂组织网络与创新、大数据分析;马钰(1995-),女,新疆伊犁人,西安建筑科技大学管理学院硕士研究生,研究方向为复杂网络与创新、大数据分析;王雅兰(1988-),女,四川内江人,西安建筑科技大学管理学院博士研究生,研究方向为动态组织网络与创新、大数据分析;冯涛(1984-),男,陕西西安人,博士,西安建筑科技大学管理学院副教授,研究方向为人力资源管理、组织创新;郭欣(1992-),男,陕西西安人,西北大学法学院硕士研究生,西安建筑科技大学管理学院工程管理实验中心管理员,研究方向为知识产权保护。

DOI10.6049/kjjbydc.CQ202107309

开放科学(资源服务)标识码(OSID):

中图分类号:G306

文献标识码:A

文章编号:1001-7348(2022)07-0150-11

0 引言

2020年3月20日,中共中央国务院发布了《关于构建更加完善的要素市场化资源配置机制体制的意见》,并将大数据列为我国第五大生产要素。其中,专利大数据通过各国专利行政部门公共数据服务平台已累计发布文本6 500万件以上,庞大的数据库几乎囊括了全球90%~95%的技术情报,是促进经济高质量发展的战略性资源。专利大数据以公开易获取、更新速度快、结构化程度高、客观质量好等优势为研究者所青睐,为高校和科研机构科学研究工作提供了良好的数据基础。

然而,目前基于专利数据的研究,尤其是创新管理研究虽然积累了一定的研究成果,但丰富而庞大的数据和信息资源并没有得到充分利用,数据与数据之间形成了一个个价值孤岛,未对专利数据应用步骤、效度以及供给和分析平台等进行系统总结和整理,影响研究结论及专利数据的应用价值。鉴于此,本文通过梳理专利数据基本信息、应用价值及其在创新管理研究中的应用,总结专利数据获取、利用方式和提升效度措施,并汇总国内外现有专利数据分析平台,从基于专利数据的网络分析、创新指标挖掘与无形资产评估以及专利数据在案例研究中的应用3个视角提出未来研究方向,有助于丰富创新管理研究。

1 专利数据信息与价值

1.1 专利数据信息与获取平台

专利是创新成果的主要载体,专利所包含的技术、经济、法律等信息主要通过结构化专利文献著录项的形式加以呈现。其中,技术信息包括某技术领域新发明创造、技术发展历史、技术关键解决方案等内容;经济信息包括发明创造拥有的同族专利数量、各国在不同技术领域发明创造活跃和衰退程度、正在开辟的技术市场、某项产品销售国家和地区以及权利人建立生产基地的国家等内容;法律信息包括专利申请是否已经授权、法律保护范围、受地域保护程度等内容。

目前,各国知识产权管理部门开发管理的开放式平台是获取专利数据的主要途径,如国家知识产权局专利数据库、美国专利商标局数据库(USPTO)、欧洲专利局(EPO),但这些专利数据共享平台均以方便企业查询和申请专利为主要用途。国内外多家商业平台对世界上重要的专利数据库进行了整合和汇总,提供了便利式批量下载服务,且各具优势,具体情况见表1。其中,美国专利商标局数据库提供了1790年至今的所有授权专利数据,该数据库专利质量高、覆盖范围广,一般被选作初始样本数据。中国国家知识产权局则收录了1985年以来中国的所有专利信息,是研究中国企业创新特征和创新绩效的首选数据。

表1 专利数据库平台基本情况
Tab.1 List of basic information for patent database platform

平台名称基本介绍专利数据服务范围主要功能平台易用性及优势中国国家知识产权局网站该平台收录了1985年以来所有中国专利信息,包括发明专利、实用新型专利和外观设计专利著录项目该平台收录了103个国家、地区和组织的专利数据,以及引文、同族、法律状态、TIFF图像格式等各种说明书 常规检索、药物专题检索、检索历史;快速分析、定制分析、高级分析等数据更新速度快;专利数据全面、权威;免费检索、下载德温特数据库该数据库以德温特世界专利索引和世界专利引文索引为基础,数据可回溯至1963年收录了来自世界40多个机构的一千多万个基本发明、三千多万个专利、全球化学及电子方面的专利,每周增加两万多个专利快速检索、化学检索、专家检索、被引专利检索;翻译所有英语以外的其它专利文献;具备高价值标引内容新颖,报道迅速;内容详实,实用性强;内容广泛,连续性强;标引一致性高IncoPat科技创新情报平台全球首个面向华语研发的专利情报平台,帮助跟踪研究技术发展,规避专利侵权风险,掌握竞争对手研发动态该平台收录了102个国家、地区和组织的专利数据,提供专利价值度、中国专利获奖情况、专利寿命等特色数据中文检索、智能检索、引证信息检索;专利价值分析、同族专利优先权分析、技术和对手监控预警界面简洁,操作简单;检索功能设计合理,检索效率高;分析功能全面,使用便捷PatSnap智慧芽平台借助AI技术搜集、整理和分析全球创新数据,提供研发全流程情报分析、流程管理等解决方案该平台整合了1790年至今126个国家和地区的专利数据,73个国家和地区的法律状态信息,85个国家和地区的外观设计专利等九大检索方式;同族分析、矩阵分析等多种分析工具;多种浏览模式及图像化表达;通过3D专利地图可以了解技术空白和密集区 专利数据全面覆盖;操作界面简单便捷;数据更新及时;检索方式多样,信息查询高效;多维信息呈现佰腾网专利检索系统平台具有独立知识产权专利检索工具,集成科技成果转化服务、产学研对接服务、国际技术转移服务系统包含8国(中国、美国、日本、英国、法国、德国、瑞士、俄罗斯)及两个组织(欧洲专利局、PCT组织)的专利数据简单检索、高级检索、IPC检索、外观检索、排除检索等;相似专利对比查看分析界面显示效果好;检索响应速度快;多图模式,没有篇数限制;医学专业科研者使用更加方便SOOPAT专利搜索引擎平台链接了互联网上所有免费专利数据库,收录了超过8 500万条专利文献,时间跨度超过350年 平台收录了1760年至今99个国家和地区的专利数据,主要包括美国、日本、英国、德国、法国、韩国、意大利、印度、俄罗斯等简单检索、高级检索、IPC检索、引文检索、专利族检索;专利申请人分析、申请量分析、专利分布分析检索速度快,设计合理;中国专利法律状态分类统计直观、引证分析简洁;中国台湾专利说明书可浏览下载Innojoy专利搜索引擎该平台具备全球专利检索、分析、管理、转化等功能,为用户知识产权审查、技术发展、创新活动提供决策依据包含105个国家和地区的专利数据,60多个国家的法律信息,14个国家的小语种英文翻译及美国、中国的增值数据DPI检索、AI检索、专家检索、复审无效检索、法律检索等; 分析行业研发动态、规划专利布局、监控及预警界面显示友好、图表直观、操作简单;检索字段多,逻辑表达全面;筛选、排序、分析功能强;可批量下载Creat-Mart数据平台提供高度清洗化的欧美专利数据提供高度清洗过的美国、欧洲、中国等全球专利数据,可大幅减少数据处理时间超长检索式支持、跨库联合检索;同族聚焦、在线图文对比、在线建库、专利地图等采用清洗后的专利数据,能节省科研团队时间和实验成本。中国专利数据可对接到Patlab平台处理

1.2 专利数据在创新管理研究中的应用价值

专利数据为创新管理研究提供了坚实的数据基础,并提高了研究起点和研究水平。专利数据技术内容权威可靠,能够全面反映企业创新成果。研究者结合创新主体的具体特征,可大幅缩短数据资料搜集时间,节省研究成本。同时,通过与其它数据(财务数据、绩效数据和组织架构数据)相结合,还可以促成和拓展更广泛意义上的创新管理研究。研究人员可利用专利数据信息进行企业人才战略制定[1]、行业情报分析[2]及组织内外部多层次创新合作网络构建[3],还可以构建创新管理研究评价指标体系,提出假设模型并进行有效验证。基于专利大数据的创新管理研究日益为研究人员所青睐[4]。某些国外学者对专利大数据分析进行了初步讨论[5],且已经超过简单的情报分析,如技术发展趋势、技术分布、核心专利、发明人、经济价值、市场合作伙伴、专利新颖性、创造性、专利侵权分析等。

2 专利数据与创新管理研究

2.1 专利数据行业选择与时间跨度

(1)专利数据行业选择。根据研究目的,专利数据行业选择需要综合考虑行业特征、专利申请数量、行业发展历史、企业经营信息披露等,选取样本量充足、时间跨度长、知识产权保护强度大的行业数据。同时,根据具体问题有所侧重。欧美专利数据公开时间较早,专利有效性和数据质量高,且专利引用公开信息相对完整。学者使用欧美数据时多选取电子信息产业[6-7]、半导体产业、化学产业[7]、生物科技行业[8]、医药行业[9]或其代表性企业发明授权专利,一般不考虑申请专利或失败专利,但这正是一些学者诟病专利数据使用的理由之一。相关学者认为,专利数据未能包含企业创新过程中的所有研发活动,因此由专利授权数据所反映的合作关系、研发经验等信息并不完整。虽然很多学者已经对此观点进行了理性反驳,但研究者仍有必要在结果稳健性检验及研究局限中声明其不足,以示严谨及对指导企业创新实践的价值态度。此外,由于欧美等发达国家所处发展阶段不同,很多行业已经到了非常成熟稳定的阶段,因此国外专利数据对专利时效性的要求不像国内那么高,而是更加看重研究目的。例如,如果是研究创新并购问题,那么选取1975-1985年美国生物行业医药专利数据比较合适,因为这一阶段是该行业并购的重要时期,而且还可以使研究两侧数据观测值尽量避免人为删截(以专利引用次数作为创新绩效衡量指标,要留出足够长的累计时间)。

中国学者选取样本数据时需充分考虑本土企业实际情况,立足于本土数据,解决本土问题。目前,国内学者多选取通信行业、电子信息行业、家电行业和机动车行业专利数据,原因如下:第一,通信技术融合了互联网、物联网、人工智能和大数据等新兴技术,技术更新速度快,技术迭代特征明显,对预研有较为清晰的判断,前后商用区间易于区分;另外,我国通信行业代表性强,预研成效显著,从3G到5G已经实现从初始应用、跟随到领跑的完美升级。第二,家电行业、电子信息行业和机动车行业在我国起步较早、技术发展相对成熟、创新能力较强,可以对研发者职业生涯、企业内部创新网络动态变化情况进行充分考察;另外,该类行业创新成果位于前25名的代表性企业目前均已成为国际有影响力的高新技术企业,创新能力优势明显,创新特征更具代表性,如电子信息行业海尔、海信和格力等,机动车行业三一重工、奇瑞汽车和吉利汽车等。第三,采用上市公司的优势在于可以从CSMAR数据库中获取更多关键研发者信息,如企业内部人员简历等。上述3个行业研发人员通常在学术期刊网络发表相关论文较多,可以通过论文推断其研发成果价值,从而保证多层面交叉论证的可行性。本土企业经营环境最大的特点之一是动态性,因此基于中国专利数据进行研究通常对数据时效性要求较高。一般专利申请到授权存在一定年限,数据样本至少要更新到投稿评审前3~5年。由于中国专利数据引用信息不完备(一般只有授权发明专利,缺乏实用新型专利),通常也不会将专利引用信息作为创新绩效衡量指标(多采用多个指标的加权求总,如独立声明个数、申请到授权时长及续费年限等)。国内医药行业专利数据使用程度偏低,主要原因在于我国医药行业企业创新发展水平不高,普通和原研药专利数量较小,且创新连续性差,可用于实证研究的样本可行性不高,大多只能进行描述性统计分析或案例分析。

(2)专利数据时间窗口设置。利用专利数据进行研究一般选取跨度合适、固定的时间窗口,通常要与提出的理论模型相匹配。现有研究一般使用专利申请日期作为创新活动的初始点,数据窗口设定时间大致为2~10年,使用频率最高的时间窗口为3~5年(研发人员创造力活跃期通常为3~5年[10],且专利引用从授权之日起3~5年内达到巅峰,故以3~5年为时间窗口更有利于准确捕获专利引用信息;若有存档信息明确了专利合作时间,则直接按照其中的起止时间规定网络形成与解散时间)。通常选择一个数据窗口作为主分析窗口,并将前后两个数据窗口作为敏感性分析窗口,以证明数据窗口选择的合理性。根据以往文献中基于数据窗口生成的网络关系抽象法[11],可通过固定时间长度划分样本数据或以研发者特点及研究需要确定数据窗口时间,并综合考虑研发人员创造力活跃期及最大化数据观测值。

2.2 专利数据清洗

数据清洗是指对数据进行加工以促进其质量提升。通常,原始专利数据可能会产生许多噪声和干扰因素,如国家之间的专利制度差异、专利分类差异、著录项目变更等,因此需要对专利数据进行清洗。梳理以往研究,专利数据清洗工作主要包括以下几个方面:

(1)发明家姓名消歧问题。发明人姓名信息体现在情报分析、战略制定和合作创新等方面。消歧算法原理是赋予分类号、发明人地址信息等发明人专利属性以适当权重,根据设置的阈值判断相似度之间的关系,以此对发明人进行区分。大多数消歧算法仅适用于英文姓名,缺少一种可同时适用于中英文姓名的消歧算法。

针对国内专利发明人姓名信息,可将中文转换为拼音后进行数据清洗。刘斌等(2016)提出一种基于四角数和拼音提取以及分类数和伙伴相似度的发明人名称歧义消除算法;孙笑明等[11]针对国内发明人姓名消歧问题,将消歧过程中产生的发明人姓名歧义划分为确定性歧义和非确定性歧义,并使用算法消除确定性歧义,以面向共识的收敛性参数方式弥补机器算法的不足,提高了发明人姓名消歧的准确性。

(2)组织机构。对于申请人来说,组织机构涉及公司重组、并购,需要按照公司进行统一清洗。在对专利数据进行清洗之前,由于组织机构存在合并重组等商业行为,导致组织机构命名不规范的现象较为普遍。因此,需对专利数据清洗进行规范化处理,否则将导致统计分析结果产生偏差。近年来,Talend、Open Refine、Data Cleaner等专利数据清洗开源工具得到广泛应用。其中,Open Refine是数据清洗、探索、转化的有效工具,该软件利用关键词碰撞和邻近取样两种方法解决机构名称不规范问题。利用该软件,研究人员可以对机构名称进行聚类,并根据聚类处理结果对数据进行清洗;另外,该软件还可以对个别机构进行特殊处理,如重命名以得到最终的数据清洗结果。以处理5G通讯技术专利数据为例,可从一系列专利权人中拆分出多个项目进行聚类分析,并依据分析结果对项目重新归类,从而得到新的单元格值,再对机构名称逐个归并以完成最终的数据清洗。

(3)流动研发者。研发者流动是指发明人在不同企业组织中任职,这种不确定性会导致发明人网络关系及企业内部整体网络关系构建产生偏差,进而影响指标计算。对发明人流动关系的判断主要通过追踪发明人连续拥有专利情况实现,通常发明人流动特征形成时间包括3种情况:其一,与发明人在新企业组织中申请第一个专利的时间相近;其二,与发明人在原企业组织中最后一个专利申请时间相近;其三,发明人在新企业组织中的专利申请时间晚于原企业组织专利申请时间,流动时间可取前两者的中间时间点。另外,还需要考虑以下因素:①知识分类号相近或相同;②可能伴有同时存在的流动合作者;③考虑一些离职因素,如并购后研发者离职率较高,那么在确定流动研发者时需要先了解样本企业在聚焦时段内经历的较大的组织层次活动,如并购、企业内部高层结构震荡等。

关于发明人流动特征还需深入考虑以下几点:首先,通过发明人拥有的专利申请人变化情况追踪其流动,以发明人可以被唯一识别为前提条件;其次,需意识对原始数据清洗的重要性,因为专利申请人变化可能由组织易名、母子公司、收并购等原因引发;再次,发明人流动特征还受发明人姓名输入方式的影响,从而容易低估或高估发明人流动次数。

(4)分类号版本。由于不同国家分类标准不同,通常会造成分类号版本不一,如国际分类标准、欧洲分类标准、美国分类标准的分类原则及方法不同。即便同一国家专利系统由于技术进步等原因,也会导致分类号不断合并和分离,这些信息会在分类号著录项中以括号注释的形式标出,通常以年份作为更新标记。学者在使用分类号对变量进行计算及样本搜索时需要充分了解专利特征,并明晰其所带来的影响。

(5)专利法律状态。专利法律状态数据清洗过程包括两个阶段:基本处理和序列处理。分阶段处理通过迅速发现法律状态下的时序关系问题来保证法律状态信息的有效性。在专利法律状态信息基本处理阶段,一方面需要依据常见的问题解决方案对法律状态初始数据进行纠正;另一方面,也要为序列处理奠定基础,并对个体及状态序列同时进行归并。在专利法律状态信息序列处理阶段,首先是将基本处理阶段获取的数据作为新数据源,其次是发现问题序列,最后是对具体问题进行具体分析。

(6)一般问题。①数据缺失是指专利数据中常出现的空值。K最近邻算法、贝叶斯网络是常用的缺失值清除方法。其中,K最近邻算法适用于样本量较大的自动分类,而样本量较小时更容易使用该算法生成数据。贝叶斯网络主要适用于有条件地依赖多个控制因素的决策,通常用于表达和分析概率性事件和不确定性事件;②数据重复。用于相似重复记录的清除算法包括字段相似性检测算法和相似重复记录检测算法(SNM最近邻分类算法)。字段相似性检测算法是通过检测两个数据字段之间的相似度清除其中一个数据。SNM最近邻排序算法是先根据属性要求对数据表中的字段进行排序,然后指定一个固定大小的N窗口在数据集上移动,比较每个数据集的最后一条记录;③低质量专利。随着专利数量的不断增多,低质量专利大量涌现,并对科技评价工作产生了负面影响。为此,需要使用一定的方法识别和删除低质量专利。

2.3 基于专利数据的创新网络构建与指标分析

近些年,随着社会网络和复杂网络研究的不断深入和拓展,以合作网络、知识网络和引用网络为代表的创新网络管理研究已成为领域内显学,是研究人员思考、分析创新管理问题的重要依据。

2.3.1 合作网络

在竞争环境下,创新主体不再是孤立地开展技术创新活动,建立合作关系可以获得不同知识资源,实现优势互补和知识共享。因此,合作创新成为一种重要的创新模式,是否拥有创新合作网络影响研发者创造性搜索和创新产出[6,12]。目前,学者普遍采用专利授权中的发明人合作刻画研发者创新合作网络[13],采用专利授权中的申请人合作刻画企业组织间创新合作网络。但Fleming等[14]指出,失败专利也是由合作产生的,构建不同层次创新合作网络时应将其考虑在内。在合作网络中,节点指发明人或申请人(企业组织);关系是指由两个发明人或申请人参与的共同专利。

相比于当前阶段观察点位置的专利合作网络, 以往通过专利合作构建的网络通常被认为是一种非正式网络[9]。然而,与正式网络相比,非正式网络对研发者下一阶段创新具有重要价值,失去这些网络资源就意味着失去重要的社会资本,研发者将面临缺乏多方面支持的不利局面。从系统角度看,基于专利的组织内部非正式创新合作网络研究主要集中在以下几个方面:

(1)关联关系维度。Crescenzi等[15]分析了研发者的多重关系属性特征,如地理邻近性、认知差异、文化相似性等。

(2)结构嵌入维度。Agrawal等[16]指出,新聘用研发者仅限于在新入职企业所形成的自我中心网进行传播;Graf(2011)分析了研发者合作网络与电子信息技术和半导体行业关键技术之间的涌现关系。

(3)位置嵌入。Singh等[12]通过对核心和外围网络位置进行考察发现,组织内部研发者合作网络的小世界网络特征并不会使处于核心和外围位置的研发者受益,处于网络外围位置的研发者容易受外围地位和相似性双重机制的不利影响。如果要改变这种局面,外围研发者需要采用不同的搜索策略,如跨越不同的社会边界。

(4)综合考虑多个维度。Nerkar & Paruchuri[10]研究了占据企业自我中心网络结构洞中心位置的研发者对企业技术创新路径选择及动态创新能力的影响;Rost[17]以自我中心网为基础,定义了一种“弱结构”(“强关系+多结构洞”的稀疏网络特征),并讨论了其对个体创造力的影响。

需要注意的是,专利作为一种职务发明,发明人之间的合作关系复杂多样,既可能源于发明人自组织,也可能是受组织领导的安排,抑或是两者的共同作用。因此,研究人员在进行实证研究时应将这一非自主因素考虑在内。

2.3.2 知识网络

本文所描述的知识网络刻画的是知识元素之间的连接关系。学者将知识网络视为一种特殊的社会网络,指出知识网络以知识元素为节点。学者研究知识元素时通常选取知识元素知识库,如个体或组织知识库的数量特征、知识深度和知识宽度等,这些均会不同程度地影响创新成果。因此,研究者在构建实证模型时需加以考虑。但由于知识创新多源于知识元素的组合和再组合,因此对知识元素网络展开分析更具有说服力。Yayavaram & Ahuja[18]认为企业知识库是由知识要素间耦合关系所形成的知识网络,记录了知识要素在创新过程中的组合和隶属关系,可作为知识流动和搜索渠道,为未来潜在知识要素组合或重组提供指导[18]。Wang等(2018)首次将组织内个体协作网络和知识网络整合到一个研究框架中,发现这两个网络通过不同机制影响个体探索性创新。总之,越来越多的学者认识到知识网络是揭示创新规律的有效手段,但现有研究仅涉及网络可分解性[18]、连通性、邻近性[19]、直接和间接连接等方面,要深刻揭示组织创新规律,还需对指标加以拓展。

2.3.3 引用网络

专利引用网络描述的是施引专利与被引专利之间的引用关系。专利引用是技术持续发展的基础,为技术知识流动提供了显性证据。在引用网络中,专利是节点,施引专利与被引专利之间的关系是纽带。专利引用网络一般包括两种:一种是基于直接引用关系[20]而构建的网络,如专利文献、专利权人、机构等;另一种是基于间接引用关系而构建的网络,如共被引网络[21]和耦合网络[22]等。

国内外关于专利引用网络的研究主要集中在情报学和实证模型两个方面,其中前者主要侧重于技术路径识别、技术评价、技术创新过程3个方面:①技术路径识别。主要聚焦领域内的技术演化过程,识别技术主路径、基础技术、共性技术、核心技术和关键技术瓶颈等,也可用来识别竞争对手[2]。其中,识别技术发展脉络主要采用主路径分析法,可以发现关键专利和重要发明人。主路径识别算法包括SPC 算法[23]、SPNP 算法[24]、NETP 算法[25]和FCNP 算法[26]等;②技术评价。专利引用是测度研发者个体、企业、行业间和国际知识流动的典型指标,是技术创新评价的重要方法和工具;③技术创新过程。在直接引用方面,学者主要采用专利引用关系反映聚焦专利的技术和科学基础,研究技术之间的叠加及继承关系。同时,也有学者认为基于文本语义相似度的专利引用关系更加重要,能够揭示企业内部知识转移、知识共享、知识整合与不同层次主体创新绩效之间的关系。

2.3.4 网络特征结构指标

合作网络、知识网络和引用网络可用来衡量网络中各节点的影响力、重要性以及节点之间的关系。本文以合作网络为例,总结国内外主要合作网络分析指标,从整体网络和个体网络两大视角以及网络属性、节点属性、关系属性3个层面分析合作网络。其中,知识网络和引用网络可参考合作网络结构分析指标。此外,合作网络会随着发明人合作关系的改变而调整,知识网络、引用网络也有静态和动态之分,所以要根据实际情况灵活选择指标,具体如表2、表3所示。

表2 整体网络结构分析指标
Tab.2 Index of whole network analysis

属性指标 计算备注网络属性网络规模T=NN:整体网络内所有发明人数量网络密度2mn(n-1)m:网络中包含的发明人之间的实际合作关系数量网络中心势CB=∑Ni=1CBvi max-CBvi N-1CB(vi):所有发明人中最大的中间中心度网络平均结构洞指数AveragedSHt=∑Ni=1SHi,tNSHi,t:各发明人个体网络中的结构洞数量节点属性度数中心度DCi=∑j∈Γiaijaij:与这个发明人产生直接合作关系的其他发明人个数中间中心度CBvi =2×∑1≤j

表3 个体网络结构分析指标
Tab.3 Index of ego network analysis

指标计算备注结构洞结构洞限制指数pij+∑qpiqpqj 2,q≠i,jj:与发明人i相连的所有其它发明人q:除发明人i和发明人j之外的每个第三方发明人piq:发明人i投入到发明人j的关系中所占的比例结构洞效率指数∑j1-∑qpiqmjq mjq:发明人j到发明人q的合作关系的边际强度中间人角色关系总数Z=zS=sz:与核心发明人产生直接合作关系的数量s:在个体网络中除核心发明人之外的其他发明人之间合作关系的数量

2.4 基于专利数据的基本创新指标

在创新管理研究中,学者除采取基于专利数据的网络指标外,还需要考虑基本创新指标。本文从研发能力评价和技术价值评价两个方面总结国内外主要的专利数据基本创新测度指标,旨在为相关学者提供有价值的参考,详细指标与计算公式如表4和5所示。

表4 研发能力测度指标
Tab.4 Index of R&D capability measurement

层次指标计算备注个体研发贡献C=in(i1>i2>…>in,i1+i2+…in=1)专利署名中姓名越靠前分配的权重越大研发经验E=∑i=t-vi=t-uPiu-vPi:第i项专利所包含的发明人个数t-u~t-v:年内申请专利总个数企业内部集聚度clusteringi,t-u~t-v=3N△Nv=3×闭合三角闭合三角+开放三角根据企业t-u~t-v(u>v)年的专利数据构建企业发明人之间的合作网络,再运用R语言igraph程序包计算网络中闭合三角关系的比重权力保护范围S=∑ni=1EF iF:第i条授权专利独立权利要求技术特征数量E:本技术领域授权专利独立权利要求技术特征的平均值企业间创新规模接近性Invproxij=min(ni,nj)max(ni,nj)ni:企业i在t年之前申请的专利总数nj:i在t年之前申请的专利总数技术接近性Tecij=∑8k=1fikfjk ∑8k=1fik2∑8k=1f2fik:在t年之前,企业i在第k类专利中申请的发明专利数fjk:在t年之前,企业i在第k类专利中申请的发明专利数社会接近性SocMij=Nij∑iNij∑iNij:组织i与所有组织共同申请的专利总数

表5 技术价值测度指标
Tab.5 Index of technical value measurement

指标计算备注技术先进性基于专利类型:E=∑PiNE:企业发明专利占发明专利与实用新型专利总数的比例N:企业发明专利与实用新型专利总数基于引证信息:E=∑ni=1Ei=∑ni=1PA iEi:企业第i条目标专利的相对被引数量P:目标专利绝对被引数量A:目标专利所处技术领域同年授权所有专利的平均被引次数基于研发投入:E=∑ni=1OiNQi:第i条专利的申请人数量N:企业授权的所有专利数技术成熟度F=∑ni=1CiCi:第i条专利引用数量F=∑ni=1`SiSi:第i条专利自引数量技术独立性D=∑ii=1Di=∑ni=1SP iPi:目标专利所有引文数量Di:第i条专利的技术独立性技术应用广度W=∑ni=1FiFi:企业第i条专利涉及的分类号数量技术应用长度L=∑ni=1TDiTDi:第i条专利前向引证文献组合中最近一次与最早一次引证的时间差技术潜力度PA=(Fn-Bn)Bn×100%Fn:后期专利总申请数Bn:前期专利总申请数

2.5 基于专利数据的创新绩效指标

通常,学者用专利数量和质量测度创新绩效。专利质量一般可用以下指标或其综合加权衡量:专利类型、专利申请到授权的时间间隔、专利权利要求个数、专利维持时间[27]、专利被引次数、专利家族强度和深度,这样做的目的是增加专利数据使用效度,但需要注意以下几点:

(1)专利类型选择要视研究内容而定。若研究问题主要针对尚未大规模市场化的新兴研究领域(突破式技术创新),那么在构建样本时应该主要选择发明专利。

(2)诸多关于创新新颖性的论文在考察该指标时多基于替代性变量,但实际上最直接的测量方式应着眼于权利声明。由于文本的非结构化特征,计算指标时相对复杂且没有文献作为参考,通常只关注独立声明和非独立声明个数,因此应该加大文本分析力度。

(3)对不同时期的专利被引次数不能直接进行比较,且被引频次和被引周期并非均匀分布,用年平均值会低估最古老或最新专利的应用价值,这就需要借用Hall等(2001)提出的准结构化被引频次调整算法。另外,也要注意专利同族引用,即在同一平台下相同专利申请号引用次数应该以公布最早的专利号为准开始计数。而且,实用新型专利不提供专利引用信息,中国发明专利引用信息数据库2013年以后才建成。

(4)在将引用信息作为绩效指标时应考虑所分析的技术内容是否为主要技术领域。一个热门技术领域和一个冷门技术领域的引用情况存在较大差距,如果选取不当,则会对研究结果造成较大的负面影响。

2.6 专利样本数据分析模型

在创新管理研究中,学者需选择合适的模型对专利样本数据进行分析。

(1)管理研究的终极目标是考校组织绩效,因此大量研究将创新绩效设为因变量,而创新绩效通常用个体、企业授权或申请的专利数衡量,这就需要使用泊松回归和负二项回归两种计量模型。由于泊松回归模型使用条件较为严苛,即样本均值等于方差,这点通常极难满足,因此学者多使用负二项回归模型进行分析,而将泊松回归模型作为稳健性检验。当使用的样本数据具有面板特征时,通常又可依据Hausman检验结果将两类模型进一步划分为固定效应模型和随机效应模型。

(2)可依据授权专利或申请专利数量将因变量划分为多种类型,如研发者、研发者是否进入企业预研阶段、团队创造力高低以及企业是否合作等,此时因变量均为分类变量,分类变量又可划分为有序变量和无序变量两类。有序变量是指各类别变量之间的差异程度(创新水平低、中和高),无序变量又可细分为二分类变量和多分类变量,针对这些情况需灵活选择Logit、Ologit、Mlogit等模型。另外,还有一类发生频率较低的稀有事件采用稀有事件Relogit回归模型,以避免低估事件发生的概率。通常,这些不同分类模型也可以互为稳健性检验,当所处理的专利数据样本量为十万或百万级别以上时,所使用的统计模型必须慎重。因为一般模型隐含的假设条件已经不能满足数据量要求,这时需要进行修正,或参考当前一些使用频率较高的大数据统计分析模型。

(3)利用专利数据进行分析存在时间删截问题,此时要选择事件史分析模型,如Cox模型。该模型的优势在于能够充分利用删截信息,且能给出非常精确的估计值。当因变量不再满足连续变化的条件并在某个点被截断导致离散值出现时,可选用Tobit模型。例如,由关键研发者引发的整体网络中介中心势变化幅度介于0~1之间,并且有部分数值为0,无法满足最小二乘法变量连续假设的要求,或者在以专利权利声明个数作为因变量时,由于权利声明个数通常不会超过30,也可使用Tobit模型。

(4)当利用专利数据分析关联技术生命周期和技术轨道特征时,需要以纵向历史事件分析法为基础进行曲线拟合或分段回归模型检验。例如,在研究突破性技术创新问题时,需要拟合产业突破性技术轨道演化轨迹,选用Quadratic 和Cubic曲线拟合法更为合适。

(5)利用专利数据分析创新管理问题时还存在网络自相关问题、同源数据问题、内生性问题。网络自相关指观察值之间相互依赖。为解决该问题,通常采用Jensen & Hallen(2001)的处理方法,使用基于选择的抽样技术,并使用WESML(weighted exogenous sample maximum likelihood)方法对样本进行估计。另外,仅利用专利数据构建样本固然可以节省成本,但也存在同源数据问题。因此,还要吸收其它类型数据,如行业数据、企业基本信息等,或采用实地访谈的形式获取专利数据,以保证样本数据来源的多样性。对于模型可能产生的内生性问题,常见的解决方法包括工具变量、固定效应模型、倾向值匹配(简称PSM)、实验和准实验等,遇到此类问题时可根据研究情景抽取某些著录项信息,如将专利代理机构作为工具变量进行内生性检验[13]

2.7 专利数据指标计算与分析平台

目前,国内外存在较多专利数据指标计算与分析平台,这些平台高度简化了专利数据处理难度,为研究者进行创新管理问题研究提供了便利,主要平台特征如表6所示。

表6 专利大数据分析平台(目前均为商用)
Tab.6 Patent big data analysis platform (currently all commercial)

平台名称功能平台优势劣势Patlab该平台是国内外首个针对高校和企业创新管理研究的专利数据分析平台,具备高效数据清洗算法和一般情报学分析功能,能够直接计算论文中的多维度、多层次专利指标,有助于进行二次及以上开发性分析、回归分析及敏感性分析平台指标计算参考高水平期刊计算公式,可靠性和普适性高;平台采用流程式、友好化、高性能计算模式,支持5M 数据包、5 000 个节点矩阵以下的计算量,超过此阈值则提供订制服务,可扫除编程障碍,科研服务价值较高不提供专利直接检索,需要用户提供数据或与CreatMart数据库对接智慧芽Insights平台提供Insights专利分析报告;支持全球专利价值排序;引用分析;3D专利地图;化学数据库平台专利数据全面、功能易用、速度快、稳定性好分析内容同质化程度高Innogra-phy该平台具有独创的专利评价指标;提供专利评价指标强度分析,可以进行专利竞争力、转化、引证、热点趋势分析全球首创的专利强度指标,能够快速分离出高价值专利;独一无二的专利无效检索与侵权检索;提供专利气泡图、热力图、专利聚类分析虽然提供一些个性化分析,但以专利价值分析为主TDA专利数据挖掘和专利引用分析,主要特点是生成项目之间的相关性图表,挖掘项目之间的内在联系自动化程度高、界面友好直观,在数据整理、比较矩阵、数据图谱、自动汇总方面具有优势不提供专利检索,需要结合Aureka使用

3 未来应用

3.1 专利数据网络分析

基于专利的社会网络分析虽然为揭示创新合作机制提供了良好的实证条件,但在以下几个方面还需要加大研究力度:

(1)对于专利合作网络分析,学者可进一步研究多类型(研发合作与标准制定合作;诉讼关系和合作关系)、多时段(当前和以往)、多层次(个体、群体和整体)和多主体(企业、发明家)网络变化及其交互影响,并探讨其整合过程。目前,国内外基于专利数据的合作网络研究主要将网络关系强度、网络位置和网络结构特征等因素量化,并论证其对创新绩效的影响,但基于专利数据分析多种网络变化及其整合效应的研究很少[28]

(2)对于知识网络,学者应更多关注网络嵌入性产生、强化、改变及消失所产生的影响,分析合作网络、知识网络的对应关系和同步性。虽然越来越多的学者认识到知识网络是揭示创新规律的有效手段,但现有研究仅涉及知识网络易分解性[18]、连通性、邻近性[19]和复杂性,缺乏从网络嵌入关系、结构及位置维度进行的系统分析。另外,虽然已有学者明确指出知识网络与合作网络存在本质区别,但通常仅比较两种网络嵌入性作用机制差异,缺少从网络多元化视角揭示知识网络嵌入性与合作网络嵌入性耦合机制对创新绩效影响的研究[30]

(3)基于专利层次,研究者可根据专利引用网络分析专利之间的技术联系,探索预研、技术追赶和开放式创新等不同情境下知识搜索和扩散的路径,同时结合合作网络研究研发者之间显性知识和隐性知识流动特征与趋势,利用多元数据(技术市场中的技术转让需求及开放式创新项目发布信息)对技术进行预测,从而分析相关领域的技术热点,帮助企业抓住技术机会。目前,专利引用信息主要被视为衡量创新绩效的一个指标,很少涉及知识流动问题[16]

3.2 专利数据创新指标挖掘与无形资产评估

技术价值不仅是成果转化的重要依据,更是客观评估科技创新绩效的重要标准。对技术水平作出科学评价,有助于国家、企业、高校及科研机构制定合理创新政策,进而促进技术成果转化。随着我国企业技术追赶步伐的不断加大和跨国并购战略的持续推进,专利价值评估越发重要。

(1)目前,在以专利数据为基础的研究中,创新指标大多是对专利文献基本著录项的简单量化,以反映专利的外在统计特征,但鲜有学者从专利内在属性上(专利自身知识结构特征、发明创造思维逻辑及权利声明相互依存关系)挖掘创新水平衡量指标,并对技术发展进行科学预判。

(2)关于研发能力和技术价值,还缺乏科学合理的评价指标体系,如何将各类指标按不同的评价目的进行重新组合尚不明晰,核心和外围专利识别、高价值专利评估、科技成果转化、企业并购、研发过程中的人力资本价值评估及组合专利价值评估等问题亟待解决。未来应考虑指标组合适用性和指标匹配问题,制定科学合理的评价指标体系,从多角度验证指标体系的可行性,从而增强评价体系的实用性。

3.3 专利数据应用建议

根据上述研究,本文提出如下建议:

(1)由于具备客观性、连续性及丰富性等优势,在案例研究中,学者可将专利数据作为深度分析与解读创新管理问题、现象及规律的一个有效工具。专利数据在描述性统计分析、回归分析等方面有着与生俱来的应用张力,是目前对纯粹问卷调研数据的一个补充,也是学术界对于多源数据要求的最佳实践方式之一。

(2)专利数据在案例研究中可作为宏微观层次背景资料,指导不同层次学者开展工作。因为微观层次创新管理研究更多集中于深刻的点,而宏观层面创新管理研究更关注整体性的面,两者结合可以形成一种立体效应,使研究结论更加稳健。因此,研究者可利用专利数据分析解决创新管理问题。例如,在研究区域层面案例时,可对区域专利统计特征和区域创新网络特征进行整体描述性分析,同时根据分析结果,聚焦某一特征对微观层面研发者或企业个体进行分析,进而洞悉宏观结果的微观基础。反之,研究者也可以根据微观层面分析结果,对宏观层面涌现出来的不同现象进行分类,进而拓展更高水平的研究视野。

4 结论

作为科研数据的“富矿”,专利数据日益显示出庞大的信息承载能力和价值挖掘优势,计算机技术和互联网发展为专利数据分析与应用提供了先进的技术工具和方法。因此,学者以专利数据为基础的创新管理研究具备前所未有的新思路和大视野。首先,本文立足于实践层面,对专利数据信息和应用进行梳理,阐释了以往学者如何处理专利数据并利用专利数据研究创新管理问题,专利数据应用相关内容有助于深刻认识专利数据指标与创新管理对象之间的关系,从而深入地理解其作用机制和分析方法;其次,本文还汇总了目前专利数据供应和分析平台,并比较了各自的优势和应用场景,为研究者更好地使用专利数据提供了参考;最后,在总结以往研究的基础上,从社会网络分析、创新数据指标挖掘、无形资产评估及案例研究应用3个方面探讨专利数据未来应用方向,为后续研究奠定了基础。

参考文献:

[1] MOEHRLE M G, WALTER L, GERITZ A, et al.Patent-based inventor profiles as a basis for human resource decisions in research and development[J].Blackwell Publishing Ltd, 2005, 35(5) : 513-524.

[2] OLDROYD J B, MORRIS S S.Catching falling stars:a human resource response to social capital's detrimental effect of information overload on star employees[J].Academy of Management Review, 2012, 37(3) : 396-418.

[3] 孙笑明, 崔文田, 崔芳, 等.当前合作网络结构对关键研发者创造力的影响[J].管理工程学报, 2014, 28(1) : 48-55.

[4] SPIRO E S, ACTON R M, BUTTS C T.Extended structures of mediation:reexamining brokerage in dynamic networks[J].Social Networks, 2013, 35(1) : 130-143.

[5] SINGH J.Collaborative networks as determinants of knowledge diffusion patterns[J].Management Science, 2005, 51(5) : 756-770.

[6] AUDIA P G, GONCALO J A.Past success and creativity over time:a study of inventors in the hard disk drive industry[J].Management Science, 2007, 53(1) : 1-15.

[7] AHUJA G, POLIDORO F JR, MITCHELL W.Structural homophily or social asymmetry? the formation of alliances by poorly embedded firms[J].Strategic Management J, 2009, 30(9) : 41-58.

[8] LEE J.Heterogeneity, brokerage, and innovative performance:endogenous formation of collaborative inventor networks[J].Organization Science, 2010,21(4): 804-822.

[9] GULER I, NERKAR A.The impact of global and local cohesion on innovation in the pharmaceutical industry[J].Strategic Management Journal, 2012, 33(5) : 535-549.

[10] NERKAR A, PARUCHURI S.Evolution of R&D capabilities:the role of knowledge network within a firm[J].Management Science, 2005, 51(5) : 771-785.

[11] 孙笑明, 李瑶, 王成军, 等.基于专家研讨思想的发明人姓名消歧研究[J].情报科学, 2019, 37(4) : 116-121.

[12] SINGH J, FLEMING L.Lone I nventors as sources of breakthroughs:myth or reality[J].Management Science, 2010, 56(1): 41-56.

[13] VENTURA V.Getting started in nursing professional development:the staff education process[J].Journal for Nurses in Professional Development, 2015, 31(1): 47-48.

[14] FLEMING L, CHEN MD.Collaborative brokerage, generative creativity, and creative success[J].Administrative Science Quarterly, 2007, 52(3) : 443-475.

[15] CRESCENZI R, NATHAN M, RODRIGUEZ-POSE A.Do inventors talk to strangers?on proximity and collaborative knowledge creation[J].Research Policy, 2016, 45(1) : 177-194.

[16] AGRAWAL A, KAPUR D, MCHALE J.How do spatial and social proximity influence knowledge flows?evidence from patent data[J].Journal of Urban Economics, 2008, 64(2) : 258-269.

[17] ROST K.The strength of strong ties in the creation of innovation[J].Research policy, 2011, 40(4) : 588-604.

[18] YAYAVARAM S, AHUJA G.Decomposability in knowledge structures and its impact on the usefulness of inventions and knowledge base malleability[J].Administrative Science Quarterly, 2008, 53(2):333-362.

[19] 魏江, 徐蕾.知识网络双重嵌入、知识整合与集群企业创新能力[J].管理科学学报, 2014, 17(2): 34-47.

[20] 孙笑明.专利在管理中的应用[M].北京: 化学工业出版社, 2020:97-140.

[21] 刘岩, 蔡虹.企业知识基础网络结构与技术创新绩效的关系——基于中国电子信息行业的实证分析[J].系统管理学报, 2012, 21(5):655-661.

[22] YANG C, HUANG Q, LI Z, et al.Big data and cloud computing: innovation opportunities and challenges[J].International Journal of Digital Earth, 2017, 10(1) : 13-53.

[23] 崔芳, 孙笑明, 熊旺,等.关键研发者自我中心网络变化对企业创新绩效的影响: 以整体网络为中介变量[J].科技进步与对策, 2017, 34(17) : 80-90.

[24] 孙笑明, 王静雪, 王成军, 等.研发者专利合作网络中结构洞变化对企业创新能力的影响[J].科技进步与对策, 2018, 35(2):115-122.

[25] WATTS D J, STROGATZ S H.Collective dynamics of small world networks[J].Nature, 1998, 393(6684) : 440-442.

[26] FREEMAN L C.Centrality in social networks conceptual clarification[J].Social Networks, 1978, 1(3) : 215-239.

[27] 乔永忠, 肖冰.基于权利要求数的专利维持时间影响因素研究[J].科学学研究, 2016, 34(5) : 678-683.

[28] DEMIRKAN I, DEEDS D L, DEMIRKAN S.Exploring the role of network characteristics, knowledge quality, and inertia on the evolution of scientific networks[J].Journal of Management, 2013, 39(6) : 1462-1489.

[29] CANTNER U, RAKE B.International research networks in pharmaceuticals: Structure and dynamics[J].Research Policy, 2014, 43(2):333-348.

[30] 董彩婷, 柳卸林, 张思.创新生态嵌入和政治网络嵌入的双重作用对企业创新绩效的影响[J].管理评论, 2020, 32(10): 170-180.

(责任编辑:王敬敏)