专利转化特征精准识别与预测
——以人工智能芯片为例

姜 南1,李逸凡1,刘 谦2,刘 星1

(1.同济大学 上海国际知识产权学院,上海 200092;2.河海大学 商学院,江苏 南京 210024)

摘 要:探讨前沿科技领域专利转化特征并对其进行精准识别与预测,对于我国破解“卡脖子”技术难题及实现科技自立自强具有重要意义。选取人工智能芯片专利领域,采用机器学习算法测度最优转化预测方案,分析全球范围内主要国家或地区专利成功转化影响因素,从企业/高校、国内/国际等不同层面总结专利成功转化的主要特征。结果发现:随机森林算法预测效果较好,人工智能芯片领域专利转化概率服从对数曲线分布,影响高校/企业、国内/国外专利转化特征的因素有所不同。最后,提出高校/科研机构应注重高价值专利维持和团队合作、企业应提升专利技术质量和撰写质量等政策建议。

关键词:专利转化;机器学习;随机森林算法;科技成果转化;人工智能芯片

Accurate Identification and Prediction of Patent Transformation Features:
An Example of Artificial Intelligence Chip

Jiang Nan1, Li Yifan1, Liu Qian2, Liu Xing1

(1.Shanghai International College of Intellectual Property, Tongji University, Shanghai 200092, China;2.Business School of Hohai University,Nanjing 210024, China)

AbstractAlthough there has been an exponential growth of patent applications in China, the commercialization potential of the majority of patents registered in the field of science and technology has not been exploited. Based on this background, the paper studies the identification factors of patent transformation in order to better promote patent transformation. The commercialization value of patents mainly depends on patent protection and patent policy. Given the current government policies on patents, more data are needed to predict patent technology transformation in emerging frontier fields, help to solve the problems that China has to rely on foreign key core technologies for the production of some high-tech products and realize the commercialization potential of science and technology patents in China. The paper aims to better promote the patent transformation of key core technologies and focuses on artificial intelligence (AI) chips, given their current importance.

In this study, AI chips patent data is from the Derwent World Patents Index Database. We employ logical regression, support vector machine, random forest and AdaBoost algorithms to carry out comparative method analysis. After decomposing the patent transformation indicators into three dimensions (technology, law and economy), we select 17 representative indicators in the field of AI chips and adopt the machine learning method to identify an optimal transformation prediction scheme and the factors influencing successful patent transformation in China and in other countries. We discuss the main characteristics of successful patent transformation in different areas and fields with various application bodies in China and abroad.

This study applies different algorithms to analyse patent transformation in the field of AI chips in China and a number of developed countries. These algorithms help to predict the main factors influencing the successful transformation of patent technology in the field of AI chips. Among the four algorithms (logical regression, support vector machine, random forest and AdaBoost) used to predict the drivers of successful patent transformation, the random forest algorithm is the best in predictive ability . The probability of patent transformation in the field of AI chips is distributed in a logarithmic curve, which is consistent with the general distribution curve of patent value. The top three factors with the greatest impacts on successful patent transformation for patent applications submitted by universities or scientific research institutions are the maintenance time, number of claim characters and number of inventors. The top three factors with the greatest impacts on successful patent transformation for patent applications submitted by enterprises are the number of claim characters, maintenance time and number of claims. Meanwhile, it is found that the factors affecting successful patent transformation in China are different with that in other countries.

In conclusion, this study investigates the usefulness of four machine learning algorithms in predicting the factors influencing successful patent transformation, specifically in relation to AI chips. Based on the findings, it is suggested that universities and scientific research institutions can improve their chances of successful patent transformation by strengthening relationships with key enterprises (i.e. enterprises with specific skills and scientific research strength). The study provides suggestions on how universities and scientific research institutions can jointly tackle key technical problems to gain a high-value patent portfolio, implement high-value patent mining and cultivation projects and strengthen patent management in the whole process. The enterprises intended to improve patent transformation work should pay more attention to the technical quality and writing quality of patents applications. Furthermore, the government should guide enterprises to make good use of preferential examination and rapid examination policies, high-value patent cultivation projects and patent navigation projects in various provinces and cities.

Key Words:Patent Transformation; Machine Learning; Random Forest Algorithm; Transformation of Scientific and Technological Achievements; Artificial Intelligence Chips

DOI10.6049/kjjbydc.2021120079

开放科学(资源服务)标识码(OSID):

中图分类号:G306

文献标识码:A

文章编号:1001-7348(2022)10-0001-10

收稿日期:2021-12-06

修回日期:2022-03-15

基金项目:国家社会科学基金重大项目(17ZDA140);国家自然科学基金项目(71874122);同济大学研究生课程思政研究项目(2021KCSZYJ28)

作者简介:姜南(1982—),女,山东威海人,博士,同济大学上海国际知识产权学院副教授、博士生导师,研究方向为知识产权管理与法律;李逸凡(1997—),男,上海人,同济大学上海国际知识产权学院硕士研究生,研究方向为知识产权管理与法律;刘谦(1984—),男,北京人,河海大学商学院博士研究生,研究方向为技术创新与知识产权管理;刘星(1994—),男,湖南新化人,同济大学上海国际知识产权学院博士研究生,研究方向为知识产权法。本文通讯作者:刘星。

0 引言

我国专利申请量近年来呈爆发式增长趋势,从2011年开始一直位居世界首位。世界知识产权组织(WIPO)发布的《2021年世界知识产权指标》显示,2020年中国国家知识产权局受理专利申请149.7万件,增速高达6.9%,占全球总量的45.7%,数量相当于排名第二位至第十一位主管局受理量之和。然而,中国创新体系激励政策虽然大幅提升了专利申请量,但并没有带来商业化收益的显著增长[1]。2012年《世界银行报告》指出,尽管2003-2009年中国专利申请量上升26%,远高于美国(6%)、韩国(5%)、欧洲(4%)和日本(1%)的增幅,但是中国专利收益率却远低于这些国家[2]。专利商业化价值一方面受专利法保护,另一方面也与专利质量息息相关,如专利前向引用情况、权利要求数、IPC技术范围、专利维持时间及应用领域等都是影响专利价值的重要因素。

2015年8月,全国人大常委会修订了《中华人民共和国促进科技成果转化法》;2016年3月,国务院印发《实施<中华人民共和国促进科技成果转化法>若干规定》;2016年5月,国务院办公厅印发《促进科技成果转移转化行动方案》,这一系列政策被称为我国科技成果转移转化的“三部曲”。除国家政策外,上海、广东、四川、山东等十余个省市也相继出台“地方版”细则方案。中央和地方政府正着力从科技成果转化产业、服务和人才等方面疏通科技成果转化的“难点、痛点和堵点”,全面促进科技成果转化。但我国科技成果转化率依然较低,以2021年6月发布的《2020年高等学校科技统计资料汇编》为例,各类高等学校年度专利申请量330 375件,专利授权数206 036件,年度专利出售合同数9 229件,专利出售数占当年专利授权量的3%,大部分科技成果并未真正转化为现实生产力。

在当前政府政策主导下,研究新兴前沿领域专利技术转化识别因素并对专利成果转化进行预测,对于申请高质量专利、加强专利商业化运营、提升我国科技成果转化效率和精准度具有重要意义。人工智能芯片作为数字经济时代最为核心的技术需求与发展方向,对于加速推进我国智能计算革命、实现科技自立自强以及攻克“卡脖子”技术难题具有重要意义。本研究利用机器学习算法聚焦人工智能芯片专利领域,研究专利成功转化的特征并寻找最优预测方案,探讨主要国家或地区技术成功转化影响因素,以及企业/高校、国内/国际等不同层面专利成功转化的主要特征,可为我国科技成果有效转化提供针对性政策建议。

1 文献综述

专利转化作为学术界、产业界持续关注的重要研究领域,目前已取得丰硕研究成果。就转化阶段而言,专利技术转化包括从研发到商业化的所有阶段[3]。从法律法规看,Zhu 等[4]通过对比美国拜杜法案和中国版“拜杜法案”,认为中国版“拜杜法案”实施效果没有达到预期;何文韬等[5]认为新能源汽车推广政策虽然有助于激发汽车行业专利转化积极性,但也容易造成其在未了解市场需求情况下推动新产品快速入市的盲目性;Soares 等[6]研究高校规章制度对专利申请和许可行为的影响,指出高校规章制度虽然促进专利申请和许可数量增加,但对二者经济收益未产生太大影响。从转化主体看,高等院校和科研机构是专利转化的重要载体,许多学者研究了高校专利转化和技术转移。冉从敬等[7]选取与专利价值相关的16个指标,采用AdaBoost算法提升了高校专利转化的可识别性;Ye 等[8]通过对中国双一流高校知识(专利)转移网络进行分析,指出关键高校在知识扩散网络中居于核心地位,同时高校之间稳定的知识交流与转移是带动落后地区发展的关键;张晓月等[9]探讨高校专利转化与专利价值之间的关系,认为专利转化及专利部分技术特征可以提升专利价值;金玉成[10]研究高校专利成果转化模式发现,专利技术特征影响高校专利转化模式,专利成熟度和技术质量不同,专利转化模式也不同;袁传思等[11]指出,影响高校新型研发机构专利成果转化的原因有建设主体文化水平较低、知识产权投入不足、科技成果转化专业人员较少等。还有一些学者进一步构建高校专利转化评价指标体系,并从专利申请量、专利授权量、技术转移收入、专利涵盖领域等视角展开研究[12-14]

综上所述,专利技术转化研究虽然已经取得丰硕成果,但依然存在如下问题:研究对象多为发达国家,聚焦中国现实情境探讨专利转化的理论和实证研究较少,仅分析高校与科研机构等单一主体而未涵盖全部创新主体,尤其是针对特定前沿技术领域的研究更少。鉴于此,本研究从人工智能芯片领域出发,通过机器学习算法精准识别专利转化特征并测度最优转化预测方案,分析主要国家或地区专利成功转化影响因素,从企业/高校、国内/国际等不同主体或层面总结专利成功转化的主要特征,可为我国破解“卡脖子”技术难题及专利转化相关研究提供有益借鉴。

2 数据获取与处理

2.1 数据来源

本文以人工智能芯片领域为研究对象,人工智能芯片作为人工智能时代的硬件载体,其重要性不言而喻。由于人工智能技术应用场景的复杂性,很难有一种单一且适用于各种环境的人工智能芯片设计方法。因此,工业界和学术界涌现出许多新的人工智能芯片设计方法,涵盖材料、器件、电路、半导体等各个层面。人工智能芯片处于整个人工智能产业链的中间层,向上为应用和算法提供有效支撑,向下对器件和电路、工艺和材料提出新要求。一方面,应用和算法的快速发展,特别是深度学习和卷积神经网络的快速发展对人工智能芯片提出高性能要求,为近年来人工智能芯片研发热潮带来新动力[15];另一方面,新材料、新工艺和新器件的迅速发展,如3D芯片堆叠存储器和工艺进化为人工智能芯片大幅提高性能和降低功耗提供了可行性。总体来说,这两种力量共同推动人工智能芯片技术迅速发展[16]

人工智能芯片包括通用芯片(图形处理单元,GPU)、半定制芯片(现场可编程门阵列,FPGA)、完全定制芯片(专用集成电路,ASIC)和类脑芯片4种类型。各自特性如下:GPU常用于开发和改进人工智能算法。与传统CPU相比,改进的GPU具有更高的并行结构,在处理图形数据和复杂算法等方面更加高效,同时程序运行速度也提高了数千倍甚至数万倍。与CPU和GPU相比,FPGA将经过训练的AI算法应用于实际数据输入,可同时进行数据并行和任务并行计算,具有明显的性能和能耗优势;除功耗以外,FGPA在架构上也存在显著优势。ASIC是为学习具有计算性能的功能而设计的一种芯片,根据特定应用需求定制。类脑芯片可以模拟人脑神经网络与人脑结构进行功能感知。

在人工智能芯片专利检索过程中,本文以Derwent Innovation专利数据库为检索对象,来源国/地区主要选取中国、美国、欧盟、日本和韩国等。由于专利信息披露的滞后性,将专利检索时间限定为2009年1月1日至2018年12月31日。通过查阅相关文献资料、与专家多次沟通、多轮检索最终确定专利检索策略,并对数据进行降噪、降杂处理从而得到本文专利样本数据,如表1所示。其中,人工智能芯片专利申请数量22 389件,已授权专利数12 741件。专利检索条目包括申请日期、申请国别、名称、专利摘要、发明人、专利权人、IPC分类号、法律状态、引用专利/文献数量等著录信息。

2.2 指标选取

广泛意义上的专利转化主要是指将专利技术产业化,诸如专利转让[17]、专利许可、专利质押融资[18]等均可视为专利成功转化。专利指标通常涉及技术、法律和经济3个维度,本研究结合国家知识产权局发布的《专利价值分析指标体系操作手册》,遵循数据可得性原则,基于技术、法律、经济三大维度对专利评价指标体系进行细分,最终选取如表2所示的专利指标衡量专利特征。

表1 人工智能芯片专利检索策略
Tab.1 Patent retrieval strategy of artificial intelligence chip

类别主要内容主要方向应用视频图像类人脸识别、目标检测、图像生成、视频分析、视频审核、图像美化、以图搜图声音语言类语音识别、语音合成、语音唤醒、声纹识别、乐曲生成、智能音箱、智能导航文本类文本分析、语言翻译、人机对话、阅读理解、推荐系统控制类自动驾驶、无人机、机器人、工业自动化算法神经网络互连结构多层感知机、卷积神经网络、循环神经网络、长短时记忆网络、脉冲神经网络深度神经网络系统结构AlexNet、ResNet、VGGNet、GoogleNet神经网络算法反向传播算法、迁移学习、强化学习、One-shot learning、对抗学习、神经图灵机、脉冲时间依赖可塑机器学习算法支持向量机、K近邻、贝叶斯、决策树、马尔科夫链、Adaboost、WordEmbedding算法优化芯片效能优化、低功耗优化、高速优化、灵活度优化、深度学习加速器、人脸识别神经形态芯片仿生类脑、生物脑启发、脑机制模拟可编程芯片DSP、GPU、FPGA芯片系统级结构多核、众核、SIMD、运算列阵结构、存储器结构、片上网络结构、多片互联结构、内存接口、通信结构、多级缓存开发工具链编程框架衔接、编译器、仿真器、优化器、原子操作库器件高带宽片外存储器HBM、DRAM、高速GDDR、LPDDR、STT-MRAM高连互联SerDes,光互联通信仿生器件人工突触、人工神经元、忆阻器新型计算器件模拟计算、内存计算工艺片上存储器分布式SRAM、ReRAM、PCRAMCMOS工艺16纳米工艺节点、7纳米工艺节点、5纳米工艺节点CMOS多层集成2.5D IC/Sip、3D-stack技术、monolithic 3D等新型工艺3D NAND、Flash Tunneling FETs、FeFET、FinFET

表2 指标选取及含义
Tab.2 Index selection and brief meaning

特征指标名称 含义1申请人数量研发过程中的技术合作度2代理人数量技术在申请专利保护过程中的合作关系3发明人数量研发过程中的技术复杂度4技术分类数量(IPC跨度)技术多元性5权利要求数技术获得专利权利保护的程度6独立权利要求数专利主要保护的技术内容7从属权利要求数独立权利要求进一步优化和限定的方向8维持时间专利技术重要性9权利要求字符数专利技术细节受法律保护的程度10同族专利数技术在全球的布局情况11同族专利成员国数技术全球市场前景和价值12引用专利数技术创新性13引用参考文献数技术对其它知识的借鉴程度14当前是否有效技术法律生命周期15权利人是否为企业不同创新主体的技术转让情况16权利人是否来自中国不同国家的技术转让情况17专利被引用次数技术价值度18专利转让、许可和质押专利技术成功转化情况

(1)技术指标:申请人数量、代理人数量、发明人数量、技术分类数量(IPC跨度)、维持时间、引用专利数、引用参考文献数、当前是否有效。其中,申请人数量是指企业与其它组织合作申请的专利,一定程度上反映企业之间的技术合作关系,是衡量企业技术合作关系和合作度的重要指标[19]。代理人数量反映专利技术在申请专利保护过程中与专利代理人的关系,专利代理人服务涉及专利发明、专利申请、专利审查及专利保护运用的各个阶段[20],能够从另一维度反映技术申请专利保护过程中的合作关系。发明人数量体现了技术复杂度,发明人是指对专利创造起实质性作用的人,反映完成发明创造所需投入的人力资本[21],发明人数量与专利技术复杂度存在一定相关性。技术分类数量通常指专利IPC分类号跨度情况,用以表征技术多元性与技术跨度[22],本研究选取国际专利分类号小类(IPC四位编码)数量表征技术多元性。维持时间和当前是否有效存在相似功能,专利维持时间体现了专利的重要性,专利维持时间越长,专利市场价值、经济效益也就越高[23]。引用专利数与参考文献数反映科学与技术的继承性,用以表征专利吸取外部信息的能力,代表专利质量水平,即技术可能处于的技术生命周期与市场应用价值,体现技术创新性及对其它知识的借鉴程度[24]

(2)法律指标:权利要求数、独立权利要求数、从属权利要求数、权利要求字符数。其中,权利要求数指专利申请人对专利技术的保护是否全面[25],单个专利权利要求数量越多,说明专利保护越全面,因此本文采用权利要求数衡量专利技术保护全面程度。独立权利要求数指专利的必要技术特征,能够从整体上反映专利的主要技术内容,用以表征专利主要保护的技术内容[26]。从属权利要求数越多,越能对抗他人申请同样或类似的改进专利(宋河发等,2014)。权利要求字符数能够从侧面反映专利权法律效力,体现专利权人在专利起草和申请过程中投入资源的大小(张杰等,2015)。

(3)经济指标:同族专利、同族专利成员国数、权利人是否为企业以及是否来自中国、专利被引用次数。其中,同族专利和同族专利成员国数反映专利权人技术全球保护策略(刘红光等,2013),用以表征专利技术在全球的布局情况以及专利技术在全球市场的应用价值。权利人是否为企业以及是否来自中国反映不同创新主体与国家的专利技术转让情况[27]。专利被引用次数代表专利被认可度,专利被引用次数越多,说明专利价值越高[28]

(4)目标指标:专利转让、许可和质押,表征专利转化情况。专利所有权转让、许可贸易与专利权质押融资都是科技创新转化的重要表现形式。专利只有通过市场转化才能有效推动经济发展,故本文选取专利转让、许可或质押评价专利技术成功转化情况。

3 模型构建与分析

3.1 数据归一化处理

为保证数据研究效果和均衡性,收集上文专利数据中成功转化的专利技术,共获得2 228条专利数据,统计其是否存在专利技术成功转化的情况,若有则标为1,无则标为0;同时,对已授权但未成功转化的专利数据进行收集,按1∶1的比例随机匹配,共获得2 228条数据,合并形成4 456条数据,对其进行Z-score归一化处理,形成训练集。由于本文目标数据(专利转让、许可和质押)为二项分类变量(0、1变量),本身离散不连续,故构建二分类模型,采用Python软件对专利转化进行预测。

3.2 特征筛选

本文使用随机森林算法选取相互独立的弱分类器组成随机森林分类器结构,对每个决策树的输出结果进行平均化处理,从而得到最终的分类结果。相较于神经网络等经典分类模型,随机森林算法能够输出每个子分类器的影响结果,方便对特征筛选、分类器进行改进。

利用随机森林算法[29]计算每个特征指标的重要性,结果如表3所示。设定随机森林决策树数量为1 000,由于其它参数特征量不大,因此选择默认值。对Python 中的相关函数进行处理可以得到各特征的相对重要性,并随机给各特征变量加入噪声干扰,以改变特征值,并观察模型效果下降程度。如果改变某个特征能使模型效果明显变差,说明这一特征比较重要。由表3可知,对于专利转化而言,维持时间重要性最高,重要度为0.157。其次为权利要求字符数、发明人数量和权利要求数,重要度分别为0.145、0.092和0.076。这说明,代表专利存活时间的维持时间特征最能反映专利能否成功转化,说明专利维持时间不仅可以表征专利技术存活时间,而且能从侧面反映专利质量及专利权人重视程度,对于专利是否可以转化起较为重要的作用。权利要求字符数和权利要求数重要性排第2位和第4位,说明专利文本中权利要求详细程度对专利成功转化起重要作用。发明人数量排第3位,说明专利技术复杂度对于专利转化具有积极影响。

表3 指标重要度排序
Tab.3 Index importance rankings

排序特征指标指标名称 重要度18维持时间0.15729权利要求字符数0.14533发明人数量0.09245权利要求数0.07657从属权利要求数0.073612引用专利数0.06472代理人数量0.053817专利被引用次数0.05294技术分类数量(IPC跨度)0.0441010同族专利数0.0431114当前是否有效0.0401216权利人是否来自中国0.036136独立权利要求数量0.0301415权利人是否为企业0.0281513引用参考文献数0.027161申请人数量0.0201711同族专利成员国数0.019

前4个特征重要性合计占比47%,其它13个特征重要性合计只占53%,说明各特征在随机森林算法中的重要性区别较小,可进一步进行特征筛选和数据降维。然而,由于所有特征的重要性均大于0.01,直接删除其它变量将会导致研究精度下降,故进一步采取主成分分析法,以相关性矩阵和热力图对特征进行筛选,特征相关性矩阵如图1所示。从中可见,权利要求数和从属权利要求数、同族专利数和同族专利成员国数、引用专利数和引用参考文献数存在较高的相关性。

结合KMO检验值,将申请人数量、代理人数量、从属权利要求数、权利人是否为企业和引用参考文献数5个特征予以剔除,以获取较好的主成分分析结果。值得注意的是,虽然同族专利数和同族专利成员国数相关性较高,但是在实验中删去其中任何一个特征后KMO值并未得到优化,故予以保留。其中,剔除申请人数量、代理人数量是由于在多数专利中其数值多为“1”,导致这两个特征不具备显著性。从属权利要求数量也被剔除,是因为权利要求数与独立权利要求数已经存在,而三者存在“权利要求数=独立权利要求数+从属权利要求数”的数量关系,故保留从属权利要求数有可能产生严重的共线性问题(相关性大于0.8)。引用参考文献数与引用专利数也存在较强的共线性,其值会随着引用专利数的变化而发生改变。剔除权利人是否为企业是因为该特征与其它特征弱相关(值小于0.3),说明该指标信息保护较少。在剔除如上5个特征后,KMO度量值由0.590上升到0.754,结果如表4所示。这说明,利用上述12个特征进行专利可转化预测是合理的,处理后模型特征数量实现降维。

图1 特征指标相关性矩阵热力图
Fig.1 Feature index correlation matrix heatmap

表4 特征数量KMO值
Tab.4 KMO value of characteristic quantity

降维特征数量KMO值降维前17个特征0.590降维后12个特征0.754

3.3 模型构建

为选取一个性能更好的算法构建预测模型,本文分别利用逻辑回归算法、支持向量机算法、随机森林算法和AdaBoost算法进行对比实验。对专利数据分配0/1变量的分类预测任务,以解决不同算法预测可能产生的过拟合问题。对剔除特征变量后的数据集以8∶2的比例随机抽取训练集和预测集,用4种分类算法采取十折交叉验证进行训练预测,以Accuracy值作为评估特征,具体分析如下:

(1)逻辑回归算法。逻辑回归算法作为一种二分类算法,预测结果有true(1)和false(0)两种,使用的拟合函数为sigmoid函数,通过拟合解释变量与事件发生或否(二分类因变量)之间的非线性关系,建立二分类因变量发生概率与解释变量关系模型。

(1)

在识别模型构建过程中,采用Python 所包含的逻辑回归算法进行模型训练与分类拟合,并构建预测模型。由于训练集是小样本数据,所以采取十折交叉验证进行模型训练,以Accuracy 值作为模型性能评估指标。通过多次参数调优,使用逻辑回归算法构建的识别模型Accuracy值为0.720。

(2)支持向量机算法。支持向量机是在高位特征空间使用线性函数假设空间的学习系统,由于其具有良好的分类性能,近年来在自然语言处理等研究领域得到广泛应用。本文使用构造核函数的支持向量机算法解决非线性分类任务。在识别模型构建过程中,采用Python 所包含的支持向量机算法构造核函数进行模型训练与分类拟合,构建预测模型。通过多次参数调优,使用支持向量机算法构建的识别模型Accuracy值为0.716。

(3)随机森林算法。随机森林算法属于机器学习算法的一种,主要通过决策优化或覆盖优化两种手段将多种不同分类器进行综合,最后输出一个最优解以达到优化总体性能的目的,流程如图2所示。

图2 随机森林算法
Fig.2 Random forest algorithm

在随机森林算法分类中,随机森林算法中的每棵决策树都是一个分类器,对于一个输入样本,N棵树会呈现N个分类结果,因此将投票次数最多的类别指定为最终输出。在识别模型构建过程中,采用Python 所包含的随机森林算法进行模型训练与分类拟合,通过二分类预测任务解决随机森林算法中出现的非连续性预测问题,以避免出现对训练数据外对象分类正确率较低的问题。通过多次参数调优,当参数设置为使用1 000个弱分类器时,模型Accuracy值为0.737。

(4)AdaBoost算法。AdaBoost算法属于集成学习方法的一种,旨在使用一个训练集训练,如SVM、BP网络等弱分类器,将不同训练集结合起来构成一个更强的分类器,通过改变数据分布实现分类器选择,根据训练集样本分类修正分类器,并以整体分类精度为依据确定每个样本权重,然后对新权重值进行下一层训练,最后将每个分类器融合在一起。在识别模型构建过程中,采用Python 所包含的AdaBoost分类算法进行模型训练与分类拟合,构建预测模型。通过多次参数调优,使用AdaBoost分类算法构建的识别模型Accuracy值为0.728。

分别运行上述4种算法,结果如表5和图3所示。从中可见,在4种算法中,基于随机森林算法的预测模型性能最优,体现了随机森林算法在专利转化特征识别与预测中的应用价值。

表5 4种分类算法性能分值
Tab.5 Performance scores of four classification algorithms

方法逻辑回归算法支持向量机算法随机森林算法AdaBoost分类算法分值0.7200.7160.7370.728

图3 4种分类算法性能对比
Fig.3 Performance comparison of four classification algorithms

3.4 专利成功转化识别分析

在验证模型有效性的基础上,进一步利用模型对人工智能芯片专利进行识别,输出每件专利的分类结果及转化概率。根据专利转化概率,仿照10分标准评估法,设置10层专利可转化概率阈值,形成评估表,如表6所示。从中可见,在人工智能芯片领域,转化概率在90%~100%之间的专利比重仅为1%,可认为这部分专利最具转化价值和商业效益,共包含327件专利。总体来看,转化概率在70%以上的专利占比仅为17%(1%+5%+11%=17%),可见全球范围内人工智能芯片具有较高专利转化价值的数量偏少。同时,转化概率介于40%~70%之间的专利比重占44%,介于0~40%之间的专利比重占38%,反映出人工智能芯片领域大部分专利都具备一定的转化价值,但仍有近1/3的专利存在失效风险,转化概率较低。

在专利转化概率的基础上,绘制专利可转化性柱状图,并对其进行线性拟合。由图4可知,人工智能芯片领域专利可转化概率呈对数曲线分布态势,拟合对数函数方程为y=-0.203 6lnx+2.307 3,R2=0.761 78。已有研究指出,专利价值通常呈对数常态曲线分布趋势[30],即在一个领域中,仅有少数专利为高价值专利,大部分专利价值都较低,本文模型与一般的经验感知相符。但与文献[9]对人工智能领域可转化专利研究相比,转化概率中阈值为10(转化概率介于90%~100%)的专利比例较小,说明人工智能芯片领域专利可转化概率较小,可能与人工智能芯片研发难度大、对转化过程情境要求较高等因素有关。

表6 人工智能芯片领域专利成功转化概率评估
Tab.6 Evaluation of successful patent conversion probability in the field of artificial intelligence chip

阈值转化概率(%)专利数量比重(%)1090~1003271980~901 2375870~802 60611760~703 05013650~603 63215540~503 76816430~402 88812320~301 9798210~202 254910~102 0659

图4 人工智能芯片领域专利可转化概率分布趋势
Fig.4 Trend of patent convertible probability distribution in artificial intelligence chip field

3.5 多维视角分析

3.5.1 创新主体层面

本文从高校/科研机构、企业等不同主题层面对专利转化影响因素进行对比分析。通过收集5 958条学校专利和17 848条企业专利数据集,对专利特征重要性与可转化概率进行比较,结果如表7和表8所示。从中可以看出,影响高校/科研机构、企业专利成功转化的因素大致相同,但重要性略有不同。具体而言,对高校/科研机构影响最大的前3个因素分别是维持时间、权利要求字符数和发明人数量,对企业影响最大的前3个因素分别是权利要求字符数、维持时间和权利要求数。导致这一差异的原因在于,高校教师和科研人员通常是为完成科研任务或学科评估指标而非基于市场需求申请专利,因而不太关注高价值专利维持时间,导致专利维持时间指标表征专利质量的自然度更高。发明人数量说明高校/科研机构在人工智能芯片领域更侧重于专利团队合作。同时,高校和企业在人工智能芯片领域均应注重专利本身的技术质量和撰写质量。由图5可知,企业高质量专利和低质量专利比例均高于学校,学校专利可转化概率在中间段数量集聚较多,更符合正态曲线分布。

表7 高校/科研机构、企业专利成功转化影响因素对比
Tab.7 Comparison of influencing factors of successful patent transformation between universities / scientific research institutions and enterprises

高校/科研机构特征重要性企业特征重要性维持时间0.248权利要求字符数0.194权利要求字符数0.176维持时间0.148发明人数量0.109权利要求数0.130权利要求数0.108发明人数量0.110引用专利数0.090引用专利数0.083专利被引用次数0.058专利被引用次数0.065同族专利数0.055技术分类数量(IPC跨度)0.056技术分类数量(IPC跨度)0.054同族专利数0.054当前是否有效0.050权利人是否来自中国0.053独立权利要求数0.028独立权利要求数0.041权利人是否来自中国0.017当前是否有效0.040同族专利成员国数0.008同族专利成员国数0.027

表8 企业与高校专利转化概率对比
Tab.8 Statistical table of patent transformation probability of enterprises and schools

阈值企业比重(%)高校比重(%)0.924718010.8976526140.72 0661254090.62 30013750130.52 526141 106190.42 408131 360230.31 781101 107190.21 474850580.12 04811206302 02211431

图5 企业与高校/科研机构专利转化概率对比
Fig.5 Comparative statistical chart of patent conversion probability of enterprises and universities / scientific research institutions

3.5.2 国际与国内层面

本文进一步分析影响国际和国内专利转化的不同因素,通过构建专利数据模型得到如表9所示的国际和国内专利成功转化影响因素对比结果。从中可见,影响国外和国内专利成功转化的影响因素有所不同。其中,影响我国专利成功转化的前5个因素分别为权利要求字符数、维持时间、权利要求数、发明人数量和引用专利数,前3项权利要求字符数、维持时间和权利要求数重要性合计超过56%,说明影响我国专利成功转化的因素主要为专利质量。影响国外专利成功转化的前5个因素分别为发明人数量、权利要求字符数、同族专利数、权利要求数和当前是否有效。其中,发明人数量、权利要求字符数和同族专利数重要性合计超过47%,可见在影响国外专利成功转化的因素中,技术复杂性、专利质量和全球专利布局情况发挥重要作用,这可能与美、日、韩、欧州等主要发达国家或地区专利质量较高有关,技术复杂性和海外市场布局等因素变得尤为重要。

表9 国际与国内专利成功转化影响因素对比
Tab.9 Comparison of influencing factors of successful transformation of international and domestic patents

国际特征重要性国内特征重要性发明人数量0.237权利要求字符数0.231 权利要求字符数0.127维持时间0.209 同族专利数0.109权利要求数0.122 权利要求数0.097发明人数量0.110 当前是否有效0.095引用专利数0.070

4 结论与建议

4.1 研究结论

本研究基于多维视角,采用多种算法对人工智能芯片领域主要国家/地区的专利转化特征进行分析,并对该领域专利技术的成功转化进行预测,得出如下结论:①采用降维处理和主成分分析法进一步聚焦专利技术转化影响因素,在选取的逻辑回归算法、支持向量机算法、随机森林算法和AdaBoost 4种算法中,随机森林算法预测效果最好;②人工智能芯片领域专利转化概率呈对数曲线分布态势,与通常所说的专利价值分布曲线相吻合;对高校/科研机构专利转化影响最大的前3个因素分别是维持时间、权利要求字符数和发明人数量,对企业专利转化影响最大的前3个因素分别是权利要求字符数、维持时间和权利要求数;③影响国外和国内专利成功转化的因素有所不同。影响中国专利成功转化的因素主要是专利质量,影响国外主要国家或地区专利成功转化的因素主要是专利技术复杂性及海外市场布局等。

4.2 研究贡献

本文理论贡献如下:

(1)从专利质量分析[31]、价值评估、核心技术识别等应用场景对机器学习算法进行拓展,详细定义专利的三大特征,将其划分为技术指标、法律指标、经济指标,并对每个层面指标进行详细论述。采用定量方法构建相关评价指标体系,最终将其综合为专利特征指标,将专利质量指标与专利转化指标相结合,并将其应用到特定前沿技术专利转化领域。

(2)综合使用逻辑回归算法、支持向量机算法、随机森林算法以及AdaBoost算法进行对比实验,通过对每个决策树的输出结果进行平均化处理,从而得到最终分类结果,并对专利数据进行离散0/1变量分类预测任务,以解决不同算法预测可能产生的过拟合问题。将剔除特征变量后的数据集以8∶2的比例随机抽取训练集与预测集,并从技术、法律和经济等维度对专利质量指标进行分析,丰富了相关研究成果[22]

(3)在现有研究的[7,9]基础上,从实施主体层面分析专利转化影响因素,从多维视角进行论证,通过构建专利数据集对专利特征重要性与可转化概率进行比较,针对企业、高校/科研机构等创新主体及国内、国外层面进行对比分析。结果发现,影响高校/科研机构和企业专利成功转化的影响因素大致相同,但重要性略有不同,影响国外和我国专利成功转化的影响因素有所不同,拓展了实施主体研究范围。

4.3 对策建议

针对本文研究结论,为更好地促进前沿技术专利成功转化,提出如下对策建议:

(1)在不同前沿技术领域均可通过随机森林算法等多种机器学习算法进行预测,从而寻找特定技术领域中影响科技成果(包含但不限于专利)转化的因素,有针对性地对成功进行科技成果转化的专利特征进行识别与预测。

(2)高校/科研机构应注重高价值专利维持时间和团队合作。高校/科研机构应发挥特定学科优势,加强与重点企业之间的合作,通过技术联合攻关形成高价值专利组合,实施高价值专利挖掘与培育工程,强化专利全过程管理,从而更好地实现专利转化。同时,还应从制度、机构、人才等方面形成合力,通过成立科技成果转化中心/知识产权中心、制定或修订学校专利转化实施办法与细则、引入专业知识产权服务机构或团队、与第三方切实加强合作开展专利价值评估等措施,从专利申请、保护、运用与管理等各个环节为专利成功转化提供保障。

(3)企业应提升专利技术质量和撰写质量。从政府层面看,企业应充分利用政府的相关政策,如专利申请优先审查、快速审查、各省市高价值专利培育项目、专利导航项目等,结合自身优势和特点,支撑企业创新发展。从企业内部看,应制定“知识产权先行”战略,在研发初期利用专利分析优化核心技术布局,在撰写阶段重视权利要求对技术特征组合与保护层级的递进,在申请阶段加强与专利代理人之间的沟通。从外部合作看,应积极组建行业协会、知识产权联盟,加强产学研协作,共同培育高价值专利。

4.4 不足与展望

本研究存在如下不足:①受限于数据可得性,只选取与专利价值相关指标对人工智能芯片领域专利转化预测和影响因素进行研究,未对制度设计、审查程序等其它影响因素进行分析,未来可进一步挖掘上述影响因素,提高模型可靠性,同时从专利视角出发,在更加细分的技术主题层面对专利成功转化进行研究,为推动技术创新、实现专利成功转化提供参考依据;②综合使用逻辑回归算法、支持向量机算法、随机森林算法及AdaBoost算法,仅从客观指标出发对评价模型进行计算,在实际专利成果管理中,还可结合管理人员其它信息,加入主观评价指标,提升研究结论准确性和指导力;③企业、高校/科研机构等创新主体的科研能力及产生的大量科技成果未被有效阐释,未能深入研究各创新主体科技成果转化链条。未来可通过高校科技成果信息披露机制、企业知识产权管理标准化流程等途径,研究科研人员研发合作模式,赋能技术开发效率,为价值评估管理提供方向。

参考文献:

[1] 宋河发.我国知识产权运营政策体系建设与运营政策发展研究[J].知识产权,2018,32(6):75-81.

[2] THE WORLD BANK. Promoting intellectual property monetization in developing countries[EB/OL]. (2012-06-01) [2021-12-01]. https://openknowledge.worldbank.org/bitstream/handle/10986/12005/WPS6143.pdf.

[3] ROGERS E M, TAKEGAMI S, YIN J. Lessons learned about technology transfer[J]. Technovation, 2001, 21(4): 253-261.

[4] ZHU C, LI X, CHEN Y. Did the Chinese Bayh-DOLE Act encourage the activities of technology transfer? an answer from a legal system[J]. Asian Journal of Technology Innovation, 2021, 29(2): 196-212.

[5] 何文韬,肖兴志.新能源汽车产业推广政策对汽车企业专利活动的影响——基于企业专利申请与专利转化的研究[J].当代财经,2017,38(5):103-114.

[6] SOARES T J, TORKOMIAN A L V, NAGANO M S. University regulations, regional development and technology transfer: the case of Brazil[J]. Technological Forecasting and Social Change, 2020,158(9): 120-129.

[7] 冉从敬,宋凯.高校可转化专利识别模型构建——以人工智能领域为例[J].情报理论与实践,2020,43(11):79-85.

[8] YE Y, DE MOORTEL K, CRISPEELS T. Network dynamics of Chinese university knowledge transfer[J]. The Journal of Technology Transfer, 2020, 45(4): 1228-1254.

[9] 张晓月,安秋凡,甄伟军.转化视角下的高校专利价值研究——基于“一流大学”建设高校发明授权专利的数据[J].中国高校科技,2019,33(3):69-73.

[10] 金玉成.基于专利技术特征的高校专利转化模式选择研究[J].中国科技论坛,2017,33(8): 120-126.

[11] 袁传思,马卫华.高校新型研发机构专利成果转化的激励机制——以广州部分重点高校为例[J].科技管理研究,2020,40(15):126-132.

[12] KIM Y. The ivory tower approach to entrepreneurial linkage: productivity changes in university technology transfer[J]. The Journal of Technology Transfer, 2013, 38(2): 180-197.

[13] THURSBY J G, JENSEN R, THURSBY M C. Objectives, characteristics and outcomes of university licensing: a survey of major US universities[J]. The Journal of Technology Transfer, 2001, 26(1): 59-72.

[14] THURSBY J, FULLER A W, THURSBY M. US faculty patenting: inside and outside the university[J]. Research Policy, 2009, 38(1): 14-25.

[15] 清华大学北京未来芯片技术高精尖创新中心.人工智能芯片技术白皮书(2018)[EB/OL].(2018-08-03) [2021-12-03].http://www.cbdio.com/image/site2/20181218/f42853157e261d82a71c33.pdf.

[16] LIU C Y, LUO S Y. Applying patent information to tracking a specific technology[J]. Data Science Journal, 2007,6(10): 114-120.

[17] 何培育.新常态下国防专利转化的现实瓶颈与对策研究[J].科技进步与对策,2015,32(22):105-109.

[18] 李明星,苏佳璐,胡成,等.南京市科技型小微企业知识产权质押融资主体职能演化分析[J].科技进步与对策,2019,36(11):46-53.

[19] 蔡虹,刘岩,向希尧.企业知识基础对技术合作的影响研究[J].管理学报,2013,10(6):875-881,889.

[20] 谷丽,阎慰椿,任立强,等.专利代理人胜任特征对专利质量的影响路径研究[J].科学学研究,2016, 34(7):1005-1016.

[21] 邓洁,余翔,崔利刚.基于专利信息的我国发明专利无效行为实证研究[J].情报杂志,2014,33(8):52-58.

[22] HARHOFF D, SCHERER F M, VOPEL K. Citations, family size, opposition and the value of patent rights[J]. Research Policy, 2003, 32(8):1343-1363.

[23] 乔永忠.专利维持时间影响因素研究[J].科研管理,2011,32(7):143-149,164.

[24] BRTITZMAN A, THOMAS P. Using patent citation analysis to target/value M&A candidates[J]. Research Technology Management, 2002, 45(9): 28-36.

[25] WAGNER S,WAKEMAN S.What do patent-based measures tell us about product commercialization? evidence from the pharmaceutical industry[J]. Research Policy, 2016, 45(5):1091-1102.

[26] 姜南,刘星,马艺闻.中美区块链技术发明专利审查周期的对比研究[J].情报杂志,2020,39(9):65-72.

[27] XIE Y, GILES D E. A survival analysis of the approval of US patent applications[J]. Applied Economics, 2011, 43(11): 1375-1384.

[28] SCHANKERMAN M, PAKES A. Estimates of the value of patent rights in European countries during the post-1950 period[J]. Economics Journal, 1986,96(384): 1052-1076.

[29] 张建同,孙嘉青.基于组合预测法的共享单车租赁需求量预测[J].运筹与管理,2021,30(10):146-152.

[30] NAIR S S, MATHEW M, NAG D. Dynamics between patent latent variables and patent price[J]. Technovation, 2011, 31(12): 648-654.

[31] 符川川,陈国华,袁勤俭.基于机器学习的专利质量分析与分类预测研究——以区块链技术专利为例[J].现代情报,2021,41(7):110-120.

(责任编辑:王敬敏)