基于多源数据融合的新兴技术识别方法研究

王 宏1,刘沁莹1,胡玉峰2,王庆红1,周育忠1

(1.南方电网科学研究院有限责任公司,广东 广州 510663;2.中国南方电网有限责任公司,广东 广州 510663)

摘 要:新兴技术在科技革命和产业变革中发挥着重要作用,准确把握新兴技术发展方向有助于国家政策制定和科技快速发展。融合学术论文和专利文献数据,构建一套新兴技术识别方法。通过主题N元语法(TNG)模型抽取和筛选技术主题,确定关键技术主题,通过量化新兴技术的5项特征指标:影响力、增长性、连贯性、创新性、不确定性和模糊性,计算新兴指数得分,对多源数据融合新兴技术进行识别和预判。预测新兴技术未来发展趋势,可为电网领域可持续发展提供有价值的参考,验证研究方法的可行性和有效性。

关键词:新兴技术;多源异构数据融合;新兴技术画像;机器学习

An Approach to Identifying Emerging Technologies by Fusing Multi-Source Data

Wang Hong1, Liu Qinying1, Hu Yufeng2, Wang Qinghong1, Zhou Yuzhong1

(1.Southern Power Grid Research Institute Co., Ltd.Guangzhou 510663,China;2.China Southern Power Grid Co., Ltd., Guangzhou 510663, China)

Abstract:Emerging technologies not only signify the cutting edge of technological innovation but also represent a pivotal aspect of international competition, and they are highly valued by nations, international organizations, and leading corporations worldwide. By swiftly and accurately detecting potential emerging technologies in target domains, they can grasp the opportunities of future technological and industrial development, break through the technological barriers in various fields, and thus enhance the competitive advantage of both nations and enterprises in strategic global competitions. In the context of China's aggressive pursuit of its "carbon neutrality and carbon peak" goals, innovation in power grid technology assumes exceptional importance. Power grid companies are compelled to deeply comprehend and master the evolving trends in emerging grid technologies, undertake crucial technological research, and guide precise research and development investments to secure a dominant position in the international arena.

As vital carriers of scientific information, academic papers and patent literature are predominantly used to evaluate the level of scientific research activities and the innovation in industrial technology, and have become the primary sources for detecting emerging technologies. An in-depth study and analysis of these documents, followed by the extraction and selection of innovative information within them, helps to uncover latent technological knowledge. Although single data source methods are operationally effective, they struggle to accurately reflect the complexity of scientific themes. Conversely, research on detecting emerging technologies through multi-source data remains relatively scarce. Currently, there is a lack of academic consensus on the definition of emerging technologies, leading to different indicators for assessing whether a technology topic is an emerging technology. Identifying these technologies accurately and delineating their quintessential characteristics—impact, growth, coherence, novelty, and uncertainty—is crucial. It is noteworthy that quantified research on these features, particularly uncertainty and ambiguity, is still scarce.

This paper introduces a method for integrating multi-source data, aiming to amalgamate academic and patent data to enhance semantic complementarity between varied data types, thereby boosting efficiency in identifying emerging technologies. The study utilizes the Topical N-Grams (TNG) model to extract technological themes from academic papers and patent documents, followed by manual selection to ascertain key technological themes. According to these themes, it computes five primary feature indicators: impact, growth, coherence, novelty, and uncertainty. These indicators are then amalgamated to calculate an emergence score. Subsequently, the study employs a support vector regression machine model for extrapolating these indicators, identifying emerging technologies with potential for future growth. Focusing on the grid sector, the study collects patent literature from the Derwent Innovation database and academic papers from the Web of Science core collection,limiting document types to "Article" and "Review" and setting the timeframe from 2015 to 2022, with a total of 743 344 academic papers and 1 247 235 patents. The analysis of the annual distribution of academic and patent papers published in the grid field reveals a steady increase in research interest; the emerging technologies in the grid sector for 2022 include research on low-carbon planning for new power systems, electric motor drive and control technology, intelligent inspection technology for transmission lines, smart operation and maintenance technology for digital grids, cooperative control technology in multi-unmanned systems, and internal combustion engine power system technology. Notably, research on low-carbon planning for new power systems has consistently ranked high in emergence in recent times. In the deep development strategy of the current power industry, low-carbon transformation and upgrading are deemed vital. Further indicator extrapolation indicates that research on low-carbon planning for new power systems, intelligent inspection technology for transmission lines, cooperative control technology in multi-unmanned systems, and internal combustion engine power system technology maintain their top-five status, while intelligent wind energy power system integration technology and ion battery and energy storage technology are gradually climbing the ranks, suggesting that these emerging technologies are poised for increased attention and development in the future. In addition to academic papers and patent literature, funding programs and policy texts are also very important sources of information. These resources can provide information about the direction of funding and support for S&T research, as well as the level of government attention and policy orientation towards emerging technologies.

Key Words:Emerging Technology;Multi-Source Heterogeneous Data Fusion;Profile of Emerging Technology;Machine Learning

收稿日期:2023-08-29

修回日期:2024-01-04

基金项目:中国南方电网有限责任公司创新项目(ZBKJXM20220013)

作者简介:王宏(1989—),男,湖北荆州人,南方电网科学研究院有限责任公司高级工程师,研究方向为技术和战略情报分析、数据挖掘、电力系统自动化;刘沁莹(1996—),女,贵州六盘水人,博士,南方电网科学研究院有限责任公司工程师,研究方向为技术和战略情报分析、电网风险管控、电力系统自动化;胡玉峰(1975—),男,湖南郴州人,博士, 中国南方电网有限责任公司高级工程师,研究方向为科技创新管理、知识产权管理、电力系统自动化;王庆红(1976—),男,贵州铜仁人,博士,南方电网科学研究院有限责任公司教授级高级工程师,研究方向为电力科技创新、技术竞争情报、知识产权管理;周育忠(1974—),男,广东汕头人, 南方电网科学研究院有限责任公司教授级高级工程师,研究方向为知识管理、标准化、电力大数据。

DOI:10.6049/kjjbydc.2023080688

开放科学(资源服务)标识码(OSID):

中图分类号:G303

文献标识码:A

文章编号:1001-7348(2025)05-0021-11

0 引言

新一轮科技革命和产业变革正在重塑世界格局,新兴技术作为技术创新的先导力量和战略抓手,已经成为大国博弈的核心。随着新能源技术、人工智能等领域的迅猛发展,这些技术应用和探索深刻影响着国家安全和经济发展的各个方面。世界各科技发达国家对新兴技术高度重视,例如,欧盟地平线计划投入巨资支持新兴技术开发及其相关产业发展,以促进战略自主权;同时,韩国科技评估与规划研究院(KISTEP)的6G研发实施计划旨在加快6G等新兴技术研发,打造重点领域核心竞争力。中国“十四五”战略性新兴产业发展规划则聚焦于增强原始创新,实现关键新兴技术自主可控。新兴技术探测有助于我国实现前沿技术突破[1],开展前瞻性部署[2],培育新兴市场,布局未来产业方向。因此,准确把握新兴技术发展趋势,是国家、企业掌握竞争优势和发展主动权的关键。

新兴技术最初被界定为“基于科学、有可能创立新行业或改造现有行业的创新”。此后,学术界对新兴技术概念的内涵与外延不断进行拓展[3-4]。Small等[5]认为新兴技术具有增长性和新颖性两大特征;Wang[6]指出新兴技术具有影响力、增长性、连贯性和创新性等特征;Carley等[7]将新兴技术特征总结为创新性、持续性、社区性和成长性;Rotolo等[8]指出,新兴技术是一种具有根本性创新且快速发展的技术,随着时间推移会保持一定连贯性,且对社会经济具有巨大影响潜力。基于此,本文总结出新兴技术的五大特征:影响力、增长性、连贯性、创新性、不确定性和模糊性。

现有新兴技术识别研究主要关注专利和论文等单一数据源,或在多源数据基础上进行数量统计,从多源数据融合视角构建新兴技术识别评价指标体系的研究不够深入,而且鲜有量化操作不确定性和模糊性的新兴技术识别研究。因此,本文采取资源融合方法,用论文数据表征科学、用专利数据表征技术,同时量化新兴技术的五大特征。

碳中和是全球共同努力的重要目标,世界各国已经展开多项具体研究和实施工作。例如,欧盟委员会发布了《欧洲气候法》草案,计划通过立法在2050年实现碳中和;美国宣布重新加入《巴黎协定》;值得注意的是,2020年9月22日,我国在第七十五届联合国大会上提出将努力争取2060年前实现碳中和。电网企业要实现国产替代和在国际市场上取得竞争优势,首先需要以科技创新驱动电网高质量发展,其次要摸清电网新兴技术发展方向,瞄准未来电网发展新兴技术领域,策划开展电网行业急需、刚需的关键技术攻关,从而带动我国电网领域技术由国产替代走向国产引领。因此,本文致力于探测电网领域的新兴技术,捕捉该领域相关技术发展方向,引导电网研发投资精准施策,以期在国际竞争中占据先导优势地位,有力推动我国电网领域技术发展。

1 研究现状

1.1 新兴技术内涵

华宏鸣(1995)从商业角度提出新兴技术是尚未被商业化但在未来3~5年有可能会商业化的技术,或是已经应用且会发生显著变化的技术。与之不同,Day等[9]在《Wharton on Managing Emerging Technologies》一书中将新兴技术定义为“基于科学创新,有潜力创造新产业或改变现有产业的技术,包括非连续创新和渐进性创新”。这两种观点均强调新兴技术的商业化潜力和创新性质,并引发了学术界对新兴技术的广泛关注。此外,Cozzens等[10]认为新兴技术具有巨大市场潜力,但其价值尚未证明或未达成共识,具有增长性、创新性、未开发的市场潜力和高科技基础4个关键特征。为凸显潜在技术价值和经济价值, Rotolo等[8]认为新兴技术是一种高创新性且快速发展的技术,对经济社会具有巨大影响力,并提出5个关键特征:影响力、增长性、连贯性、创新性、不确定性和模糊性;李昌等[11]在此基础上,将新兴技术界定为利用特征关键词表征的新技术领域,在一定时间内足够新颖,同时对其它技术具有推动作用,具有较高关注度,且在整个发展历程中表现出有序快速、连贯发展性特征。基于这一定义,本文认为新兴技术包括5个动态变化特征:新颖性、关注性、引领性、传承性和无序性。总之,学术界对新兴技术的定义和特征未达成共识,不同观点如表1所示。其中,Cozzens等[10]和Rotolo等[8]的观点影响作用较大,本文采用Rotolo等[8]的观点,对电网领域新兴技术进行识别。

表1 新兴技术定义及特征
Table 1 Definitions and characteristics of emerging technologies

作者时间定义特征华宏鸣等(1995)1995新兴技术是未被商业化但在3~5年内能被商业化的技术;或者是现在已经应用且会发生明显变化的技术Day等2000新兴技术是基于科学创新,具有创造新产业或改造现有产业潜力的技术新颖性、影响力、增长性、创新性李仕明等[12]2005新兴技术建立在多学科发展基础之上,具有潜在产业前景,其发展、需求和管理具有高度不确定性,正在涌现并有可能导致产业变革不确定性,创造性毁灭特征、“赢者通吃”特征Cozzens等2010新兴技术是具有巨大市场潜力但尚未证明其价值或还未达成任何共识的技术增长性、创新性、未开发的市场潜力、高科技基础Small等2014新兴技术是新的且快速增长的技术新颖性、增长性Rotolo等2015新兴技术是具有创新性且快速发展的技术,其特点是伴随时间推移会保持一定连贯性,且对经济社会具有巨大影响潜力影响力、增长性、连贯性、创新性、不确定性和模糊性Wang2018新兴技术是具有一定程度内在连贯性和显著科学影响力,全新且快速发展的技术影响力、增长性、连贯性、创新性徐建国等[13]2018新兴技术是虽然出现时间较晚但具有根本创新性、较强社会影响力和发展潜力的技术影响力、增长性、创新性李昌等2022新兴技术是利用特征关键词表征的新技术领域,在某一时间段内,该技术足够新颖并能对其它技术产生带动作用,具有较大关注度,在整个发展历程中,研究内容朝有序方向快速、连贯发展新颖性、关注性和引领性、传承性、无序性

1.2 新兴技术识别方法

当前,关于新兴技术识别方法的研究大致可分为两类:定性分析法和定量分析法。定性分析是早期学者识别新兴技术的一种研究方法,包括德尔菲法、情景分析法、技术路线图法,主要依靠专家主观判断作为新兴技术识别标准,受主观因素影响较大,问卷设计和收集不但耗时且成本较高,不适合大数据时代新兴技术识别。

随着机器学习技术的迅猛发展,许多研究者开始使用大数据挖掘方法改进传统新兴技术识别过程,从而出现了一系列定量研究方法。例如,徐硕等[14]基于专利文献数据,从创新性、独创性、原创性角度出发,利用负二项回归方法和逻辑回归方法探测医药领域新兴技术;与专利数据不同,Liu等[15]认为论文分析通常位于专利分析“上游”,他们利用染料敏化太阳能电池(DSSC)、非线性编程(NLP)和纳米药物输送(NEDD)3个领域论文数据集,在Porter等[16]研究的基础上构建持久性、社区性、增长性三维新兴技术识别评价指标体系。随着大数据时代的到来,新兴技术探测使用数据来源越来越广,逐渐形成以多源异构数据为基础的新兴技术识别趋势。例如,周云泽等[17]基于LDA模型,利用专利和论文数据源,采用主题强度、主题新颖度两个指标识别自动驾驶汽车领域的新兴技术;张维冲等[18]以区块链技术为例,利用主题关联分析法,运用专利、论文(期刊论文、学位论文和会议论文)、图书、基金项目和行业报告5类资源识别新兴技术;Noor等[19]使用论文数据与社交媒体数据识别4个领域的新兴技术。表2展示了学者识别新兴技术所采用的方法、度量特征以及数据源。由表2可知,当前研究在识别新兴技术方面存在数据源单一的局限性,这种单一数据源研究虽然有其价值,但忽视了其它数据来源的潜在信息。事实上,专利和论文分别代表科技创新发展不同阶段,它们都包含对新兴技术的重要见解。因此,综合使用多源异构信息资源对于全面了解特定领域新兴技术演变规律具有重要意义。

表2 新兴技术定量识别方法、特征与数据源
Table 2 Methods, features and data sources utilized in the identification of emerging technologies

代表作者年份方法 特征数据源Corrocher等[20]2003专利引文分析 增长性专利徐硕等2021逻辑回归模型创新性、独创性、原创性杨冠灿等[21]2022原创性、影响力Lee等[22]2018前馈多层神经网络新颖性、科学强度、增长速度、覆盖范围、研发能力宋欣娜等[23]2020主题模型新颖性、持久性、社区性和增长性Small等2014直引和共被引分析新颖性、增长性论文Carley等2018文本挖掘新颖性、持续性、社区性、成长性Porter等2019文献计量法Wang2018文献计量法影响力、增长性、连贯性、创新性Liu等2020敏感分析法持久性、社区性、增长性任惠超等[24]2022突发词检测和指标评估新颖性、增长性、原创性Xu等[25]2021主题N元语法模型与引文影响模型影响力、增长性、创新性Xu等[26]2019主题模型与多任务机器学习影响力、增长性、连贯性、创新性周云泽等2022主题模型与Word2Vec模型主题强度、主题新颖度 论文和专利高楠等[27]2023基于主题模型与Word2Vec模型主题强度、主题新颖度、主题热度张维冲等2019主题关联分析—专利、论文、图书、基金项目、行业报告Noor等2020文献计量法—论文、Twitter数据

2 研究设计

2.1 研究思路

为识别新兴技术,本文从新兴技术影响力、增长性、连贯性、创新性、不确定性和模糊性5个方面构建评价指标体系,并综合采用学术论文和专利文献资源对每项技术进行画像,衡量其是否为新兴技术。新兴技术识别路线如图1所示。具体过程如下:首先,收集专利和论文多源异构数据。其次,剔除无效数据和不完整数据,对原始数据进行清洗,包括句子切分、分词、词形还原、停用词过滤等。运用主题N元语法模型(Topical N-Grams,TNG),从学术论文和专利文献中提取技术主题(term-based theme),测算技术主题的影响力、增长性、连贯性、创新性、不确定性和模糊性五维指标。利用支持向量回归机模型对五维指标进行外推分析,计算新兴度得分,在此基础上预判新兴技术。

图1 基于多源数据融合的新兴技术识别路线
Fig 1 Technology roadmap of multi-source data fusion-based emerging technology identification

2.2 主题识别技术

大多数主题模型,如Blei等[28]提出的隐含狄利克雷分布模型(LDA)均是基于词袋(BoW)假设,即假设文本中每个单词都是独立的,忽视了单词之间的顺序和上下文信息。Wang等[29]在LDA模型的基础上提出一个扩展模型,即TNG主题模型,此模型考虑了词序信息,比LDA模型解释力更强[30],因此本文选用TNG模型抽取新兴技术主题。

表3总结了TNG模型用到的数学符号,其中v=0表示段落或句子开始或结束标记,k=0表示对应v=0的主题。图2为TNG模型概率图,其中双圆圈节点表示观察变量,单圆圈节点表示潜在变量,箭头表示条件依赖,方盘表示内部元素需要重复右下角指定的次数。

图2 TNG模型概率
Fig 2 Probability model of TNG model

表3 TNG模型符号说明
Table 3 Symbol description of TNG model

符号含义 K技术主题数量M科技文献(学术论文和专利文献)数量,即语料库R的大小V词表大小Nm科技文献m中的词汇数量ϑ→m特定于科技文献m中的主题多项式分布φ→k特定于主题k中的词汇多项式分布ψ→k,v特定于主题k和词汇v中的二元语法状态的二项式分布φ→k,v特定于主题k和词汇v中的词汇多项式分布zm,n科技文献m中分配给第n个词汇的主题xm,n科技文献m中分配给第n个词汇的二元语法状态wm,n科技文献m中的第n个词汇α→,β→,γ→,δ→狄利克雷/贝塔分布先验

式(1)为吉布斯采样的迭代条件概率公式。

(1)

其中,表示科技文献m中分配给主题k的词汇数;表示词汇v以一元形式分配给主题k的次数;表示给定前一个单词v,单词v'被分配给主题k作为二元组第二项的次数;表示给定前一个单词v和前一个单词主题k时,状态x(0或1)出现的次数。本文使用狄利克雷/贝塔分布期望值获取表3中的模型参数,如式(2)—式(5)所示。

(2)

(3)

(4)

(5)

2.3 主题识别指标

2.3.1 影响力指标构建

影响力是指新兴技术具备某种改变现有产业“行事方式”的潜力,本文将其量化为新进入相应技术领域关键研究者的数量。一篇学术论文通常会涉及多个机构的合作署名,一篇专利文献通常会涉及多个申请机构。同时,学术论文和专利文献通常会涵盖多个技术主题。本文在不同时间切片下通过量化机构对主题k的贡献,利用机构在主题上的累积贡献值判断科学影响力。

为阐释方便,假设科技文献m共涉及Am个单位,按署名顺序将其表示为本文利用SDC计数法[31],运用贡献分配方案计算每个单位对该文献的贡献比,单位om,i对其文献贡献的分配权重cm,i计算过程如下:

(6)

在得到贡献分配权重后,计算每个单位x在时间切片t对技术主题k的科学贡献值∑m:timestamp=tmAom,i=xcm,i和技术贡献值∑m:timestamp=tmPom,i=xcm,i

针对时间切片t和技术主题k,在学术论文中,按照科学贡献值从大到小排序,确定最少单位数目,使这些单位贡献累积值大于或等于用户预设阈值,确定科学影响力InfluenceA(k,t)。类似地,对专利文献中的单位按照技术贡献值从大到小排序,确定最少单位数目,使这些单位贡献累积值大于或等于用户预设阈值,确定技术影响力InfluenceP(k,t)。因此,技术主题k在时间切片t的影响力计算公式如下:

Influence(k,t)=wAInfluenceA(k,t)+wP

InfluenceP(k,t)

(7)

2.3.2 增长性指标构建

在新兴技术发展过程中,增长性是一个重要指标,用于衡量该技术相对于其它技术的增长速度。通常情况下,新兴技术呈现出比其它技术更快的增长趋势。本文采用流行度斜率反映不同技术主题之间的相对增长速度。具体而言,针对时间切片t和技术主题k,技术主题增长性公式如下:

(8)

其中,分别表示时间切片t的技术主题k分别在学术论文和专利文献的流行度,可通过计算学术论文和专利文献多项式概率分布得到。

需要说明的是,A表示学术论文,P表示专利文献,wA表示赋予学术论文指标计算结果的权重,wP则表示赋予专利文献指标计算结果的权重。

2.3.3 连贯性指标构建

连贯性是指相应技术并非突然出现,而是需要经过一段时间积累,但具体含义比较稳定,不同于仍处于波动状态的技术。本文使用对称Kullback-Leibler散度(symKLD)指标测量新兴技术连贯性。具体而言,技术主题k在时间切片t的连贯性计算公式如式(9)所示。

CoherencesymKLD(k,t)=

(9)

当时间t时某个技术主题概率较高词汇与时间t-1时同个主题概率较高词汇完全不同时,CoherencesynKLD(k,t)值变大,意味着这一主题含义从时间t-1到时间t发生迁移。

2.3.4 创新性指标构建

识别新兴技术创新性的关键在于挖掘其技术本质,著名经济学家Arthur[32]在《技术的本质》一书中指出,所有技术都来自其它次级技术的组合,元初技术是对自然现象及其效应的捕获。这样,新兴技术被视为采用全新的科学原理、或对已有功能或方法进行重新组合而产生新的、不同于原有母体技术的技术。

结合TNG模型,进一步计算学术论文和专利文献在时间切片t下技术主题k的创新性值,计算公式如下:

(10)

其中,分别表示学术论文m和专利文献m的创新性值,通过计算参考文献所属期刊组合[33]和被引专利IPC分类号组合Z值的十分位数得到。

2.3.5 不确定性和模糊性指标构建

不确定性和模糊性是指新兴技术产出和用途不可预期,其中包含跨学科、技术领域与科研实践社群间的模糊性。根据香农在1948年提出的“信息熵”(Shannon entropy, SE)理论,某项新兴技术在前期无序性较大,随着时间推移其无序性开始降低,技术更加明确。因此,本文采用信息熵法对尚处于早期阶段、无序性还在增加的新兴技术主题进行预判。某个技术主题越有序,说明该主题信息熵越低;反之,则说明信息熵越高。

对于学术论文和专利文献,分别采用研究领域与技术类别(IPC分类号)的信息熵值表示新兴技术主题的不确定性和模糊性。具体来说,在时间切片t技术主题k的不确定性和模糊性计算公式如下:

Uncertainty(k,t)=

(11)

其中,分别表示学术论文研究领域和专利文献技术类别(IPC分类号)在技术主题k和时间切片t上的分布概率,表示学术论文m的研究领域或专利文献m的技术类别(IPC分类号)。

3 实证结果分析

3.1 数据获取

近年来,电网尖端科技领域发展是国家实现可持续发展、保障国家能源安全的重大部署,因此应准确把握新兴技术在电网领域的科学定位,破解电网领域技术难题,抢占行业发展制高点,提前对技术发展创新趋势进行预测。本文以电网领域为例,开展电网新兴技术识别和预判研究。从德温特创新数据库(Derwent Innovation)中下载专利文献集合,选定Web of Science核心合集下载学术论文集合。由于专利文献和学术论文检索式较长,本文不再一一列示,检索文献类型限定为“Article”和“Review”,时间范围为2015—2022年,学者大多选用5~10年数据作为支撑[25]。由于电网领域论文与专利数据量较大,同时8年数据量能有效保证识别出的技术范围在合理区间之内,并能精准提出相应政策建议,故选取近8年数据。经过检索,本文最终获取743 344篇学术论文和1 247 235篇专利文献。

图3展示了2015—2022年电网领域学术论文和专利文献数量分布情况。由图3可以看出,电网领域学术论文和专利文献发表量总体呈逐年递增态势。与论文数量不同,专利数量增长速度在2019年之后明显加快,这在一定程度上体现了人们对于技术创新的关注度和投资力度,反映出电网领域近年来研究热度不断上涨,发展速度加快、发展规模扩大。

图3 学术论文和专利文献年度发表数量分布情况
Fig 3 Distribution of publication quantity of academic papers and patent literature

3.2 数据预处理

为确保数据质量,首先对学术论文和专利文献数据进行初步清洗,包括去除无效、重复和不完整的数据。本文使用OpenNLP工具对标题和摘要进行句子切分、分词和词形还原。其次,利用英文停用词列表过滤停用词,并将科技文献中的数字替换为“Number”。通过上述过程,最终获得实验语料集。

3.3 候选技术主题识别

3.3.1 模型参数设定

本文利用TNG模型识别技术主题,其中TNG超参数取值为:α=0.5, β=0.01, γ=0.1和δ=0.01。为对参数后验分布进行估计,使用Gibbs采样方法,并设置迭代次数为1 000次。困惑度在评估主题模型性能方面发挥关键作用,是一种衡量模型泛化能力的指标。通过对不同主题数困惑度进行比较,本文确定最优主题数量为50。

3.3.2 候选技术主题内容

经过筛选,剔除明显不相关主题后,最终确定36个相关技术主题。同时,通过人工判断和归纳,对这些技术主题标签进行提炼,如表4所示。

表4 电网领域技术主题
Table 4 Technical themes in the power grid domain

编号技术主题归纳 编号技术主题归纳 1电力线路安装与固定技术19光学与电磁学技术2无线通信能量管理技术20电力系统与总线技术3内燃机动力系统技术21驱动系统与传动技术4数字电网智能运维技术22能源生产与环境排放技术5频率控制技术23智能风能电力系统集成技术6电动马达系统技术24多无人系统中的协同控制技术7电路信号处理技术25电源开关与电路保护技术8电力控制模块技术26离子电池与能量存储技术9输电线智能巡检技术27电机驱动与控制技术10电能存储系统技术28电路与电子元件技术11液流和气流控制与传输技术29能源与电力系统技术12电力配电柜及其组成部件技术30电动车充电设备与电池技术13压电驱动器与振动能量收集技术31电场与磁场性质及相变技术14无线充电系统与通信控制技术32电力保护系统与设备技术15电机铁芯设计与磁场控制技术33新型电力系统低碳规划研究16电动车控制系统及能源管理技术34热传递与能量转换技术17空气与水的进出口控制装置技术35电缆保护与绝缘层技术18直流电源技术和DC/DC变换器技术36光伏发电与能量存储技术

3.4 新兴度指标计算

本文致力于确定36个技术主题是否属于电网领域新兴技术。首先,收集关于36个技术主题的5个特征指标数据,即影响力指标Influence'(k,t)、增长性指标Growth'(k,t)、连贯性指标Coherence'(k,t)、创新性指标Novelty'(k,t)、不确定性和模糊性指标Uncertainty'(k,t)。这些指标数据包括特定时间切片t下每个技术主题k的值。在计算新兴度指数之前,采用最小值—最大值归一化方法,将所有五维指标归一化至共同区间[0,1]。这一步骤是为消除不同指标之间的度量单位和范围差异,以确保它们具有可比性。对连贯性指标进行正向化处理,归一化处理公式如下:

Influence'(k,t)=

(12)

(13)

Coherence'(k,t)=

(14)

(15)

Uncertainty'(k,t)=

(16)

在新兴度指标计算中,每个特征指标都有一个权重 wi,它们代表每个指标的重要性。本研究对5个指标赋予相同权重,即 w1=w2=w3=w4=w5=1/5。最终,使用简单线性加权法,将归一化后的五维特征指标值乘以相应权重,然后将它们相加,得到新兴度指数得分。具体计算公式如下:

Emerging(k,t)=w1*Influence'(k,t)+w2*Growth'(k,t)+w3*Coherence'(k,t)+w4*Novelty'

(k,t)+w5*Uncertainty'(k,t)

(17)

其中,w1+w2+w3+w4+w5=1,w1=w2=w3=w4=w5=1/5。

3.5 技术主题识别与解读

基于上述指标,本文得到2016—2022年技术主题新兴度得分及排名。其中,“新型电力系统低碳规划研究”在过去一段时间一直保持较高的新兴度排名。在当前电力行业深度发展战略中,低碳转型升级是至关重要的战略环节。在实施 “双碳”目标进程中,能源是关键领域,而电力则扮演着核心角色。新型电力系统具有安全高效、清洁低碳、柔性灵活和智能融合4个重要特征,其中清洁低碳是核心目标。因此,该新兴技术与当前战略目标高度契合。本文将2022年排名前六的技术判定为电网领域新兴技术,分别为新型电力系统低碳规划研究、电机驱动与控制技术、输电线智能巡检技术、数字电网智能运维技术、多无人系统中的协同控制技术和内燃机动力系统技术。通过对相关文献、政策规划以及工业应用进行综合调研,可间接证实识别结果的合理性。举例来说,“新型电力系统低碳规划研究”在欧美国家推进新能源发展过程中不仅规定了中长期战略目标,还重视能源立法及体制机制设计。在立法方面,英国出台《能源法案》及《电力市场改革》,德国不断修订《可再生能源法》等,以完整的法律框架保证能源政策的前瞻性、连续性和可操作性;同时,国家能源局发布的《新型电力系统发展蓝皮书》也提出要加强电力供应支撑体系、新能源开发利用体系、储能规模化布局应用体系、电力系统智慧化运行体系四大体系建设。“电机驱动与控制技术”在《中国制造2025》国家战略背景下备受关注,作为系统高效运行和低能耗的关键,电机驱动与控制技术正朝着高能效、智能化和集成化方向发展,目前发达国家新能源汽车使用锂离子电池能量密度已经实现300Wh/kg以上的高能量密度电池,不但实现技术标准化,而且产能更高效。“输电线智能巡检技术”在智能电网背景下具有重要地位,数字化手段有助于实现输电线路状态可视化、智能化巡检,而且这项技术在国家相关战略规划中得到验证,如《“工业互联网+安全生产”行动计划(2021-2023年)》通过开展“5G+智能巡检”提高实时监测能力。目前,英国加强对设计、生产、运输、使用和回收等环节的安全管理,建立完善的电池安全检测和监控机制,保障每个环节的安全性;《南方电网公司建设新型电力系统行动方案 (2021—2030年)白皮书》和“十四五”新型基础设施建设战略明确提出数字电网智能运维技术,有力推进电网输配电网络智能运维;此外,美国在《Grid2030——美国电力系统下一个百年的国家愿景(2003)》中也强调智能数字电网技术,用信息化+储能让电网更好地适应新能源占比提升引发的各类问题。“多无人系统中的协同控制技术”针对我国“制造强国”战略目标,无人系统已成为社会重点研究领域,而多无人系统协同控制问题则是未来无人系统发展备受关注的核心议题之一。2017年,我国在《新一代人工智能发展规划》中,将自主式智能无人系统作为人工智能发展的一项重要内容;2018年,美国在未来地面人机组合计划中专门研究了机器人和人工智能如何与人类协同行动的问题。对于“内燃机动力系统技术”,内燃机是国民经济和国防建设的“动力心脏”,同时也是“双碳”目标实现的主力军,我国《内燃机产业高质量发展规划(2021-2035)》强调智能化关键技术创新与应用,英国也在碳排放税和配套碳价政策中限制传统内燃机燃料使用,英国技术战略委员会同时赞助了3个关于飞轮混合动力系统的研究项目,且掌握了大量飞轮混合动力先进技术。

为深入了解这些新兴技术未来发展趋势,本文采用支持向量机回归模型对当前五维指标进行外推分析。这种模型以支持向量机的思想为基础,在特征空间中构建一个超平面,尽可能地拟合基于时间序列的新兴技术数据。具体方法如下:首先,计算过去7年时间多维度新兴技术特征数据,对每个新兴技术数据进行切片处理,使用历史数据作为自变量,即用前3个时间切片指标数值预测下一个时间切片(t+1)的指标数值,即因变量。窗口大小设置为3,每个窗口包含3个连续的时间切片数据,随着窗口滑动,数据被切分为不同自变量和因变量组合。其次,将每个新兴技术的前n条数据作为训练集,将最后一条数据作为验证集。这种数据划分方式能够了解同一领域下不同新兴技术的特点,从而更好地拟合和预测数据。

本文使用支持向量机回归模型对这些数据进行拟合分析。为获得最佳性能,首先利用K折交叉验证和网格搜索确定最优支持向量机超参数,确保选择适用于数据集的最佳参数配置,以最大限度减少预测数据的不确定性。其次,根据拟合曲线推测未来一年的指标数值。最后,结合历史数据和模型拟合结果,预测和分析未来两年指标趋势。图4呈现了未来两年的外推结果,可见新型电力系统低碳规划研究、输电线智能巡检技术、多无人系统中的协同控制技术和内燃机动力系统技术保持前五位置不变,而智能风能电力系统集成技术和离子电池与能量存储技术排名逐渐靠前,说明这些新兴技术在未来有望获得更多关注和发展。

图4 电网领域技术主题新兴度得分排名变化趋势
Fig 4 Ranking trends of emergence scores of technical themes in the power grid domain

4 结论与讨论

4.1 研究结论

新兴技术在当今世界科技革命和产业变革中扮演着重要角色。各科技发达国家都高度重视新兴技术,并将其作为国家战略规划的核心。准确把握新兴技术发展趋势至关重要,有助于我国实现技术突破、进行前瞻性技术部署、培育新兴市场以及指导产业化布局。

本文采用多源数据融合方法,以电网领域论文和专利数据为基础开展新兴技术识别方法研究。利用TNG模型抽取技术主题,并通过人工筛选确定关键主题。基于抽取得到的主题,测度新兴技术的影响力、增长性、连贯性、创新性以及不确定性和模糊性特征指标,其中不确定性和模糊性指标之前研究较少涉及,本文基于“信息熵”理论对其进行度量,在验证中取得较好效果。随后,对5个指标进行融合分析,得到新兴度得分,从而对论文和专利数据中的新兴技术进行识别和预测,确定电网领域新兴技术为:新型电力系统低碳规划研究、电机驱动与控制技术、输电线智能巡检技术、数字电网智能运维技术、多无人系统中的协同控制技术和内燃机动力系统技术。同时,通过外推未来两年发展趋势,本文揭示具有新兴潜力的技术为智能风能电力系统集成技术和离子电池与能量存储技术。这些发现为科学界、产业界和政策制定者提供了有价值的参考,有助于推动电网领域可持续发展,从而验证本文方法的可行性和有效性。

4.2 不足与展望

新质生产力的提出进一步明确了新兴技术在先进生产力发展中的重要地位。本文基于电网领域论文和专利数据,利用影响力、增长性、连贯性、创新性以及不确定性和模糊性特征指标构建新兴技术识别框架,以电网领域为例识别新兴技术,丰富了新兴技术识别领域研究,具有一定理论和实践意义,但仍存在一定不足,需要后续研究加以完善。

(1)在大数据和人工智能时代背景下,数据来源不断丰富,本文仅使用论文和专利数据作为主题识别依据,忽视了其它文本数据源如图书、基金项目、行业报告、政策文献等,这些资源既能提供科技研究资助和支持方向,还能关注行业发展前沿,以及政府对新兴技术的重视程度和政策导向。此外,还可以将初创企业数据、公共舆论数据纳入指标度量中,这两种资源能在一定程度上提供行业企业发展情况和社会舆论方面的关注度,有助于提升新兴技术识别的准确性和全面性。

(2)本文旨在提出一种普适性的方法运用于所有领域,因此以电网领域数据为例识别新兴技术只是研究开端,后续还需将此方法应用于更多领域,以验证其普适性。

(3)随着人工智能和深度学习技术的快速发展,应探索更高效、数据量更大的方法对技术主题进行识别,进而提高识别效率,并形成一套自动化体系,助力其他领域科研人员运用于相关领域研究。

参考文献:

[1] JOUNG J, KIM K. Monitoring emerging technologies for technology planning using technical keyword based analysis from patent data[J]. Technological Forecasting and Social Change, 2017, 114: 281-292.

[2] 徐硕,王聪聪,安欣. 新兴技术弱信号扫描预判述评[J]. 情报杂志,2023,42(3):117-122.

[3] 卢小宾,杨冠灿,徐硕,等. 计量与演化视角下的新兴技术识别研究进展评述[J]. 情报学报,2020,39(6):651-661.

[4] 杨思洛,江曼. 新兴技术内涵特征和识别方法研究进展[J].情报科学,2023,41(5):181-190.

[5] SMALL H, BOYACK K W, KLAVANS R. Identifying emerging topics in science and technology[J]. Research Policy, 2014, 43(8): 1450-1467.

[6] WANG Q. A bibliometric model for identifying emerging research topics[J]. Journal of the Association for Information Science and Technology, 2018, 69(2): 290-304.

[7] CARLEY S F, NEWMAN N C, PORTER A L, et al. An indicator of technical emergence[J]. Scientometrics, 2018, 115(1): 35-49.

[8] ROTOLO D, HICKS D, MARTIN B R. What is an emerging technology[J].Research Policy,2015,44(10): 1827-1843.

[9] DAY G S, SCHOEMAKER P J H, GUNTHER R E. Wharton on managing emerging technologies[M].Hoboken:John Wiley&Sons, Inc, 2000.

[10] COZZENS S E, GATCHAIR S, KANG Y, et al. Emerging technologies: quantitative identification and measurement[J]. Technology Analysis and Strategic Management, 2010, 22(3): 361-376.

[11] 李昌,杨中楷,董坤. 基于多维属性动态变化特征的新兴技术识别研究[J]. 情报学报,2022,41(5):463-474.

[12] 李仕明,肖磊,萧延高. 新兴技术管理研究综述[J]. 管理科学学报,2007,10(6):76-85.

[13] 徐建国,李孟军,游翰霖. 新兴技术识别研究进展[J]. 情报杂志,2018,37(12):8-12,7.

[14] 徐硕,郝丽媛,安欣. 基于药物专利信息资源的新兴技术探测研究[J]. 中国发明与专利,2021,18(6):14-23.

[15] LIU X, PORTER A L. A 3-dimensional analysis for evaluating technology emergence indicators[J]. Scientometrics, 2020, 124: 27-55.

[16] PORTER A L, GARNER J, CARLEY S F, et al. Emerging scoring to identify R&D topics and key players[J]. Technological Forecasting and Social Change, 2019, 146: 628-643.

[17] 周云泽,闵超. 基于LDA模型与共享语义空间的新兴技术识别——以自动驾驶汽车为例[J].数据分析与知识发现,2022,6(Z1):55-66.

[18] 张维冲,王芳,赵洪. 多源信息融合用于新兴技术发展趋势识别——以区块链为例[J]. 情报学报,2019,38(11):1166-1176.

[19] NOOR S, GUO Y, SHAH S H H, et al. Research synthesis and thematic analysis of twitter through bibliometric analysis[J]. International Journal on Semantic Web and Information Systems, 2020, 16(3): 88-109.

[20] CORROCHER N, MALERBA F, MONTOBBIO F. The emergence of new technologies in the ICT field: main actors, geographical distribution and knowledge sources[R]. Department of Economics, University of Insubria, 2003.

[21] 杨冠灿,丁月,徐硕,等. 基于专利动态指标的新兴技术预测建模方法——以癌症药物领域为例[J]. 情报学报,2022,41(8):786-795.

[22] LEE C, KWON O, KIM M, et al. Early identification of emerging technologies: a machine learning approach using multiple patent indicators[J]. Technological Forecasting and Social Change, 2018, 127: 291-303.

[23] 宋欣娜,郭颖,席笑文.基于专利文献的多指标新兴技术识别研究[J]. 情报杂志,2020,39(6):76-81,88.

[24] 任惠超,黄庆龙,张祖国,等. 船舶领域新兴技术主题识别技术研究[J]. 情报理论与实践,2022,45(11):103-106.

[25] XU S,HAO L,YANG G, et al. A topic models based framework for detecting and forecasting emerging technologies[J].Technological Forecasting and Social Change, 2021, 162: 120366.

[26] XU S, HAO L, AN X, et al. Emerging research topics detection with multiple machine learning models[J]. Journal of Informetrics, 2019, 13(2): 100983.

[27] 高楠,高嘉骐,陈洪璞. 新兴技术识别与演化路径分析方法研究——以集成电路领域为例[J]. 情报科学,2023,41(3):127-135,172.

[28] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

[29] WANG X, MCCALLUM A, WEI X. Topical n-grams: phrase and topic discovery, with an application to information retrieval[C].Proceedings of the 7th IEEE International Conference on Data Mining. IEEE, 2007: 697-702.

[30] MANN G S, MIMNO D, MCCALLUM A. Bibliometric impact measures leveraging topic analysis[C].Proceedings of the 6th ACM/IEEE Joint Conference on Digital Libraries,2006: 65-74.

[31] TSCHARNTKE T, HOCHBERG M E, RAND T A, et al. Author sequence and credit for contributions in multiauthored publications[J]. PLoS Biology, 2017,5(1): 18.

[32] ARTHUR W B. The nature of technology: what it is and how it evolves[M]. New York: Simon and Schuster, 2009.

[33] UZZI B, MUKHERJEE S, STRINGER M, et al. Atypical combination and scientific impact[J]. Science, 2013, 342(6157): 468-472.

(责任编辑:王敬敏)