This study focuses on the field of hydrogen fuel cell vehicles,extracting relevant paper and patent data units from the Web of Science and IncoPat databases.By employing methods such as BERTopic modeling and semantic similarity analysis,the study explores the thematic trends of papers and patents across different time slices,analyzing the associations and interaction dynamics between papers and patents.A systematic analytical framework is developed,structured around the main line of "research field selection→topic model design→empirical research analysis".This framework facilitates the rapid identification of interconnections between different knowledge sources,reveals the interactive logic between scientific research and technological applications,and provides theoretical and practical support for monitoring,evaluating,and planning the development of emerging technologies.Moreover,the modular design enhances the generalizability and transferability of the framework,offering significant reference pathways for similar research in other industries and interdisciplinary fields.
The main findings and conclusions of this study are as follows:(1)By analyzing the semantic similarity between paper and patent topics across different time slices,17 pairs of strongly correlated topics were identified,indicating that the collaboration between science and technology has facilitated the cumulative evolution of the technological field.(2)The association between papers and patents weakens over time,reflecting the transition of hydrogen fuel cell vehicles from basic research to technological application.This trend suggests that the research focus has gradually shifted from theoretical exploration to practical development,with applied innovation becoming the primary driving force in this field.(3)The changes in the association between paper and patent topics across horizontal time slices reveal three interactive evolutionary mechanisms:absorptive,sustaining,and creating evolution.(4)Analyzing the thematic associations and interaction mechanisms from the perspective of scientific and technological innovation deepens the understanding of technological diversity and the driving factors behind innovation.
The findings of this study offer the following insights for the formulation of technology management strategies:(1)Absorptive evolution,which integrates early-stage outcomes to optimize themes,suggests that management should enhance knowledge flow and mechanism integration,such as promoting collaboration between research institutions and enterprises to support in-depth technological development.(2)Sustaining evolution emphasizes the stability and gradual optimization of technological frameworks,highlighting the need for management to ensure the continuity and progression of technological development.This could involve creating long-term plans to ensure continuous investment in key technologies and improving their applicability and competitiveness through standardization.(3)Creating evolution,centered on innovation and differentiation,drives the emergence of new themes,indicating that management should increase support for disruptive innovation.This includes setting up special funds to support frontier research,promoting interdisciplinary collaboration and knowledge fusion,enhancing technology forecasting and the identification of potential technologies,and providing scientific evidence and financial support for the formation of new technological paths.
However,this study has certain limitations.The analytical methods are primarily applied to the hydrogen fuel cell vehicle field,and the accuracy of the results depends on the quality of the model.The technical characteristics of different industries may impose higher requirements on parameter settings.Additionally,the unsupervised nature of BERTopic limits the applicability of traditional reliability testing methods.This study suggests that future research could refine algorithmic parameters and enhance cross-domain adaptability of the framework,while employing mixed-methods approaches to systematically investigate the synergistic effects of policy incentives and resource allocation strategies in coordinating the tripartite interaction mechanisms,thereby establishing diversified pathways for facilitating transformation of scientific and technological achievements.
科技创新是发展新质生产力的核心要素。正如约瑟夫·熊彼特在其著作《经济发展理论》中所阐述的,通过引入新的生产方法,重新对生产要素进行组合,可以提升生产效率,促进经济发展。这些新的生产方法通常源于科学知识探索与应用技术突破,在科技创新价值链中,科学研究为新技术研发奠定理论基础,以专利为代表的技术则是将科技成果转化为实际应用的关键形式。科学论文代表前沿知识创造与积累,代表基础研究的最新成果,专利技术则体现知识向实际应用的转化能力。科学论文和专利技术在推动科学研究与技术进步方面发挥重要作用,它们之间的互动与转化并非简单的线性关系。探究科学论文与专利技术之间的主题关联及互动演化规律,有助于深入理解知识从理论到实践的转化过程,对于预测技术趋势和加快技术创新具有重要意义。尤其是在科技快速发展背景下,厘清这一规律尤为重要。
学术界在揭示科学论文与专利技术关联性方面取得一些进展,但现有研究大多停留在基于共引关系或引文网络分析方法上,侧重于静态视角下固定关联模式分析,未充分揭示科学与技术之间的动态演化机制。随着人工智能和自然语言处理技术的发展,可以基于文本内容开展动态分析。结合BERTopic主题建模、语义相似度和演化机制分析,可以深入研究科学论文与专利技术关联机制及其演化过程,进一步揭示科学知识向技术应用转化的内在逻辑,并为技术创新管理提供理论支持。
知识创造和知识流动的有效性在高级经济体中已成为重要竞争因素[1]。当前,学界在论文与专利主题关联研究方面已取得一定进展,研究方法大致分为基于引用关系、基于文本内容以及基于映射关系3类。
(1)基于引用关系的研究方法通过分析论文与专利之间的引用或耦合关系,揭示科学与技术之间的联系。例如,Ahmadpoor等[2]提出一种基于引用距离的度量方法,揭示科学研究与技术发明之间的关联性;Chen等[3]基于共被引关系进一步衡量科学研究与技术知识之间的互动;宁子晨等[4]探讨“数据挖掘”主题下专利主体与技术主题以及文献关键词的耦合关系及其演化规律。
(2)基于文本内容的研究方法通过语义分析或主题建模,挖掘论文与专利文本相似性或关联性。例如,Chen等[5]通过向量空间模型(VSM)和WF-IDF加权法测量专利引文间的文本相似性,检验其能否指示知识关联;张凯等[6]结合Termolator算法与GPT提示学习方法,创新性地对技术术语进行抽取和聚类分析,以识别新兴技术。
(3)基于映射关系的研究方法通过学科与技术领域的映射,研究论文与专利之间的知识流动及相互影响。例如,唐露源等[7]基于维基百科分类树构建知识本体,将论文与专利映射到该本体中,通过配对样本T检验,验证论文与专利在知识演化方面的时间滞后性与知识流动特征;Ferreira等[8]构建科学研究与技术应用成果之间的映射关系,揭示基础科学对技术转化的影响。
上述3类研究方法各有优劣。基于引用关系的研究方法能从宏观层面揭示论文与专利间的结构性联系,但难以克服数据时滞性问题,且未深入挖掘文本内容,导致结果细粒度不足。基于文本内容的研究方法能从微观层面分析论文与专利内容,提供更精细的研究结果,但易受样本类型、模型质量和参数设置的影响,从而对实验结果的稳定性与可靠性提出较高要求。基于映射关系的研究方法在跨学科或跨技术领域研究中由于学科分类标准不同,难以建立有效的对应关系,会限制其应用效果。为克服这些局限性,混合研究方法为主题关联分析提供了新的解决思路。冉从敬等[9]结合社会网络分析方法、科学知识图谱与“BERT+Kemans+LDA”模型,提出一种新的分析框架,为科学与技术互动研究提供了理论与实践创新。
互动演化研究旨在系统分析和追踪特定领域内主题、概念或关键词随时间变化的过程,以揭示其发展趋势、相互关系及演变机制。传统研究方法包括由领域专家主导的定性分析方法、基于计算机技术的定量分析方法以及二者相结合的混合分析方法[10]。Glaser &Strauss[11]的扎根理论通过系统定性研究,从数据中生成理论,被广泛应用于社会科学研究领域。Krippendorff[12]的内容分析法通过对文本或媒体内容进行编码与分类,识别潜在模式和主题。然而,这些定性分析方法由于过度依赖领域专家,逐渐显现出主观性较强、效率较低、人力成本较高等不足,限制了其应用的广泛性。
随着计算机技术的进步,Salton等[13]发展向量空间模型(VSM),为主题自动化识别与相似性计算提供技术支持。此后,Blei等[14]提出潜在狄利克雷分配模型(LDA),极大程度上促进计算机辅助主题识别。此后,学者们逐渐运用计算机技术开展主题演化研究,如Zhang等[15]通过融合LDA主题模型、生命周期理论与文本相似度,评估特定技术演化路径;寇园园等[16]从IPC专利分类视角,运用马尔可夫链和显性技术比较优势指数识别技术演进特征与演变结果。此外,胡泽文等[17]提出基于LDA2Vec—BERT的主题识别与演化模型,用以识别区块链技术演化趋势与特征。
总体而言,主题演化研究经历了从定性分析到定量分析再到混合分析的演变趋势。随着计算机技术和数据分析方法的进步,混合分析方法在提高研究效率和深度上展现出巨大潜力。BERTopic等新兴模型为主题演化研究提供了灵活工具,能较好地捕捉主题的细微变化和动态演变,逐渐成为当前主流研究趋势。
本研究以智能化数据处理为核心方法,研究主线遵循“确定研究范围→BERTopic主题建模→主题关联与互动演化分析”,针对特定领域进行深入分析。具体而言,研究流程分为以下几个步骤:首先,选定研究主题,确定时间范围,制定检索策略,从IncoPat数据库中提取专利数据单元,从Web of Science数据库中提取论文数据单元,并对提取的文本进行预处理。其次,应用BERTopic主题建模,对论文与专利摘要数据集进行文档嵌入、UMAP降维、HDBSCAN聚类及C-TF-IDF主题表示,提取主题聚类结果。最后,从以下两个维度展开分析:一是通过余弦相似度评估论文与专利之间的主题关联关系,二是基于主题对间的关联度分析互动演化过程与趋势。本研究构建“论文—专利”主题关联与互动演化分析框架,如图1所示。
图1 基于“论文—专利”的主题关联与互动演化框架
Fig.1 Analysis framework for the evolution of theme associations and interactions based on 'paper-patent'
2.2.1 BERTopic主题建模研究方法
本研究采用BERTopic模型对论文与专利摘要数据集进行主题建模。相较于传统LDA模型,该方法克服了忽视文本上下文语义关联的局限[18],通过预训练语言模型生成文档嵌入,结合UMAP降维与HDBSCAN聚类实现主题划分,并利用C-TF-IDF进行主题表示,在复杂文本主题挖掘与语义分析中表现出较强的适用性。
文档嵌入是将文本转换为向量表示的一种技术,通常通过预训练语言模型生成。本研究使用微软开发的轻量级预训练语言模型“all-MiniLM-L6-v2”。该模型基于BERT架构,包含6层Transformer,每层有384个隐藏单元,具备高效处理大规模文本数据的能力。文档嵌入过程分为以下几步:首先,对输入文本进行分词,将文本分解为词汇或子词单元。对于每个词汇,模型会查找其对应的预训练嵌入表示,如假设词汇wi对应的嵌入为ei。其次,通过在模型中加入位置编码,保留词语在文本中的位置信息。假设位置嵌入为pi,则将最终的输入嵌入表示为词嵌入ei与位置嵌入pi之和。最后,在Transformer编码器部分,模型采用多层结构,每层包含自注意力机制和前馈神经网络。通过自注意力机制计算序列中每个词语间与其它词语的依赖关系。
(1)
式(1)中,Q表示查询向量,K表示键向量,V表示值向量,dk表示键向量的维度。通过softmax函数将点积结果转换为注意力权重,用以衡量词语间的相关性。softmax的输出与值向量V相乘,得到加权求和后的注意力输出Attention(Q,K,V)。该输出被送入前馈神经网络,每个词的嵌入过程经过一层线性变换、ReLU激活函数和第二层线性变换处理,计算公式如下:
h=max(0,xW1+b1)
(2)
y=hW2+b2
(3)
式(2)(3)中,W1、W2分别表示前馈神经网络中第一层和第二层的权重矩阵,b1、b2为偏置向量,ReLU激活函数定义为max(0,x)。提取对应[CLS]标记的输出向量,将其作为整个文档的嵌入表示。
UMAP是一种非线性降维技术,旨在保留高维数据的局部结构和全局结构,将高维数据嵌入低维空间,其降维过程分为两步:首先,使用k-NN算法找到每个数据点的k个最近邻居;其次,将这些高维距离转换为概率,表示数据点之间的连接强度。相似度计算公式如下:
(4)
式(4)中,d(i,j)表示数据点i与j之间的距离,ρi为点i到其最近邻居的最小距离,σi表示用于控制局部邻域大小的参数。UMAP通过最小化高维空间与低维空间相似度的差异来优化降维效果,其损失函数(交叉熵)如下:
(5)
式(5)中,s(i,j)表示点i与点j在高维空间的相似度,slow(i,j)表示点i与点j在低维空间的相似度,集合edges表示基于k-NN算法生成的邻近点对。UMAP通过最小化高维与低维空间相似度的差异来优化降维效果。降维后,使用 HDBSCAN算法进行聚类分析,该算法通过识别数据点的密度差异和噪声点来提高聚类的准确性及细粒度。主题表示采用C-TF-IDF方法,其通过增强类别内的词频差异来突出主题,公式如下:
(6)
式(6)中,tft,c表示词语t在类别c中的词频,ft表示词语t在所有类别中的总出现次数,N表示每个类别的平均词数,Wt,c表示词语t在类别c中的权重。根据权重排序,选取词语作为类别的主题表示。
2.2.2 主题关联与互动演化研究方法
为揭示科学论文与专利技术之间的主题关联,本研究采用基于语义相似度的关联分析方法。计算论文和专利主题嵌入向量之间的余弦相似度,用以衡量它们在语义空间的接近程度。余弦相似度作为一种常见的相似性度量方法,通过计算两个向量夹角的余弦值来评估它们的方向相似性,具体计算公式如下:
(7)
式(7)中,A·B表示向量A与向量B的点积,计算方法见公式(8)。‖A‖×‖B‖表示向量A与向量B的模的乘积,计算方法见公式(9)。
(8)
(9)
为确保研究结果的准确性,按照两年为单位划分时间切片,并计算不同时间段内论文和专利主题的语义相似度。参考刘春丽等[19]的研究方法,将相似度阈值设为0.8。当相邻时间切片的主题相似度大于0.8时,表明主题关联度较高,反映出科学或技术主题在演化过程中存在向下一个主题转移的趋势。另外,桑基图在呈现复杂信息流动过程中具有直观性和准确性,其被广泛应用于学术研究领域[20-22]。因此,为系统分析论文与专利主题在时间维度上的互动演化路径,本研究基于主题聚类结果与主题相似度构建主题演化网络,节点代表特定时间段的主题,边则表示主题间的相似度关系,通过桑基图对该网络进行可视化分析,进一步结合创新理论,深入探索其内在演化机制。
节能降碳是实现“双碳”目标的核心举措,也是实现美丽中国建设和推动经济社会绿色转型的关键举措。氢能源凭借清洁、低碳和可再生优势,成为能源转型的重点方向之一。我国在《氢能产业发展中长期规划(2021—2035年)》中明确提出氢能在未来国家能源体系中的重要地位,强调其在终端能源使用中的绿色低碳转型作用,并将其视为未来发展的战略性新兴产业。作为氢能应用的重要领域之一,氢燃料电池汽车不仅能减少碳排放,还将在全球交通系统中带来深远变革。氢燃料电池汽车的广泛推广不仅有利于有效应对全球气候变化、促进能源清洁化,还有助于提升国家能源安全,减少对化石燃料的依赖,助力实现人与自然和谐共生。因此,深入开展氢燃料电池汽车领域科学与技术研究,对于加快该领域产业化进程具有重要意义。
本研究选取氢燃料电池汽车领域进行研究,专利技术数据来源于IncoPat专利数据库,科学论文数据来源于Web of Science数据库,检索全球氢燃料电池汽车领域相关专利和论文。根据国家知识产权局发布的《氢能产业技术分类与国际专利分类IPC对照及检索应用》,结合已有研究[23-24],将检索策略表达式确定为(((IPC-LOW=H01M4/86 OR IPC=H01M8*) OR TIABC=("hydrogen fuel cell vehicle" OR HFCV OR "fuel cell vehicle" OR "proton exchange membrane fuel cell vehicle" OR PEMFCV OR "solid oxide fuel cell vehicle" OR SOFCV OR "solid polymer fuel cell vehicle" OR SPFCV OR "alkaline fuel cell vehicle" OR AFCV OR "phosphoric acid fuel cell vehicle" OR PAFCV OR "molten carbonate fuel cell vehicle" OR MCFCV OR "polymer electrolyte fuel cell vehicle" OR PEFCV)) AND (TIABC=(氢燃料 OR 氢能 OR 氢气 OR H2 OR 液氢 OR 固体氢 OR hydrogen)) OR TIABC=(氢 OR 质子交换膜 OR 碱性 OR 磷酸 OR 熔融碳酸盐 OR 固体高分子型 OR 固体氧化物 OR 氢燃料电池 OR 燃料电池电动汽车 OR 氢动力汽车)(2N)(燃料电池 OR 汽车))AD=[20120101 TO 20211231],检索日期为2024年9月2日,检索范围为2012年1月1日—2021年12月31日,经扩展同族合并后得到专利数据单元(包含IPC分类号、摘要、优先权申请等信息)共计32 874条。论文数据单元(包含共引频次、发表时间、摘要等信息)共计4 108条,将其作为研究数据集。编写Python代码,对文本数据进行筛选与剔除空值、去停用词等预处理操作,为主题建模分析奠定基础。
对预处理后的论文和专利摘要进行主题建模。在实验设置阶段,首先利用all-MiniLM-L6-v2模型生成文档嵌入,并基于公式(4)(5)进行UMAP降维。其次,利用HDBSCAN算法进行聚类分析。最后,通过公式(6)计算C-TF-IDF值,以完成主题表示。由于篇幅受限,本文仅抽取部分主题建模结果进行展示。表1列出用于计算2012—2013年专利摘要BERTopic主题模型的关键参数设置。参数值基于已有研究成果[25],并经过多次实验调试和优化得出。
表1 BERTopic主题模型关键参数
Table 1 Key parameters of the BERTopic model
参数 参数内涵 参数值 n_neighbors控制每个数据点局部邻域的大小25n_components降维后的目标维度70metric设定计算数据点间距离的度量标准cosinemin_dist设定数据点之间的最小距离0.04n_epochs设定UMAP优化过程中的迭代次数300learning_rate学习率0.1spread数据点的扩散程度0.8min_cluster_size定义聚类的最小簇大小25min_samples定义每个点在簇中的最小密度阈值3allow_single_cluster定义HDBSCAN是否允许生成单个聚类Falseprediction_data是否允许新的数据点进行聚类预测Truecalculate_probabilities计算每个文档属于不同主题的概率分布True
基于上述预设参数的主题模型,挖掘2012—2013年氢燃料电池汽车领域的41个专利研究主题(Topic0—Topic40)。专利文档主题分布情况如图2所示,各主题所属文档呈现出显著聚类趋势。此外,特征词权重变化趋势分析显示,当特征词数量超过6个后,大多数主题的特征词权重趋于稳定,表明额外的特征词对主题区分的贡献度较小。权重变化趋势结果如图3所示。设定主题特征词的提取数量为6,用topic_model.visualize_barchat()函数生成的部分专利主题特征词结果如图4所示。
图2 专利主题文档可视化分布
Fig.2 Visualization of patent theme document distribution
图3 特征词权重下降趋势
Fig.3 Downward trends of feature word weights
图4 部分专利主题特征词提取结果
Fig.4 Extracted results of feature words from selected patent themes
用topic_model.visualize_hierarchy()函数生成2012—2013年专利主题层次聚类结果,如图5所示。结合层次聚类分析与专利主题特征词,将该时期的41个专利研究主题归纳为五大研究主题:膜技术与电解质材料应用、固体氧化物燃料电池材料与结构设计、燃料供应与能源转化管理技术、氢能生产与存储优化、电极材料创新与高效应用技术。
图5 2012—2013年专利主题层次聚类
Fig.5 Hierarchical clustering of patent themes from 2012 to 2013
3.3.1 主题关联分析
基于BERTopic主题建模结果,对各时间切片主题进行关联性分析。首先,根据层次聚类结果,依次确定其它时期的论文与专利研究主题,如表2所示。其次,基于公式(7)—(9),分别计算表2中论文与专利主题在相同及不同时间切片的语义相似度,并根据计算结果确定关联强度。最后,将余弦相似度的数值以区间形式呈现,从而清晰揭示论文与专利研究主题之间的关联程度,如表3所示。
表2 各时间切片论文与专利研究主题
Table 2 Research themes of papers and patents in different time slices
时间区间论文研究主题专利研究主题2012—2013年Paper#1(氢燃料电池汽车能效提升与排放控制)Paper#2(氢燃料电池能源管理与控制策略优化)Paper#3(氢燃料电池催化剂开发与电化学性能优化)Paper#4(燃料电池膜技术改进与水管理优化)Paper#5(高压储氢与温度调控)Patent#1(膜技术与电解质材料应用)Patent#2(固体氧化物燃料电池材料与结构设计)Patent#3(燃料供应与能源转化管理技术)Patent#4(氢能生产与存储优化)Patent#5(电极材料创新与高效应用技术)2014—2015年Paper#1(氢燃料电池系统与能源管理优化)Paper#2(低排放新能源车辆研究)Paper#3(燃料电池堆与膜材料技术改进)Paper#4(氢气储存与加注系统优化)Paper#5(燃料电池电极与催化剂性能优化)Patent#1(电化学材料与燃料电池技术创新)Patent#2(固体氧化物燃料电池设计与材料创新)Patent#3(氢能生产、存储与系统集成优化)Patent#4(高压储氢与安全管理技术)Patent#5(新能源与混合动力汽车技术集成)2016—2017年Paper#1(氢燃料电池汽车能效提升与排放管理)Paper#2(燃料电池系统能量控制与优化策略)Paper#3(高能效质子交换膜燃料电池研究)Paper#4(高压储氢与燃料管理技术优化)Paper#5(新能源与混合动力系统管理策略)Patent#1(新能源与燃料电池在交通和无人系统中的应用技术)Patent#2(燃料电池能源转换与管理技术)Patent#3(固体氧化物燃料电池材料优化与结构设计)Patent#4(电解质膜创新与应用技术)Patent#5(新型催化剂材料的开发与应用)2018—2019年Paper#1(混合动力系统能源优化与控制技术)Paper#2(氢燃料电池汽车排放控制与成本管理)Paper#3(质子交换膜燃料电池性能提升与耐久性优化)Paper#4(高压氢气储存与温度管理研究)Patent#1(燃料电池材料与储能技术)Patent#2(聚合物电解质膜技术改进)Patent#3(氢能与可再生能源系统集成优化)Patent#4(氢气储存与加注系统技术优化)Patent#5(燃料电池控制与检测技术)Patent#6(燃料电池机械组件与结构优化)2020—2021年Paper#1(质子交换膜燃料电池性能优化)Paper#2(能源系统智能化控制与管理)Paper#3(氢燃料电池汽车能效提升与排放控制)Paper#4(氢气储存安全管理技术)Paper#5(混合动力系统能源管理与优化)Paper#6(可再生能源与氢能系统集成优化)Patent#1(燃料电池核心材料与结构优化)Patent#2(新能源与化学转化技术集成)Patent#3(燃料电池控制与安全管理技术)Patent#4(车辆能源管理与无人系统集成)Patent#5(燃料电池测试与热管理技术)Patent#6(燃料电池堆叠结构优化设计)Patent#7(电动部件与机械结构设计改进)
表3 “论文—专利”研究主题关联度
Table 3 Association degree of 'paper-patent' research themes
时间区间2012—2013年2014—2015年2016—2017年2018—2019年2020—2021年2012—2013年0.42~0.820.38~0.790.35~0.800.41~0.790.37~0.802014—2015年0.50~0.850.45~0.860.43~0.860.46~0.860.44~0.852016—2017年0.46~0.770.40~0.780.34~0.780.46~0.760.38~0.772018—2019年0.37~0.780.37~0.820.32~0.790.40~0.770.36~0.782020—2021年0.38~0.800.35~0.760.31~0.790.39~0.740.39~0.75
注:纵向时间区间表示对应的专利主题,横向时间区间表示对应的论文主题
通过分析表3中的余弦相似值发现,共有17对论文与专利主题的关联度较高(相似度大于0.8)。其中,2014—2015年专利技术研究主题Patent#5与多个时期的科学论文研究主题表现出显著关联性。具体而言,Patent#5与2012—2013年的Paper#1(0.85)和Paper#5(0.82),2014—2015年的Paper#2(0.86)和Paper#4(0.86),2016—2017年的Paper#1(0.86)和Paper#4(0.82),2018—2019年的Paper#2(0.86)和Paper#4(0.83),以及2020—2021年的Paper#3(0.85)、Paper#4(0.81)和Paper#6(0.83)之间均存在紧密联系。这种关联性凸显了氢燃料电池汽车技术跨领域整合趋势,即Patent#5(新能源与混合动力汽车技术集成)并非孤立发展,而是与氢燃料电池汽车能效提升和排放控制、高压储氢和温度调控、可再生能源和氢能系统集成优化等多个领域紧密协同。通过整合多领域创新成果,氢燃料电池汽车技术不断优化系统效率和安全性,实现整体技术的持续提升。此外,Patent#5 与不同时期论文研究主题的关联性揭示氢燃料电池汽车技术的累积性演化特征,即每段时期研究基于前一阶段成果,通过不断解决实际问题并优化系统,逐步推动技术进步。同时,这种高度关联性还反映出氢燃料电池汽车领域研究热点的长期持续性。无论是早期的排放控制、能效提升,还是后期的氢气存储与安全管理等核心问题,各阶段研究均围绕这些关键挑战展开,显示出这些问题具有持久研究价值和现实挑战性。
进一步分析表3发现,论文研究主题与专利研究主题之间的关联度呈逐步下降趋势。数据显示,2012—2015年,论文与专利关联度较高,但随着时间推移逐渐降低,这一趋势揭示氢燃料电池汽车技术从基础研究向应用开发和产业化演进的自然过程。在技术发展早期阶段,科学论文对专利创新具有较强的推动作用,专利与论文的关联度较高;随着技术逐渐成熟,产业化需求开始主导技术创新,专利更依赖于现有技术的优化与整合,科学论文的影响力相应减弱。这一现象反映出在氢燃料电池汽车技术演化过程中,应用创新逐渐占据主导地位,进一步揭示基础研究与应用开发之间复杂、动态的互动关系。
3.3.2 主题互动演化分析
基于上文中的互动演化研究方法,通过绘制论文与专利主题的互动演化趋势(如图6所示),揭示主题随时间变化过程的分裂、吸收与消亡等演化规律。在图6中,“Paper”和“Patent”分别代表论文与专利,括号中第一个数字表示时间切片,第二个数字表示主题序号。例如,Patent(1,1)表示2012—2013年第一个专利主题Patent#1。通过分析各时间切片论文与专利的主题数量及其在演化过程中的吸收、分裂、衰灭和新兴规律,揭示“论文—专利”互动演化的主要类型。
图6 “论文—专利”主题演化趋势
Fig.6 Evolution trend of 'paper-patent' themes
(1)吸收式演化。吸收式演化模式如图7所示。在此种演化模式下,论文与专利研究主题从多个研究方向逐渐聚集吸收演变为新的研究主题,通过整合与优化前期科技成果,从而实现主题的完善与提升。例如,氢气储存与加注技术互动演化研究涉及9个研究主题,展现出吸收式演化特征,通过整合前期研究逐步聚焦于更具综合性的创新领域。2012—2013年,氢燃料电池汽车科学研究主要集中在能效提升、排放控制、高压储氢和温度调控等关键技术环节,同时对氢燃料供应、能源转化管理、氢能源生产和存储优化等问题进行广泛探索,尤其是350 bar与700 bar高压储氢技术及燃料电池堆热管理成为提升氢燃料电池性能的核心研究方向。2014—2015年,科学研究与技术开发的关联度显著增强,氢能生产、存储与系统集成优化、高压储氢与安全管理技术以及新能源与混合动力汽车技术集成广泛吸收与应用前期科研成果。2016—2017年,新能源与燃料电池在交通和无人系统中的应用技术继续从前一阶段研究成果中获益。2018—2019年,氢气存储与加注技术经过前期研究积累与技术演进逐渐成熟,标志着氢燃料电池汽车产业化进程进入新阶段。尤其是700 bar高压储氢瓶和快速加注站技术的突破,大幅度提升了氢燃料电池汽车的实用性和经济性,丰田Mirai和现代Nexo等车型的推出,标志着氢燃料电池汽车商业化进程迈出重要一步。
图7 氢气存储与加注技术主题演化
Fig.7 Theme evolution of hydrogen storage and refueling technology
(2)存续式演化。存续式演化模式如图8所示。在此模式下,某一科学或技术研究主题在发展过程中保持核心框架的稳定性,并基于此框架逐步改进与优化。科学论文或专利技术主题通常表现出较强的独立性与稳定性,反映出主题演化路径的延续性和递进性。例如,燃料电池核心材料与结构优化研究涉及的9个主题均为专利主题,显示出该领域的存续式演化特点,即技术创新在核心框架内稳步推进。在技术研究早期阶段(2012—2013年),研发人员主要聚焦于电化学储能系统中的膜技术与电解质材料应用,尤其是在膜交换、电解质和催化剂层等方面的创新性材料和技术开发。该阶段的主要目标是提升这些核心组件的性能和效率。2014—2015年,相关研究重心逐渐转向电化学材料与燃料电池技术创新,尤其是在质子交换膜、催化剂和电极材料的改进上,旨在提高燃料电池整体性能和耐久性。同时,固体氧化物燃料电池材料创新和结构设计日渐受到重视,标志着该领域技术的持续发展。2016—2017年,燃料电池双极板设计与电解质膜技术取得显著进展,推动氢燃料电池汽车发展。与此同时,新型催化剂材料研发成为研究热点,尤其是在减少对铂等贵金属催化剂依赖的背景下,碳基催化剂与石墨烯复合材料等新材料应用探索成为关键方向。2018—2019年,研发进一步聚焦于提升燃料电池关键材料性能与储能。相比于此前阶段,这一时期的研发尤其关注聚合物电解质膜技术的改进,尤其是在提升膜的导电性、耐化学性及其高温环境下的稳定性方面,以确保燃料电池的可靠性和性能的长期运行。2020—2021年,技术进步不仅体现在材料层面的持续优化上,还反映出行业对可持续性和经济性需求的深刻认知。通过减少贵金属(尤其是铂)的使用,燃料电池的制造成本得以显著降低,为氢燃料电池汽车的广泛市场应用奠定了基础。同时,双极板设计创新和电解质膜材料改进为燃料电池在高效性、可靠性和使用寿命方面提供了坚实的技术基础。这些技术进展不仅推动氢燃料电池汽车产业可持续发展,还为促进能源结构转型和低碳未来发展提供了关键的技术基础。
图8 燃料电池材料与结构设计主题演化
Fig.8 Theme evolution of fuel cell materials and structural design
(3)创设式演化。创设式演化模式如图9所示。这种演化模式以创新和分化为核心,推动新的研究主题不断涌现,进而促进科学与技术的多元化发展。新主题不仅继承了现有研究基础,还通过创新拓展了科学和技术前沿。例如,氢燃料电池汽车能源效率与排放控制研究涵盖23个主题,突显了通过持续创新和分化拓展研究领域的创设式演化特征。2012—2013年,科学研究的重点集中在提升氢燃料电池汽车能源效率与排放控制上,尤其是通过改进燃料电池系统能效来减少碳排放。2014—2015年,低排放新能源车辆研究、氢气存储与加注技术成为学术界研究热点,尤其是在高压储氢技术和加注系统优化方面取得显著进展。此外,新能源与混合动力汽车技术逐渐融合,研究人员开始探讨太阳能、甲醇重整和电动模块与燃料电池混合动力汽车整合,以提升整体系统的可持续性。2016—2017年,科学研究的重心转向减少车辆碳排放及提高氢燃料电池利用效率。高压存氢技术及燃料管理的优化,尤其是在不同温度和压力条件下的调控成为这一阶段的核心课题。与此同时,燃料电池在新型交通工具及无人系统中的应用日益增多,研究领域进一步扩展至氢气生成、微生物电解反应及燃料气体发电等方面,尤其是潜艇等特殊领域应用开始受到更多关注。2018—2019年,科学研究的重点转向混合动力系统能源优化与控制,以进一步降低氢燃料电池汽车排放并优化成本。质子交换膜燃料电池性能提升和耐久性优化成为这一阶段的关键研究方向,尤其是在高压氢气储存和温度管理技术方面取得显著进展。同时,技术研究还聚焦于氢能与可再生能源系统集成优化、氢气储存与加注技术改进以及燃料电池控制与检测系统开发等方面。2020—2021年,质子交换膜燃料电池性能优化、智能控制与能源管理以及氢燃料电池汽车能效提升与排放控制成为研究重点。高压氢气储存安全性与温控问题依然备受关注,混合动力系统能源管理成为研究焦点。技术研究进一步深化了新能源与化学转化技术集成,尤其是在燃料电池热管理及与可再生能源系统协同应用方面取得显著进展。通过这些阶段性发展,氢燃料电池技术在能效、储能安全性以及与可再生能源整合方面取得显著成果,推动清洁交通技术的快速发展。
图9 燃料电池能源效率与排放控制主题演化
Fig.9 Theme evolution of fuel cell energy efficiency and emission control
3.3.3 主题关联与互动演化机制解析
论文与专利作为科学研究与技术开发的重要载体,其主题关联与互动演化揭示知识流动与技术创新的复杂机制。科技创新通常呈现两种演化模式:渐进式创新与颠覆式创新[26]。其中,渐进式创新依托知识积累与经验整合,推动技术持续优化与完善。Griliches[27]指出,科技进步依赖于早期研究积累,通过整合已有知识与经验,持续促进创新。颠覆式创新则通过引入全新的科学技术打破现有格局,实现跨越式发展,并重新定义科技演进路径。Christensen[28]指出,新兴科技通常起源于边缘市场,随着成熟度提升,最终有可能颠覆现有市场格局。本文基于上述创新理论视角,进一步剖析“论文—专利”在科技创新中的驱动作用,具体分析如下:
(1)吸收式演化通过整合前期研究成果与知识外溢效应,推动技术持续改进,呈现出渐进式创新的典型特征。其核心在于论文与专利的双向互动,论文为专利开发提供理论支撑,专利实践反哺基础研究。例如,氢气储存与加注技术从350 bar提升至700 bar的突破,正是论文揭示材料特性与专利实践相结合的成果。这一机制不仅推动单领域技术改进,还通过跨领域知识整合提升技术创新效率。吸收式演化在知识积累与流动中形成渐进性改进,为多学科协同与技术整合提供理论支持,体现了渐进式创新从细化知识到优化路径的内在逻辑。
(2)存续式演化聚焦于现有科学或技术框架的局部优化,体现了渐进式创新的延续形式。通过论文揭示细节问题或通过专利提出解决方案,有利于提升技术市场竞争力与可行性。例如,燃料电池催化剂与电极材料的持续优化显著提升了燃料电池效率与耐久性,同时还增强了技术的稳定性与经济性。存续式演化在核心框架稳定的基础上不断优化细节,为实验室技术向产业化转化提供了坚实支撑,展现了渐进式创新从细节优化到规模化应用的路径逻辑。
(3)创设式演化通过探索全新的科学技术路径,为颠覆式创新提供动力。与吸收式和存续式演化不同,创设式演化注重从根本上突破现有技术框架。例如,在燃料电池能源效率与排放控制领域,通过论文可构建新型燃料电池架构理论模型,通过专利多元化技术实践则能分化并催生出新的研究主题。这一演化模式重塑了技术路径,不仅推动技术跨越式发展,还拓展了行业边界,为未来技术创新注入新动能。
本文围绕氢燃料电池汽车领域“论文—专利”主题关联与互动演化规律展开研究,得出以下研究结论:
(1)通过分析不同时间切片间“论文与专利”主题的语义相似度,发现17对强关联性主题,表明科学与技术协同推动技术领域累积与演化。
(2)“论文与专利”关联度随时间推移逐渐减弱,反映出氢燃料电池汽车从基础研究向技术应用的转型过程,研究重心逐步由理论探索转向实践开发,其中应用创新成为主要驱动力。
(3)论文与专利主题在横向时间切片上的关联度变化揭示吸收式、存续式和创设式演化3种互动演化机制。
(4)从科学技术创新视角剖析主题关联与互动演化机制,加深了对技术演化多样性及创新驱动因素的理解。
本文选取特定技术领域,运用BERTopic主题建模和语义相似度分析等方法,构建以“研究领域选定→主题模型设计→实证研究分析”为主线的系统分析框架,理论贡献主要体现在以下几个方面:
(1)该框架能够高效识别不同知识来源之间的内在关联,揭示科学研究与技术应用之间的互动逻辑,为相关领域的深入探索提供坚实的理论支撑。
(2)通过系统分析主题演变过程中的动态变化,该框架不仅能为学术界提供科学的研究支撑,也能为新兴技术检测、评估与发展规划提供理论依据和实践指导,并为产业界技术决策与创新发展提供切实可行的参考,助力推动技术应用的持续创新和优化。
(3)通过模块化设计增强框架的通用性与迁移价值。该框架不仅适用于单一技术领域,还可广泛应用于其它行业及跨学科交叉领域研究。其灵活性和普遍适用性为未来研究提供了系统化、标准化的分析方法,能够有效推动技术创新与应用研究的深入发展,并为其它领域研究提供借鉴。
吸收式、存续式和创设式演化机制在氢燃料电池汽车技术进步过程中起关键作用,推动从局部优化到全面突破的多层次技术演化。这一演化过程不仅揭示了论文与专利之间的互动关系,也为跨领域技术融合与创新战略优化提供了重要启示。本研究对于科技管理策略的制定具有以下几点启示:
(1)吸收式演化通过整合前期研究成果与知识外溢效应,推动技术持续改进。这表明,科技管理应注重知识流动与机制整合。具体而言,应强化科研机构与企业之间的合作,推动技术深度开发和成果转化。政府与行业管理者应积极鼓励和支持这种跨界合作,以加速技术从理论研究到实际应用的转化。同时,还应推动科研成果跨学科整合和多元化应用。为此,应着力建设开放创新平台,促进各类创新主体之间有效协同,推动科技成果快速落地与应用。
(2)存续式演化强调技术框架的稳定性和局部优化,提示科技管理策略应关注技术发展的延续性与递进性。在技术长期发展过程中,应保持对关键技术的持续投入,并制定明确的长期规划。管理者应确保技术框架的稳定性,避免技术方向的频繁调整与碎片化,同时推动技术逐步优化与完善。此外,标准化的推进不仅有助于提升技术适用性和市场竞争力,还能促进产业链上下游协同发展。通过加强行业标准的制定与推广,可提升整体技术水平与产业国际竞争力。
(3)创设式演化以创新与分化为核心,推动新主题的涌现,强调颠覆性创新对技术进步的关键作用。这一机制提示科技管理者应加大对前沿技术和颠覆性创新的支持力度。具体而言,政府和相关管理机构应设立专项基金,资助前沿领域研究项目。此外,跨学科合作与知识融合应成为科技管理的重要方向,管理者应推动不同学科之间的协同与融合,促进知识跨界整合,进而形成新的技术路径。进一步地,通过加强技术预测和潜在技术识别,决策者能够在技术发展早期阶段进行预见性布局,为新兴技术的迅速崛起提供科学依据和资金支持,从而有效引导和加速颠覆性技术的创新与应用。
本研究存在如下不足:①分析方法主要侧重于氢燃料电池汽车领域,结果精度依赖于模型质量,不同行业技术特性对参数设置提出较高要求;②BERTopic主题建模的无监督特性限制了传统可靠性检验方法的适用性。未来应进一步优化算法细节,提升框架的跨领域迁移效果,并结合定量与定性研究,系统探讨如何通过政策激励、资源配置等方式协调吸收式演化、存续式演化和创设式演化3种互动演化机制,以期为科技成果转化提供多元化路径。
[1] MOED H F,GLNZEL W,SCHMOCH U.Handbook of quantitative science and technology research:the use of publications and patent statistics in studies of S&T systems[M].Dordrecht:Kluwer Academic Publisher,2004.
[2] AHMADPOOR M,JONES B F.The dual frontier:patented inventions and prior scientific advance[J].Science,2017,357(6351):583-587.
[3] CHEN X,MAO J,LI G.A co-citation approach to the analysis on the interaction between scientific and technological knowledge[J].Journal of Informetrics,2024,18(3):101548.
[4] 宁子晨,魏来.专利主体视角下专利文献与学术论文关联关系发现研究——以“数据挖掘”主题为例[J].图书情报工作,2020,64(12):106-117.
[5] CHEN L X.Do patent citations indicate knowledge linkage? the evidence from text similarities between patents and their citations[J].Journal of Informetrics,2017,11(1):63-79.
[6] 张凯,吕璐成,韩涛,等.“论文—专利”关联视角下的新兴技术识别研究[J].情报理论与实践,2024,47(9):183-191.
[7] 唐露源,谢士尧,徐源.知识演化视角下论文与专利的热点技术方法对比分析——以人工智能自然语言处理领域为例[J].科技管理研究,2024,44(10):153-160.
[8] FERREIRA R B,PARREIRA M R,NABOUT J C.Is there concordance between science and technology in natural science? mapping the relationship among number of papers and patents from research on Cerrado plants[J].World Patent Information,2022,69:102108.
[9] 冉从敬,田文芳,贾志轩.基于混合方法的“科学论文—专利技术”关联关系模型构建——以生物医药领域为例[J].情报科学,2024,42(6):132-143.
[10] PORA U,GERDSRI N,THAWESAENGKULTHAI N,et al.Data-driven roadmapping (DDRM):approach and case demonstration[J].IEEE Transactions on Engineering Management,2020,69(1):209-227.
[11] GLASER B,STRAUSS A.Discovery of grounded theory:strategies for qualitative research[M].New York:Routledge,2017.
[12] KRIPPENDORFF K.Content analysis:an introduction to its methodology[M].California:SAGE Publications,2018.
[13] SALTON G,WONG A,YANG C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.
[14] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[15] ZHANG H,DAIM T,ZHANG Y P.Integrating patent analysis into technology roadmapping:a latent Dirichlet allocation based technology assessment and roadmapping in the field of Blockchain[J].Technological Forecasting and Social Change,2021,167:120729.
[16] 寇园园,陈会英,徐华杰,等.海外跨国公司在华人工智能专利布局及竞争态势研究[J].情报杂志,2022,41(9):48-54.
[17] 胡泽文,王梦雅,韩雅蓉.基于LDA2Vec-BERT的新兴技术主题多维指标识别与演化分析研究——以颠覆性技术领域:区块链为例[J].现代情报,2024,44(9):42-58.
[18] 席笑文,郭颖,宋欣娜,等.基于word2vec与LDA主题模型的技术相似性可视化研究[J].情报学报,2021,40(9):974-983.
[19] 刘春丽,臧东宇,陈爽.科学—技术—产业关联测度与主题演化规律研究——以生物医药领域为例[J].图书情报工作,2024,68(14):95-116.
[20] 张玲,恽诚涛,尹思力,等.我国科研诚信政策与文献主题演化对比分析[J].现代情报,2023,43(6):108-120.
[21] 苏婉,于森,禚传阳.我国数据要素政策主题演化与识别分析[J].图书情报工作,2024,68(16):90-103.
[22] 马海群,崔文波,张涛.我国数据安全政策文本主题挖掘及其演化分析[J].现代情报,2024,44(8):28-38.
[23] 慎金花,王薇,张更平,等.基于动态主题网络的新兴技术主题识别——以氢燃料电池领域为例[J].情报杂志,2024,43(9):92-100.
[24] 李昌,吴红,伊惠芳,等.基于改进LDA主题模型的中日美氢能产业链技术布局研究[J].情报杂志,2019,38(7):78-84,110.
[25] 杨思洛,于永浩.基于BERTopic模型的国内信息资源管理研究主题挖掘与演化分析[J].情报科学,2024,42(8):12-21.
[26] 李玉花,李丹丹.企业数字化程度促进双元创新了吗——基于知识多样性视角分析[J].商业研究,2024,67(3):125-133.
[27] GRILICHES Z.The search for R&D spillovers[J].The Scandinavian Journal of Economics,1992,94:29-47.
[28] CHRISTENSEN C M.The innovator's dilemma:when new technologies cause great firms to fail[M].Boston:Harvard Business Review Press,2015.