基于隐含狄利克雷分配模型的企业创新测量方法研究

叶琴1,蔡建峰1,张秋韵2

(1.西北工业大学管理学院;2.西北工业大学计算机学院,陕西西安 710129)

摘要：如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利克雷分配主题模型,开发一种新的测量企业创新的方法,并与当前主流方法进行比较。研究发现:①基于文本的企业创新测量方法既适用于专利和研发企业,也适用于非专利和非研发企业;②对于专利和研发企业而言,基于文本的企业创新与企业专利申请和研发支出显著相关;对于非专利和非研发企业而言,新测量方法能够有效识别企业利用新技术、开辟新市场等创新实践;③时间序列分析表明,基于文本分析的企业创新能够准确反映样本区间企业创新活动宏观趋势。

关键词：隐含狄利克雷分配模型;企业创新;文本分析;主题模型;分析师报告

Measuring Corporate Innovation Based on LDA Topic Model

Ye Qin1,Cai Jianfeng1,Zhang Qiuyun2

(1.School of Management, Northwestern Polytechnical University;2.School of Computer Science, Northwestern Polytechnical University, Xi′an 710129, China)

Abstract：The Chinese government firmly adheres to the path of independent innovation with Chinese characteristics and implement an innovation-driven development strategy. As the main body of innovation, enterprises play a pivotal role in promoting national innovation and transformation, therefore the research on corporate innovation has received extensive attention from the academic community. Scholars have carried out a variety of theoretical and empirical studies around corporate innovation and have obtained some remarkable achievements. However, the important issue of how to accurately measure corporate innovation waits to be addressed. This problem is challenging for both the academic circles and the industrial field especially under the background of the national innovation-driven development strategy in China. The current mainstream proxy indicators of corporate innovation, such as numbers of patents and research and development (R&D) expenditures, have recently been criticized since they can only reflect some aspects of corporate innovation, while ignoring other vital parts of corporate innovation activities. Wherefore this paper tries to develop a new method to comprehensively and accurately measure corporate innovation based on text analysis using the natural language processing technique and machine learning algorithms.

This research introduces the unsupervised learning method in the field of machine learning and develops a new method of measuring corporate innovation by constructing the Latent Dirichlet Allocation (LDA) topic model based on the text of analyst reports of listed companies. The textual content of analyst reports covers both the objective description and professional evaluation on various aspects of corporate innovation, such as product innovation, process innovation, market innovation, supply source innovation and so on. Besides, it has similar characteristics in terms of text structure and wording, which lays a good foundation for the use of LDA topic modeling method. To start with, Python3.8 is applied to write a program to automatically download all the analyst reports issued for China′s A-share listed companies from 2010 to 2019 from Hexun Finance Website, Sina Finance Website and Wind Financial Terminal. A total of 201 569 analyst reports are obtained. After a series of data cleaning, The study gets 47 563 samples which are used as a corpus to train the LDA topic model, identify the corporate innovation topic, calculate the load intensity of each analyst report on the corporate innovation topic, and extract the corporate innovation topic load intensity as text-based corporate innovation, since the load intensity reflects the extent to which the analyst report describes the corporate with innovation topic reflecting the corporate′s innovation practice. The text-based corporate innovation by the new method is compared with commonly used proxy indicators of corporate innovation.

This study finds that the text-based corporate innovation measurement method is applicable to companies with and without patents as well as R&D expenditures. For firms with patents, text-based corporate innovation is significantly related to patent applications. While for firms without patents, the new measurement method can effectively identify the innovative practices including but not limited to using new technologies and entering new markets. The same goes for firms with and without R&D expenditures. For firms with R&D expenditures, text-based corporate innovation is significantly related to R&D expenditures, while for firms without R&D expenditures, text-based corporate innovation can efficiently capture corporate innovation activities. The time series analysis shows that the text-based corporate innovation effectively reflects the macro trend of corporate innovation during the sample period.

This research is of theoretical and practical significance for it not only systematically clarifies the traditional incomplete and inaccurate proxy indicators of corporate innovation, but also figures out a new method of measuring corporate innovation based on the text analysis of analyst reports. It further broadens the application of text big data in the field of management and organization studies, and contributes to the application of textual data in the field of management and organization research.

Key Words：Latent Dirichlet Allocation Model; Corporate Innovation; Text Analysis; Topic Modeling; Analyst Report

DOI：10.6049/kjjbydc.2022040376

开放科学(资源服务)标识码(OSID)： OSID

中图分类号：F273.1

文献标识码：A

文章编号：1001-7348(2024)02-0090-09

收稿日期：2022-04-17

修回日期：2022-08-25

基金项目：国家社会科学基金重大项目(18ZDA103);国家社会科学基金一般项目(21BGL012)

作者简介：叶琴(1989-),女,江西抚州人,西北工业大学管理学院博士研究生,研究方向为创新管理、非市场化战略;蔡建峰(1964-),男,山东平原人,博士,西北工业大学管理学院教授、博士生导师,研究方向为技术创新管理、战略管理;张秋韵(1997-),女,陕西西安人,西北工业大学计算机学院博士研究生,研究方向为深度神经网络、机器学习。

0 引言

企业是创新的重要主体,准确测量企业创新是国家出台相关政策激励企业创新的基本前提。学术界围绕企业创新测量开展了广泛研究,现有文献主要采用专利数量、研发支出、新产品数量、新产品销售额占比等指标测度企业创新,还有部分研究运用问卷调研法,通过与竞争对手在产品创新和工艺创新等方面的比较测度企业创新。一方面,专利数量、研发支出等指标与企业创新构念内涵契合度不高;另一方面,利用问卷调研法获取企业创新评价数据,容易受被调查者心理偏差的影响。因此,已有企业创新测量方法并不能客观、有效反映企业创新实践[1],尤其是将专利数量和研发支出作为常用指标无法有效测度企业创新。世界知识产权报告显示,2019年我国发明专利申请量超过美国、日本、韩国和欧洲专利局总和,实用新型专利和外观设计专利申请量分别占全球总量的96.9%和52.3%,全年研发经费22 143.6亿元,位居世界第二。专利申请数量和研发经费投入均位居世界前列,与我国创新实力与发达国家相比仍存在较大差距的客观现实形成反差,说明专利数量和研发支出并不能有效反映企业创新实力[2]。此外,现代创新理论奠基者约瑟夫·熊彼特指出,企业创新包括生产新产品、采用新生产方法、开辟新市场、获得新供应来源以及建立新组织形式5个方面。新产品数量和新产品销售额占比等代理指标主要反映产品创新,忽略了企业创新的其它方面。因此,如何准确、有效测度企业创新成为当前社会各界亟待解决的关键问题。

得益于自然语言处理技术和机器学习算法的发展,非结构化文本大数据为企业创新测量提供了新视角。自然语言处理领域经典的隐含狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型将每篇文档看作是一个词频向量,将文本信息转化为易于建模的数值信息[3],以无监督的机器学习方式对文本语料库隐含的语义结构进行聚类分析并生成潜在主题,可对大规模语料潜藏主题信息进行有效识别,已广泛应用于文本主题挖掘研究[4]。本文借鉴前人研究成果,将LDA主题模型引入企业创新测量研究,以金融分析师的研究报告(简称分析师报告)为语料,利用LDA主题建模工具构建基于文本分析的企业创新测度模型,以解决传统企业创新测量不够全面和客观的问题。分析师报告文本内容不仅涵盖分析师对企业产品创新、流程创新、市场创新、供应来源创新、组织创新的客观描述和专业评价,对于全面理解和准确把握企业创新信息具有显著价值[5],而且在文本结构和用词等方面也具有相似特征,为LDA主题建模方法的使用奠定了良好基础。因此,本研究利用LDA主题模型对分析师报告语料进行文本分析,识别企业创新主题,提取每份分析师报告关于企业创新主题的负载强度,将其作为测量企业创新水平的代理指标,以全面、客观地反映企业创新实践。

本文主要贡献在于:①提供一种新的企业创新测量方法。基于文本分析的企业创新测量包含非专利创新,这是目前利用专利测量企业创新的重大局限,而本文创新测度不依赖专利和研发支出数据,能够测度没有专利和研发的企业;②进一步拓宽文本大数据在企业管理研究中的应用。文本大数据已被广泛用于测度投资者情绪和媒体关注度,本研究运用文本大数据刻画企业创新,可丰富文本大数据应用于企业创新研究;③对分析师行为研究进行有益补充。已有文献主要关注分析师报告的定量信息(分析师预测、分析师覆盖)对投资者和企业创新的影响,忽略了文字内容,不利于全面认识分析师行为。

1 文献回顾

1.1 企业创新内涵与测量

经济学家熊彼特揭开创新理论研究的序幕,提出创新是建立新的生产函数,引进或重组生产要素或生产条件,创新的目的在于谋求潜在经济利益[6]。随后,熊彼特进一步指出,创新包括生产新产品、采用新生产方法、开辟新市场、获得新原料或半成品新供应来源以及建立新组织形式。创新概念被提出后,学者从不同视角对企业创新进行分析,主要包括过程观和结果观两种视角。秉持过程观视角的研究认为,企业创新本质上是一个过程。Nelson &Winter(1977)将企业创新定义为企业产生、采纳和应用新思想、新活动的过程;国内学者陈劲和陈钰芬(2006)指出,企业创新是新思想从产生、研究、开发、制造到商品化的全过程。秉持结果观视角的学者把企业创新视为创造新的结果,结果形式可以多种多样,如产品创新、服务创新、市场创新、流程创新、商业模式创新等[7]。本文采纳Crossan &Apaydin(2010)的观点,认为企业创新既是一个过程也是一种结果,是企业对经济和社会领域中新价值生产、采纳、同化和应用的过程,包含更新或扩大产品、服务和市场,发展新生产方法以及建立新管理体系。

对于企业创新的测量,学术界尚未形成共识。现有文献基于研究目的和研究视角不同,采用多种研究方法测度企业创新。总体来看,企业创新测量方法可归纳为3类:①根据数据收集方式,包括主观测量法和客观测量法;②按照测量指标选取,包括过程类指标和结果类指标;③根据测量内容,包括专利测量法、新产品测量法和研发投入测量法。

(1)从数据来源看,企业创新测量方法包括主观测量法和客观测量法两种。主观测量法以量表形式,通过问卷调研获取被调查者对企业创新的主观评价等相关数据。如与竞争对手相比,企业在产品创新、工艺创新、市场创新、管理创新等方面的表现[8]。客观测量法则利用上市公司数据、企业专利数据、企业调查数据、权威机构以及公开出版物数据等二手数据客观测量企业创新,包括专利数量、企业研发支出等[9]。主观测量法和客观测量法各有优劣,主观测量法能够较好地契合企业创新构念,但容易受被调查者心理偏差的影响。客观测量法虽然具有可靠性、可复制性等优点,但往往难以很好地契合企业创新构念。

(2)从测量指标看,企业创新测量指标主要包括过程类指标和结果类指标。其中,过程类指标主要测量企业创新过程,如研发人员与生产部门交流频率、企业运用新技术的速度和水平、管理方法改进速度、机器设备领先程度等[10]。然而,许多学者认为专利、新产品等企业创新结果更能体现企业创新水平,代表性结果类指标包括专利申请数、专利增长率、专利申请数与研发投入比、新产品数量、新产品销售额、新产品销售额占比等[11]。

(3)从测量内容看,企业创新测量方法主要包括专利测量法、新产品测量法和研发投入测量法。其中,专利测量法以企业专利数据为依据测度企业创新水平,是企业创新研究领域主流测量方法之一。企业创新相关文献围绕专利展开了丰富研究,主要指标包括专利申请数量、专利授权数量、专利引证数、专利被引数、专利存续期、专利权利要求数、专利技术分类号数、专利转让次数等[12]。新产品测量法以新产品指标测量企业创新实践,是企业创新测量的另一种主流方法。新产品销售额、利润率、市场占有率等财务指标和新产品数量、质量、开发速度、开发成功率等非财务指标也常被用于测量企业创新[13]。研发投入测量法相关研究认为,研发投入是表征企业创新的重要指标[14],研发投入有绝对投入和相对投入之分。典型的绝对研发投入指标包括企业研发人员数、企业研发支出额等,相对投入指标包括企业研发人员数占员工总量的比重、研发支出占企业总资产或营业收入的比重等[15]。

1.2 文本分析在经管领域的研究进展

自然语言处理作为人工智能的重要分支,越来越广泛地应用于各个领域。在经管研究领域,学者习惯称其为文本分析[16]。文本分析技术发展使来源多样、体量庞大、时频高的文本大数据在经管领域的应用方兴未艾[3]。其中,最具有代表性的是Baker等[17]采用新闻文本数据构建EPU指数,用以度量经济政策不确定性。EPU指数得到学术界普遍认可,国内外许多文献研究EPU指数与其它变量之间的关系,尤其是对企业经营管理活动的影响[18]。另一个典型指标是基于上市公司定期报告、业绩说明会和招股说明书等文本大数据提取文本情绪,从而构建管理层语调[19]。林煜恩等[20]使用2008—2017年中国A股上市企业财务报告文本数据研究管理层语调与企业创新之间的关系,发现管理层语调正向影响企业创新。除语调外,文本可读性或复杂性也是文本大数据的常用变量。例如,Li[21]根据文本平均词语长度和复杂词语所占比重度量年报可读性,证实年报可读性与企业盈利水平正相关;孟庆斌等[22]利用上市企业年报中管理层讨论与分析部分常用汉字词语占比测量文本可读性。此外,文本分析技术还用于预测经济周期、度量媒体报道、刻画媒体关注度等[23]。

1.3 主题模型相关研究

主题模型以非监督学习方式对目标文集的隐含语义结构进行聚类分析,将每篇文档看作是一个词频向量,并将文本信息转化为易于建模的数字信息[24]。主题模型的一个潜在假设是每篇文档都由一组固定的主题生成,其中主题是字和词的一种概率分布。主题模型早期思想来源于潜在语义索引(Latent Semantic Indexing, LSI)模型提出的潜在语义空间[25]。随后,Hofmann等[26]提出概率潜在语义索引模型(Probabilistic LSI, PLSI);在此基础上,Blei等[27]提出隐含狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型,弥补了PLSI模型不是完整文档生成模型的不足。LDA主题模型是一个三层贝叶斯概率模型,包含词、主题和文档3层结构,使用Dirichlet分布作为主题分布信息的先验知识。LDA主题模型可利用概率模型学习文本数据的潜在语义结构,因此常被用于文本挖掘。Thorsrud[23]使用LDA主题模型,从挪威商业新闻数据中提取80个主题,并据此构建日度经济周期指数;Hansen &McMahon[28]采用LDA主题模型,从联邦公开市场委员会讨论中提取与当前经济状态相关的5个主题;Hansen等[29]利用LDA主题模型提取相关信息,研究央行政策沟通透明度对货币政策制定者商议过程的影响;曹丽娜和唐锡晋[4]以天涯杂谈首发帖为数据来源,将主题模型引入BBS内容分析领域,研究BBS话题演化趋势;王博等(2015)运用LDA主题模型对专利内容主题进行划分,探究专利主题与机构之间的内在联系;国显达等(2020)基于LDA主题模型获取在线评论主题分布。

本文通过梳理相关文献发现,传统企业创新代理指标主要源自企业财务数据。这些数据单独使用可以反映企业创新的某个方面,但如何综合运用这些数据全面刻画企业创新,以便解决单一指标所引发的测量偏误至今仍是一个难题。与此同时,这些结构化数据可能会导致分析人员遗漏企业创新信息,如管理层关注重点、企业创新活动关键环节等。基于文本大数据,利用LDA主题模型等自然语言处理技术测度企业创新能够全面反映企业创新情境。因此,重新定义企业创新度量方式对于理解我国企业创新实践具有重要理论价值和实践意义。

2 数据与模型

2.1 数据来源与样本选取

上市公司定期报告和招股说明书等文本资料已广泛应用于构建企业层面变量,但企业自我披露文本经过官方语言加工修饰,往往存在较大的主观性。新闻媒体报道虽然能够满足客观性要求,但在文本结构和用词方面却存在较大差异,难以挖掘企业创新活动真实信息。分析师报告作为第三方文本数据在满足客观性和专业性的同时,兼具文本结构和用词相似的特点,适合文本分析方法。此外,已有研究表明,分析师报告文本内容包含企业产品创新、市场创新、组织创新等企业创新实践。因此,本研究使用分析师报告文本大数据挖掘企业创新活动。首先,利用Python软件编程从和讯财经网、新浪财经网、Wind金融终端下载2010—2019年我国A股上市公司发布的分析师报告,共获得201 569份分析师报告。在此基础上,按照以下步骤进行筛选:①剔除重复样本;②剔除同时跟踪多家上市公司的分析师报告;③剔除字符数少于195(第二百分位数)的分析师报告;④剔除在样本期内存在ST、*ST等异常状态的上市公司分析师报告;⑤为保证每个企业样本数据的完整性,剔除2010年以后上市以及样本期内数据不全、存在异常值和缺失值的样本,最终得到47 563个观测样本,包括2010-2019年372家A股制造业上市公司。

2.2 LDA主题模型

传统企业创新测量方法难以全面客观反映企业创新实践,机器学习和自然语言处理技术的快速发展为基于非结构化文本大数据的企业创新测量带来希望。在经管研究领域,非结构化文本已被广泛用于分析管理层语调、年报信息等[30],分析方法主要包括词频分析和主题模型。词频分析通过构建关键词词典识别文本中特定词汇含量以测度某概念的特征强度,主题模型则通过主题建模识别文本包含的主题信息和主题负载强度。由于词频分析方法过于依赖关键词词典的精准构建,因此本研究使用经典LDA主题模型识别企业创新主题,并在此基础上提取创新主题负载强度,用以测度企业创新。

LDA主题模型采用词袋法将文档转化为词频向量,从而实现复杂文本信息到易于建模的数字信息的转化。LDA主题模型的基本思想是将每个文档转化为多项式分布话题,再将每个话题转化为多项式分布词语,且当文档—话题分布和话题—词语分布具有共轭的Dirichlet分布时,可基于文档集通过统计抽样方法估计未知参数。在LDA模型中,给定一个由M篇文档组成的语料库,文档记为di,文档di有Ndi个词语,wij表示文档di的第j个词语,假设语料库中存在K个主题,生成文档di的词语wij的具体过程如下:首先,从Dirichlet分布α中抽样生成文档di的主题分布θi,i=1,2,3,…,M;其次,从Dirichlet分布β中抽样得到主题k的词语分布φk,k=1,2,3,…,K;再次,从主题分布θi中抽样得到文档di的第j个词语的主题kij,j=1,2,3,…,Ndi;接着,从主题kij对应的词语分布Φkij中抽取词语wij;最后,重复上述步骤Ndi次。所有变量的联合分布可表示为:其中i∈[1,M],j∈[1,Ndi],k∈[1,K],词语wij是模型中唯一的可观测变量,通过Gibss抽样法对LDA模型中的参数进行估计,从而得到每个文档的主题分布θi和每个主题对应的词语分布φk。

根据Blei等[27]的研究,当拟合一个LDA主题模型时,研究者只需要制定主题总数K,程序从文档语料库中生成两个结果:①在文档中常见的K个主题的词频分布;②每个文档的主题分布。对于每个文档,主题分布是一个负载向量,它描述了主题在特定文档中的使用强度。该方法表明,如果文档对特定主题具有较高负载强度,说明它很有可能与该主题相关联。

结合本文研究实际,LDA主题模型能够发现分析师报告语料库中的一组主题和每个主题的词频分布,这些主题描述了单词组在分析师报告中的分布经验,训练好的LDA主题模型可以计算每份分析师报告在每个主题的负载强度。通过分析主题词频分布识别企业创新主题,创新主题负载强度可以解释一份分析师报告在多大程度上能用创新描述[5],为此提取企业创新主题负载强度测量企业创新水平。

3 模型应用与结果分析

在利用LDA主题建模工具将分析师报告解析为创新主题前,需要充分考虑分析师报告的信息属性和分析师撰写研究报告的激励因素。已有研究表明,分析师报告文本包含企业价值活动信息,创新作为企业价值活动最重要的组成部分,分析师报告文字描述能够提供与企业创新相关的见解[31]。表1摘录的部分分析师报告文本从直观上可以反映分析师对企业创新活动的定性描述。通过简单梳理文献发现,分析师报告文本能够捕获专利以外的企业创新活动。

表1 基于文本分析的企业创新得分高的分析师报告文本摘录
Table 1 High-scored text-based corporate innovation: excerpts from selected analyst reports

分类企业名称报告日期分析师报告摘要非专利组湘鄂情2010-11-11公司具有从发掘原料开始的自上而下的自主研发机制,由行政总厨和各菜系总厨进行实地考察,在全国各地开发新原始材料,再结合当地口味研究最佳烹调方法,从而保证湘鄂情特色。每年进行菜肴创新、创作比赛。此外,公司湘、鄂、粤三大菜系厨房独立核算和运营,通过各菜系厨房间的竞争,保证菜品能够不断推陈出新。在不断创新与淘汰中,形成公司当前300余道常年提供的湘鄂情特色招牌菜永辉超市2017-12-14业务扩张叠加科技转型,中长期商超龙头地位巩固。永辉先后引入京东、腾讯作为战略投资者,并加大力度投入永辉云创(超级物种&永辉生活)、永辉云商(彩食鲜中央厨房)等供应链创新,致力于打造国内领先的科技型零售企业。伴随着智慧中台建设以及与腾讯等互联网公司的战略合作,公司核心供应链增强对外赋能输出能力,有望进入科技红利释放期中百集团2018-01-25创新改革持续推进,业绩有望环比提升。推进减品瘦身和新品引进,加大与永辉的联合直采。积极探索“合伙人”制度,加大合伙经营改革力度。持续探索中百罗森便利店及无人便利店等新业务,打开增量市场。在原有业务改造的基础上,公司持续探索新的成长性业态,与罗森合作开展便利店业务。在东湖绿道增设第一家以自动售货机为主要技术的无人便利店――中百好邦E购。中百无人便利微超“E百购”新店在关山城市广场开业专利组同方国芯2015-08-16与清华微电子所成立动态可重构可编程逻辑器件联合研究中心。“动态可重构可编程逻辑器件”是公司当前FPGA产品更新的一种形式。该联合研究中心致力于突破动态可重构可编程逻辑器件软硬件关键技术,使公司在该领域占据国际领先技术地位。本次合作有助于巩固公司在国内可编程器件相关领域技术和产品研制领先地位,争取进入下一代动态可编程逻辑器件领域国际领先行列海特高新2015-10-14“某型发动机工程”荣获中华人民共和国工业和信息化部“国防科学技术进步奖”一等奖。本次项目获奖是公司不断追求技术创新的成果,是公司具备高等级技术创新能力的体现。公司航空新技术研发制造业务板块已形成产品量产、多种新型号在研、多个项目预研全面推进的良好局面浪潮信息2016-12-28天梭M13是我国自主研制的在线交易处理性能最强的单机服务器系统。该系统是公司继成功研发天梭K1主机后在高端服务器领域的又一重大技术突破,使我国成为继美日之后,全球第三个掌握最高端主机核心技术的国家。天梭M13发布后,公司高端服务器产品将形成从入门级、主力产品到最高端产品完整的关键业务计算布局。此外,公司拥有AS18000高端存储、K-DB数据库以及全系列关键应用主机,是国内唯一一家具有软硬一体化关键计算方案提供能力的企业

总之,分析师报告定性描述企业创新活动是本研究对分析师报告进行文本分析的前提。除包含与创新相关的企业价值活动信息外,与媒体报道和公司自我披露等文本大数据相比,分析师报告在用词和文本结构等方面具有相似性特征。鉴于LDA主题建模方法假设每份分析师报告均基于一组共同的潜在主题构建,因此分析师报告为LDA主题建模方法的使用奠定了良好基础。

3.1 基于LDA主题模型的企业创新测度

为对企业创新进行测度,本研究使用47 563份分析师报告作为基础文档语料估计一个K个主题的LDA模型。虽然主题数量是拟合LDA模型的唯一自由度,但已有LDA研究并没有提供如何选择适当的主题数量。因此,本文参考前人研究[32],通过最大化似然函数获得最优主题数量。最终,得出K=5是符合分析师报告上下文的最佳主题数。为准确获取创新主题,以陈劲和郑刚[33]编著的创新管理领域的权威教科书《创新管理:赢得持续竞争优势(第三版)》为基准,选择与该书词语分布相似度最高的主题。具体而言,计算每个主题词语分布与基准文本的余弦相似度(Cosine Similarity)和杰卡德相似度(Jaccard Similarity),选择余弦相似度和杰卡德相似度最高的主题,使用该主题分布代替基准教科书中词语分布的预期信息损失最小,相当于选择关于基准教科书信息最丰富的主题。

另外,本文考虑文本情绪对企业创新的影响,如果一份分析师报告对某企业持负面态度,那么其对创新话题的强烈关注不太可能反映企业创新。为此,将样本限定在那些积极情绪得分前75%的分析师报告。分析师报告的积极情绪得分基于Loughran &McDonald[34]提出的商业领域情感词典,通过Python软件中的jieba模块对分词和停用词进行过滤,根据公式进行计算,记为变量pos_senti。其中,P表示正面词语数量(Positive Words),N表示负面词语数量(Negative Words),T表示该分析师报告的词语总数(Total Words)。pos_senti的平均值为0.047 8,下四分位数为0.027 6,中位数为0.047 7,上四分位数为0.068 5,其分布情况如图1所示。本研究将积极情绪得分低于下四分位数分析师报告的创新主题负载强度记为0。然后,将分析师报告层面创新主题负载强度聚合到企业年度层面(firm-year level),利用LDA主题建模衡量企业创新数值,记为变量innov_text。

图1 分析师报告积极情绪得分分布
Fig.1 The pos_senti distribution of analyst reports

3.2 结果分析

创新主题与描述企业创新的因素密切相关。图2以词云图的形式展示创新主题词语分布。撰写创新这个话题时,分析师最常用的词语是领域、技术、发展、国内、智能、研发、平台、服务、合作、布局。除直观考察上下文用词外,本文还计算分析师报告的pos_senti和innov_text相关系数仅为0.032 5,表明基于文本的企业创新不太可能反映企业收益的积极情绪。此外,innov_text高的分析师报告较为详细地描述了企业创新相关活动,如表1所示。

图2 创新主题词
Fig.2 Word cloud of innovation topics

(1)企业申请和获得专利结果比较。分析没有申请专利企业的创新表现是基于文本测度企业创新的主要优势。为比较企业申请和获得专利情况,本研究以数据较为完整的我国制造业A股372家上市公司为例,发现在3 720个样本中有266个样本专利申请数量为0。图3展示了申请专利样本与未申请专利样本企业创新测量结果。从中可见,虽然申请专利样本具有较高的innov_text值,但innov_text在两类样本之间的分布具有很大的重叠。这表明,尽管有些样本企业没有专利申请,但仍然具有较强的创新性。具有较强创新性的未申请专利企业具体案例也与这一观点相符(见表1(a))。表2样本分组t检验结果显示,平均而言,申请专利样本企业比未申请专利样本企业的innov_text值显著高0.009,表明innov_text与企业是否申请专利存在显著正相关关系。此外,为保证研究结果的可靠性,本研究采用企业专利获得数(patents_g)替换专利申请数(patents_a)进行稳健性检验,发现结论保持一致。表3相关性分析结果显示,innov_text与patents_a和patents_g显著正相关。可见,本研究采用基于文本的企业创新测量与企业同期申请和获取专利密切相关。

图3 基于文本的企业创新分布
Fig.3 Distribution of innov_text

表2 分组样本检验结果
Table 2 T-test results of sample grouping

变量全样本未申请专利组申请专利组(3) - (2)(1)(2)(3)(4)innov_text 0.036 30.026 80.036 7 0.009 9*** patents_a221.895 70.000 0231.608 3231.608 3* patents_g162.354 82.794 9169.338 9166.544 1** Log(R&D+1)18.801 617.748 818.843 31.094 6*** R&D/revenue0.033 30.026 30.033 60.007 3*

注：*为显著性水平p<0.1,**为显著性水平p<0.05,***为显著性水平p<0.01,下同

表3 主要变量相关性分析结果
Table 3 Correlation analysis of main variables

变量innov_text patents_apatents_gR&DR&D/revenueinnov_text 1.000 0patents_a0.213 2***1.000 0patents_g0.204 1***0.883 6***1.000 0R&D0.151 3***0.547 6***0.564 2***1.000 0R&D/revenue0.401 6***0.228 8***0.226 2***0.473 9***1.000 0

(2)企业研发支出比较。基于文本的企业创新测量方法同样也适用于测度没有研发支出数据的企业(简称非研发企业)。在制造业企业样本中有175个样本企业研发支出为缺失值。与非专利企业类似,许多非研发企业具有较强的创新性。非研发企业与研发企业基于文本的企业创新测量结果如图3所示。由图3可知,基于文本测度的企业创新在非研发企业与研发企业之间的分布有很大的重叠,反映出利用研发支出作为企业创新代理变量忽略了企业的重要创新活动。从分析师报告的文本内容看,基于文本分析的企业创新度量能够有效反映企业引进新技术的决策,而这些信息难以在研发支出中体现。图4展示了基于文本分析的企业创新和企业研发支出(研发支出总额和研发支出占营业收入比值)随时间变化的趋势。在2010—2019年时间序列中,基于文本分析的企业创新与研发支出总额以及研发支出占营业收入的比重均存在较强的相关性,相关系数分别为0.845 1和0.871 8(在1%水平上显著)。可见,基于文本分析的企业创新能够较好地反映2010-2019年时间序列中企业创新活动宏观趋势。

图4 基于文本分析的企业创新与研发支出时间序列
Fig.4 Time series of innov_text, R&D and R&D/revenue

综上所述,基于文本分析的企业创新不仅能够反映专利企业和研发企业创新活动,还能刻画非专利企业和非研发企业的创新表现,扩大企业创新研究适用样本,体现企业创新综合性特征。专利和研发支出等传统企业创新代理指标通常与新产品生产有关,但忽略了新生产方法、新市场开发、新供应来源、新组织形式等其它方面企业创新。基于文本分析的企业创新作为一种综合性测量结果,突破了传统代理指标的局限性。

4 结论与展望

4.1 研究结论

本文基于分析师报告文本内容,通过构建LDA主题模型得到文本所包含的主题信息,通过分析主题词频分布识别企业创新主题,提取创新主题负载强度测量企业创新,开发一种测量企业创新的新方法,在此基础上对基于文本分析的企业创新进行测度并对专利、研发投入等传统企业创新代理指标进行比较,得出如下研究结论:①本文测量方法能够有效反映广泛存在的非专利企业和非研发企业的创新实践,包括利用和引进新技术等创新活动;②基于文本分析的企业创新测量与专利申请数、专利授权数、研发支出总额、研发支出占营业收入比值4种传统企业创新代理指标具有显著相关性,基于非结构化文本大数据的创新测量方法适用于专利企业和研发企业;③通过时间序列分析发现,与企业研发支出随时间变化趋势一致,基于文本分析的企业创新有效体现了样本区间企业创新活动宏观趋势。

4.2 启示与建议

创新是国家经济发展的重要引擎,企业在国家创新发展中扮演着关键性角色,是创新的重要主体。相比于发达国家而言,我国企业创新发展起步较晚,如何制定并实施相关政策助力企业在创新发展赛道上实现从模仿到跟跑、并跑、领跑,是当前社会各界关注的重要议题。本文研究结论对于企业创新实践和政府出台激励政策具有重要启示意义。

(1)对于企业创新实践而言,创新是高度复杂、系统化的工程,企业应该注重产品创新、流程创新、市场创新、供应来源创新、组织创新等方面的平衡发展,实现对生产要素或生产条件的新组合。一方面,从发达国家企业创新发展历史逻辑和现实路径看,产品、流程、市场等全方位创新是市场竞争发展到高级阶段的必然结果,企业只有充分重视各个方面创新,才能在激烈的市场竞争中维持可持续发展;另一方面,全方位构建竞争优势是企业全面均衡发展的内在要求。当前,国内外发展环境面临深刻复杂的变化,世界正经历百年未有之大变局,这个重要历史战略机遇期为我国企业进一步增强国际竞争实力提供了空间和时间。

(2)对于政策制定者而言,单纯依靠专利数量或研发投入等指标判断企业创新水平具有一定局限性,应综合考量企业各个方面的创新实践,构建全面、系统的企业创新支持政策体系。首先,各级政府应继续加大研发补贴、税收优惠和融资便利等创新政策支持力度。自国家创新驱动发展战略实施以来,各级政府先后出台各种扶持政策,并取得多样化效果,特别是调动了企业创新发展积极性。未来,在总结前期政策效果的基础上,应进一步加大有效政策支持力度,使企业成为国家创新发展的马达;其次,各级政府在制定和实施企业创新发展政策过程中应该注重精准施策,靶向发力。尽管各类创新政策的出台在一定程度上推动了企业创新投入和产出,但是当前相关政策仍然十分笼统,下一阶段要强调政策的精准性和针对性,有的放矢地促进企业创新发展。

4.3 不足与展望

本研究在中文语境下,利用机器学习领域文本分析技术测量企业创新尚处于探索阶段,未来应进行如下拓展:①仅以分析师报告为样本,但本文研究方法还可应用于其它文本大数据,如媒体报道、业绩说明会、定期报告等,未来将采用不同信息披露方式挖掘多元文本大数据,并将其作为企业创新测量的有益补充;②为保证数据完整性,将研究对象限定为制造业,未来应将研究样本延伸至其它行业,以增强研究结论的普适性;③探讨基于文本分析的企业创新测度与专利数量和研发支出等常用企业创新代理指标的关系,未来将进一步挖掘文本分析数据,探究基于文本分析的企业创新测量数据与总资产收益率、净资产收益率、托宾Q值等企业经营绩效的关系,尝试得出一些创新性结论。

参考文献：

[1] 朱雪忠,胡成.专利是测度企业技术创新绩效的有效工具吗[J].科学学研究,2021,39(8):1498-1503.

[2] HALL B, HELMERS C, ROGERS M, et al. The choice between formal and informal intellectual property: a review[J]. Journal of Economic Literature, 2014, 52(2): 375-423.

[3] 沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[J].经济学(季刊), 2019, 18(4): 1153-1186.

[4] 曹丽娜,唐锡晋.基于主题模型的BBS话题演化趋势分析[J].管理科学学报, 2014, 17(11): 109-121.

[5] BELLSTAM G,BHAGAT S,COOKSON J A.A text-based analysis of corporate innovation[J]. Management Science, 2021, 67(7): 4004-4031.

[6] AHUJA G, LAMPERT C M, TANDON V. Moving beyond schumpeter: management research on the determinants of technological innovation[J]. Academy of Management annals, 2008, 2(1): 1-98.

[7] CHEN J-S, TSOU H-T, CHING R K. Co-production and its effects on service innovation[J]. Industrial Marketing Management, 2011, 40(8): 1331-1346.

[8] 解学梅,左蕾蕾.企业协同创新网络特征与创新绩效:基于知识吸收能力的中介效应研究[J].南开管理评论, 2013, 16(3): 47-56.

[9] 朱磊,陈曦,王春燕.国有企业混合所有制改革对企业创新的影响[J].经济管理, 2019, 41(11): 72-91.

[10] KHALILI H, NEJADHUSSEIN S, FAZEL A. The influence of entrepreneurial orientation on innovative performance: study of a petrochemical company in Iran[J]. Journal of Knowledge-based Innovation in China, 2013, 5(3): 262-278.

[11] ZHOU K Z, GAO G Y, ZHAO H. State ownership and firm innovation in China: an integrated view of institutional and efficiency logics[J]. Administrative Science Quarterly, 2017, 62(2): 375-404.

[12] 郝项超,梁琪.非高管股权激励与企业创新:公平理论视角[J].金融研究,2022,65(3):171-188.

[13] BROCKMAN B K, MORGAN R M. The role of existing knowledge in new product innovativeness and performance[J]. Decision Sciences, 2003, 34(2): 385-419.

[14] 余明桂,钟慧洁,范蕊.业绩考核制度可以促进央企创新吗[J].经济研究, 2016, 51(12): 104-117.

[15] HIRSHLEIFER D, LOW A, TEOH S H. Are overconfident CEOs better innovators[J]. The Journal of Finance, 2012, 67(4): 1457-1498.

[16] 赵晶,陈宣雨,迟旭.基于文本分析的企业国际化测量方法及应用研究[J].中国软科学, 2021,36(1): 136-146.

[17] BAKER S R, BLOOM N, DAVIS S J. Measuring economic policy uncertainty[J]. The quarterly Journal of Economics, 2016, 131(4): 1593-1636.

[18] GULEN H, ION M. Policy uncertainty and corporate investment[J]. The Review of Financial Studies, 2016, 29(3): 523-564.

[19] JIANG F, LEE J, MARTIN X, et al. Manager sentiment and stock returns[J]. Journal of Financial Economics, 2019, 132(1): 126-149.

[20] 林煜恩,李欣哲,卢扬,等.管理层语调的信号和迎合:基于中国上市企业创新的研究[J].管理科学,2020,33(4): 53-66.

[21] LI F. Annual report readability, current earnings, and earnings persistence[J]. Journal of Accounting and economics, 2008, 45(2-3): 221-247.

[22] 孟庆斌,杨俊华,鲁冰.管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J].中国工业经济, 2017,35(12): 132-150.

[23] THORSRUD L A. Words are the new numbers: a newsy coincident index of the business cycle[J]. Journal of Business &Economic Statistics, 2020, 38(2): 393-409.

[24] 徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报, 2011, 34(8): 1423-1436.

[25] DEERWESTER S, DUMAIS S T, FURNAS G W,et al. Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science, 1990, 41(6): 391-407.

[26] HOFMANN T. Probabilistic latent semantic indexing[C]. Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, 1999: 50-57.

[27] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, 3(1): 993-1022.

[28] HANSEN S, MCMAHON M. Shocking language: understanding the macroeconomic effects of central bank communication[J]. Journal of International Economics, 2016, 99: S114-S133.

[29] HANSEN S, MCMAHON M, PRAT A. Transparency and deliberation within the FOMC: a computational linguistics approach[J]. The Quarterly Journal of Economics, 2018, 133(2): 801-870.

[30] 马黎珺,伊志宏,张澈.廉价交谈还是言之有据——分析师报告文本的信息含量研究[J].管理世界, 2019, 35(7): 182-200.

[31] HUANG A H, ZANG A Y, ZHENG R. Evidence on the information content of text in analyst reports[J]. The Accounting Review, 2014, 89(6): 2151-2180.

[32] TEH Y W, JORDAN M I, BEAL M J, et al. Hierarchical dirichlet processes[J]. Journal of the American Statistical Association, 2006, 101(476): 1566-1581.

[33] 陈劲,郑刚.创新管理:赢得持续竞争优势(第三版)[M].北京:北京大学出版社, 2016.

[34] LOUGHRAN T, MCDONALD B. When is a liability not a liability? textual analysis, dictionaries, and 10-Ks[J]. The Journal of Finance, 2011, 66(1): 35-65.

(责任编辑：王敬敏)