基于责任式创新范式的大模型数据治理：分析框架与实现进路

近年来,以ChatGPT、Gemini、DeepSeek、Claude等为代表的大语言模型取得突破性进展,这些模型根据底层逻辑不同大致分为生成式模型和推理式模型。其中,生成式模型的底层逻辑可归纳为概率预测与序列生成,主要依赖深度学习技术,这类模型的核心目标是根据给定上下文进行最有可能的词元(Token)预测并形成连贯的文本序列,如ChatGPT系列、Gemini 2.5 Flash等。推理式模型的底层逻辑可归纳为思维链,这类模型的核心目标是从给定的上下文中执行多步骤逻辑推理、数学推导和因果分析,从而形成最有可能的结论或答案,如DeepSeek-R1、Claude Sonnet 4等。虽然生成式模型和推理式模型的底层逻辑与核心目标不同,在能力和场景应用方面也有所区分,但它们都建立在基于海量数据的训练学习这一共同基石之上,并共享概率生成本质,导致它们在数据质量、伦理和隐私等方面存在共性问题。数据在驱动大模型浪潮兴起的同时,数据供给高量低质、数据安全、隐私泄露及伦理失范等问题日益凸显[1]。大模型训练及其性能提升依赖海量高质的数据供给,但支撑模型训练的庞大数据洪流主要源于互联网、公开数据以及大型社交媒体,虽然在数据规模上达到EB甚至ZB量级,但这些数据高度混杂甚至包含未经核实的事实性错误、虚假新闻及无意义灌水等内容,倘若用于训练将会不可避免地被模型吸收并放大数据噪声、偏见及错误[2-3]。大模型在研发、应用及管理等阶段存在不同程度的数据安全与隐私保护问题[4],如研发阶段个人身份信息可能因没有充分标识而被逆向推断,应用阶段用户与模型交互数据存在泄露或被滥用风险,管理阶段模型数据迁移可能导致数据泄露等。此外,大模型还面临突出的数据伦理失范问题。如Obermeyer等[5]发现,医疗领域大模型训练数据存在样本不平衡(如低收入群体、少数族裔等数据代表性不足)、歧视性标签(如性别差异、特定种族)及隐性偏见(如文化语境关联偏见)等问题,大模型可能会无意中学习和传播此类偏差,输出对某些群体的刻板印象或负面关联信息,从而加剧歧视和社会不公[6]。

针对以上问题,学者从数据训练、数据管理等方面提出解决方案。Owen等[7]构建了以模型为中心并融合人类反馈强化学习的价值观对齐技术框架,旨在有效缓解模型训练过程中由数据引入的负向偏差;Bender等[8]指出大模型治理较多关注模型层面的架构设计与训练优化,却忽视了数据层面系统性改进带来的治理效果提升。以Codd[9]提出的数据关系模型和Inmon[10]提出的数据仓库为代表的传统数据管理理论建立在结构化数据基础之上,主要面向结构化数据仓库设计,难以适配大模型数据多源异构、高度复杂和持续迭代引发的治理需求。与此同时,现有研究范畴多聚焦数据治理技术和经济收益,尚缺乏针对大规模数据收集、处理及应用所引发的系统性风险及其防范化解机制的深入探讨,且对如何推动社会公共价值实现的论述仍显不足。

作为应对纳米、原子能等新兴技术在驱动创新发展的同时并引发负向效应的系统性思考,Schomberg[11]、Owen等[12]提出责任式创新概念,受到学术界、产业界广泛关注,并被欧盟列入“地平线2020科研创新框架计划”,强调建立一个开放、互动与透明的创新过程,由创新行为主体与社会行动者共同承担责任,将科技进步合理嵌入社会发展演进之中,引导创新产品实现伦理可接受、发展可持续以及社会满意。大模型作为深度学习、分布式计算、高性能硬件和数据采集处理等多种新兴技术集成与突破的结果,体现数字基础设施、数据工程、计算架构和智能应用体系的全面进步。数据对大模型创新迭代与应用带来深远影响,其未来发展充满各种不确定性,大模型应用也渗透至产业界和学界各个领域。因此,如何对大模型数据进行治理对学界和产业界提出了更高、更复杂的要求。一方面是学理层面该领域研究议题的确定;另一方面是方法层面如何对大模型应用进行治理,包括如何在具有内在关联性的诸多问题中有效识别数据治理关键议题、如何有效应对多领域影响、如何兼顾其正负外部性效应等。

责任式创新范式的核心价值在于通过前瞻性、协作性和动态性治理机制,促进技术创新与社会价值协同发展,以有效适配大模型数据特征以及应用过程中的治理需求,并为其治理框架构建及治理活动提供范式依据。鉴于此,本文基于责任式创新范式与大模型数据治理困境,构建大模型数据治理理论框架并探索其治理进路,该理论框架需体现大模型数据治理的关键核心议题与更全面的治理维度,治理进路应体现不同维度下对具体议题治理过程的清晰阐释,包括确定不同维度下特定问题的治理核心、不同环节的治理重点、治理主体及治理目标等,从而为责任式创新理念在大模型领域的深化应用提供实践指引,进而丰富大模型治理理论,同时为构建可信、可持续的大模型产业生态提供制度保障。本文提出的治理思路适合具有多个相互关联因素的治理议题,其影响范畴超越技术和经济维度,需兼顾多个维度、平衡正负外部性效应,适合动态复杂的新兴科技治理问题研究。

1 责任式创新范式与大模型数据治理困境

1.1 责任式创新:新型科技治理范式的兴起

作为超越创新价值困境而进行的理性思考和行动,责任式创新为当前新兴科技治理转型提供了理论范式基础。责任式创新强调创新过程中的“责任”意识,主张以负责任态度对创新进行技术和管理风险评估[13]。欧盟委员会对新兴科技可持续发展提出“责任式研究与创新”,并在“地平线2020科研与创新框架计划”中将其确定为责任式创新,强调将集体管理引入科技创新活动,通过全面考察技术的伦理、社会影响来预防或应对创新的负外部性[14]。基于此,责任式创新可被界定为一种将伦理责任系统性内嵌于技术创新过程中的集体行动框架与综合实践路径[15]。责任式创新将“创新”与“责任”相结合,将科技发展置于社会远景和价值评估可持续路径中,力图构建各相关利益主体责任共担链条,确保科技发展满足社会需求[16]。责任式创新有利于推动现有科技治理范式重构。一方面,其以创新和治理活动的双重性、面向未来发展的结果不确定性为基本假设, 鉴于单一治理主体的能力局限,该理念旨在吸纳更广泛的利益相关方参与协作,强调对新兴技术议题实施响应式治理与预测性治理[17-18]。另一方面,其排除对结果的简明预测,认为结果不确定性会引发传统治理范式重构,治理过程应遵循开放透明原则,引导治理活动的价值回报与发展意义。例如,在数据治理领域,传统数据治理通常将数据作为经济资源,主要关注如何提升数据质量、降低数据处理成本、提高数据利用效率、促进商业价值实现等议题。如有学者提出基于企业组织环境的差异化数据治理方法,强调治理结构、角色和流程对数据质量与业务价值的提升作用[19],电信行业数据治理探讨的是如何通过治理机制确保数据一致性和可用性,从而提升企业运营效率[20]。与传统数据治理遵循价值创造主导逻辑并以挖掘数据价值、规范数据使用和提升企业竞争力不同,责任式创新范式下的数据治理超越将其视为业务支撑与价值获取的观点,对公平、透明、包容、环境与社会影响等“价值敏感目标”的关注较少。概而述之,负责任创新突破了传统“技术—经济”范式的局限,将新兴科技治理的视域从单一的技术与经济维度,拓展至回应社会诉求、彰显社会价值及遵循伦理规范的多元层面[21]。

1.2 大模型数据治理困境

作为对数据管理概念的超越,数据治理将关注范围拓展至更广泛领域,并形成数据治理的双重内涵:基于数据的治理和对数据的治理。其中,前者将数据作为决策依据,利用数据分析、洞察和预测能力来优化治理过程;后者则是指对数据本身进行管理、规范及控制等一系列治理活动[22]。对于大模型而言,数据治理是确保大模型高质量、可持续与负责任发展的前提。然而,对大模型数据治理情况进行分析发现,其面临诸多挑战。一方面,治理议题繁杂,无法对数据资源进行合理分配,导致整体治理效果不及预期。大模型数据治理涉及来源合法性、数据清洗、安全评估等诸多议题,但人力、财力和注意力等资源相对有限甚至稀缺。众多治理议题迫使治理资源分散到诸多领域,导致治理资源消耗在协调不同议题冲突、优先级排序等琐碎事宜。Arguello等[23]研究发现,有75%的AI团队将超过40%的资源用于法律审查等合规协调,用于实质性治理的资源不足20%。可见,治理议题繁杂导致治理资源难以聚焦于系统性、长期性核心议题。另一方面,治理维度依然囿于传统范式,缺乏对社会责任的深度思考。数据治理视野与行动依然局限于传统“技术—经济”范式[21],容易被技术可行性与经济价值获取所主导与框定。大模型数据治理呼唤对更广泛、更深层次伦理道德与社会期望的思考和责任担当,应将伦理道德接受和社会期望满足纳入治理维度的系统性考虑。因此,本研究重点关注对数据的治理。

1.3 基于责任式创新范式的大模型数据治理内涵与特征

基于责任式创新范式的大模型数据治理不仅应关注价值创造等正向意义的充分实现,而且还应兼顾隐私泄露、偏见歧视等负外部性影响的防范化解,在数据准备、处理、运用阶段吸纳更多利益相关者参与并综合考虑可能产生的经济、伦理等结果,最终实现可信向善、可持续的数据生态循环。基于责任式创新范式的大模型数据治理特征表现如下:首先,在治理范畴方面,不仅需要借助技术手段对数据资源进行充分安全的挖掘与价值产出,而且大模型数据应用场景的广泛性与敏感性也需要回应社会对公平性与安全性的期待[24]。因此,数据治理范畴应在技术先进可行、经济效益增加的基础上,进一步拓展至社会期望满足和伦理道德可接受层面,形成面向技术、经济、道德和社会的多维度治理模式,以更加全面有效地应对大模型引发的数据治理挑战。其次,在治理阶段方面,伴随大模型技术的持续演进与应用落地,面向技术、经济、道德和社会维度的数据治理并非特定局部环节就能解决,大模型数据治理阶段需从数据收集、清洗等部分环节拓展为全生命周期[25]。再次,在治理主体方面,面向上述4个维度对治理资源的获取与整合提出更高要求,不仅需要企业内部资源的高效利用,同时也亟需吸纳用户、社会公众和多领域专家等更多外部主体参与和协同[26],以推动治理主体从内部转向内外结合。最后,在治理逻辑方面,道德和社会维度使得大模型数据治理超越技术和经济维度下围绕价值创造的简单数据规制,兼顾数据价值充分、风险防范化解以及科技竞争力提升等多目标平衡,因此治理逻辑从价值创造转向多目标动态平衡。大模型数据治理范畴、阶段等特征也为后续基于责任式创新范式的分析框架构建及具体实践提供依据与指引。

2 基于责任式创新范式的大模型数据治理框架构建

2.1 大模型数据治理核心议题识别

大模型繁杂的治理议题导致治理资源分散、难以实现战略性分配、治理效果欠佳,因此识别核心议题是确保治理主体资源集中、高效投入和治理效果提升的前提。实际上,大模型数据来源合法、数据清洗和安全评估等议题存在诸多内在关联,可进一步提炼为三大核心议题:首先,数据质量是大模型能力的根基。大模型性能高度依赖预训练数据规模、多样性和准确性等指标,低质量数据会导致模型输出一些错误、幻觉或偏见内容。中国信息通信研究院《大模型治理蓝皮报告(2023年)——从规则走向实践》显示,海量高质量数据堆叠带来的性能提升优势远优于模型算法改动,大模型强大的学习与泛化能力在于对高质量数据进行针对性语言分析、计算解构与算法重铸。其次,数据隐私是大模型合规的底线。大模型在训练过程中会采用个人、企业等多种类型属性及行为数据,其使用过程涉及安全、隐私泄露等风险。如2023年3月Open AI开源代码库的漏洞导致1.2%的ChatGPT Plus付费用户的账户信息、支付记录等发生泄露,进而引发社会各界对数据隐私泄露的强烈担忧。数据隐私难题还会限制大模型金融、医疗等场景应用,如金融场景对数据安全性、合规性等要求较高,对大模型应用更是谨小慎微,美国银行、高盛集团等多家金融机构均对大模型产品应用进行限制。最后,数据伦理是大模型向善的保障。大模型若保留训练数据中的偏见或暴力内容,其涌现能力可能会放大伦理风险[27]。如信用评分大模型可能会因训练数据样本主要来自高收入人群而带来社会偏见,医疗大模型应用过程涉及的海量敏感医疗数据和复杂的算法逻辑会加剧数据隐私泄露、滥用风险及数据流通伦理挑战[28]。

2.2 大模型数据治理维度范围拓展

根据责任式创新范式的大模型数据治理内涵及特征可知,基于责任式创新范式的大模型数据治理包括技术、经济、道德和社会4个维度。具体而言:①技术维度。大模型数据治理紧迫性日渐凸显,但同时治理技术也在持续突破,精准且高效的技术手段能够显著提升治理过程的安全性与透明度,实现技术赋能与治理效能的协同优化[29]。先进治理技术不仅能显著提升数据准确性、安全性及公平性,而且还会促进数据高效利用,为大模型性能和规模化部署应用提供技术支撑。②经济维度。经济维度下数据治理需考虑治理活动的综合成本和预期收益。根据产品管理成本法则(1∶10∶100法则),发现和纠正问题的成本随问题被发现时间点增加,若最初用于数据验证的成本为1,纠正数据的成本为10,那么大模型业务成本将可能增至100。因此,在大模型研发与应用过程中应尽早发现问题并及时作出改进,以降低数据治理成本,反之则有可能会对大模型治理带来深远的负面影响和高昂的治理成本。③道德维度。大模型数据治理不仅关乎技术实现和利益获取,更是一个关乎如何构建更加公平、透明等符合人类价值观的问题。国际组织、国家机构及企业纷纷发布AI伦理原则与规范性文件,以使治理更符合人类社会价值规范[30],如联合国教科文组织发布的《数字平台与生成式人工智能伦理准则》、欧盟发布的《可信人工智能伦理指南》、中国发布的《新一代人工智能治理原则——发展负责任的人工智能》以及OpenAI提出的尊重人权、公平透明等具体原则。实践中常通过明确数据来源、加强隐私保护、强化主体责任和公众参与等方式提升大模型数据治理道德水平。④社会维度。基于责任式创新范式的大模型数据治理延伸至人类社会维度,需在更广泛性社会情景中体现超越合规性的社会责任担当与深层次的价值期望,如提升治理透明度、促进社会公平正义、确保公众监督与问责权等,以重建大模型的社会信任度并确保其能够产生积极、可持续的社会效应。

综上所述,大模型数据治理涉及质量(Q)、隐私(P)、伦理(E)三大核心议题,本文基于责任式创新范式将数据治理范畴拓展为技术(T)、经济(E)、道德(M)、社会(S)4个维度。在此基础上,本文采用矩阵式思维,以治理议题和治理维度为纵横两轴,从理论层面将大模型数据治理划分为12条具体进路,由此构建基于责任式创新范式的大模型数据治理分析框架(见图1),以期为大模型数据治理提供更详尽、更直观的治理结构与行动指引。需要指出的是,数据治理进路在本质上并不是完全割裂的,而是存在协同与权衡关系,即部分特定进路可共同强化数据治理效果,如从道德维度和社会维度出发的数据伦理进路(M→E与S→E)以及数据隐私进路(M→P与S→P);同时,特定进路也可能存在冲突,需要根据实际情况进行权衡,如从经济维度和技术维度出发的数据质量进路(E→Q与T→Q)。本研究重点探讨每条进路的实现过程,对具体进路关系不作过多阐述。

3 基于责任式创新范式的大模型数据治理进路

基于责任式创新范式的大模型数据治理分析框架从理论上廓清了针对数据质量、数据隐私和数据伦理的实现进路,由上述分析可知,责任式创新范式下大模型治理阶段涉及数据准备、处理和运用,这为从多维度对核心议题实现进路进行深入探讨提供了共同依据。

3.1 大模型数据质量治理的实现进路

(1)从技术维度出发,数据质量治理的核心在于借助技术工具为不同阶段治理提供支撑,其实现进路(T→Q)可归纳为:①准备阶段的合成生成。中国信息通信研究院《大模型治理蓝皮报告(2023年)——从规则走向实践》指出,大模型面临真实数据集增速有限和高质量数据匮乏的问题,如ChatGPT对纯文本数据进行质量过滤后仅可获取约1.27%的有效数据,同时在信息垄断、知识产权等限制下,敏感行业高质量数据获取较难。被《麻省理工科技评论》评为十大突破性技术的AI数据合成通过计算机模拟或算法生成模仿现实世界观察的人造数据,生成的数据可从数学和统计学上反映真实世界属性,甚至在模型训练过程中能发挥出比真实数据更好的效果。②处理阶段的清洗标注。主要借助数据清洗功能识别和纠正数据错误、不一致或缺失值,借助数据智能标注使模型理解数据语义或上下文,数据清洗与标注的标准性与准确性会直接影响数据整体质量。③运用阶段的质量提升。主要借助数据血缘、数据版本管理技术提升数据质量,并推动模型性能提升与应用场景泛化。

(2)从经济维度出发,数据质量治理的核心在于降低治理成本和提升治理效果,其实现进路(E→Q)可归纳为:①准备阶段的质量把控。数据来源广泛性、可靠性及覆盖性是重点关注因素,需全力保证数据输入输出的规范性。②处理阶段的质量管理。借鉴大数据技术标准推进委员会(CCSA)2024年发布的《面向人工智能的数据治理实践指南(1.0)》,大模型数据质量治理的关键在于建立完善的数据质量管理体系、制定相应管理制度与流程以及明确不同阶段的数据责任与要求。③运用阶段的质量评估。应建设有效的数据质量评估机制以确保数据质量符合模型需求,合理规划资源投入,提升模型市场竞争力,进而提升数据治理经济效益。

(3)从道德维度出发,数据质量治理的核心在于使数据充分体现人类社会主流道德观,其实现进路(M→Q)可归纳为:①准备阶段的伦理审查。根据中国信息通信研究院发布的《人工智能高质量数据集建设指南》以及工业和信息化部等四部门联合印发的《国家人工智能产业综合标准化体系建设指南(2024 版)》,数据采集应遵循知情同意与来源合法性原则,披露收集方式、主体授权状态及潜在伦理风险。在实践中可尝试组建多样化专业标注团队以减少因文化差异或认知偏见导致的数据质量偏差,同时建设标注反馈机制,助力数据标注工作持续改进。②处理阶段的道德矫正。可尝试设立独立伦理委员会或顾问小组,在大模型数据标注环节实施严格的伦理审查机制,以消除或消解数据中潜藏的职业、性别等系统性偏见,确保其符合社会道德规范与公平原则[31]。③运用阶段的合规约束。为促进数据治理规范化实施,可借鉴国家互联网信息办公室发布的《生成式人工智能服务管理暂行办法》,开展数据标注质量评估、抽样核验及必要的道德培训。

(4)从社会维度出发,可将数据质量治理视为系统性社会工程,其治理的核心在于集中多元化社会力量,持续探索数据质量优化方法与实践,其实现进路(S→Q)可归纳为:①准备阶段的社会代表性校准。可借鉴联合国人口统计署的做法,引入社会流动性指标,动态调整数据采样策略,验证训练数据人口学分布与社会真实结构匹配度。②处理阶段的社会权力重构。打破传统数据标注体系中知识精英的垄断性定义权,构建多方利益相关者共同参与的标注机制,避免数据治理权力过度集中于头部企业或机构;同时,建立开放渠道,吸纳社会力量广泛参与数据治理,防止边缘群体数据特征被误读。③运用阶段的社会期望满足。为满足数据治理的社会期望,需持续优化数据全生命周期管理,包括跟踪技术进展、改进数据处理流程(收集、清洗、标注等)、引入高效工具并实施常态化质量监控,同时推动社会公众参与治理实践与讨论,以此增强社会对大模型的信任与认同。综上,本文构建基于责任式创新范式的大模型数据质量治理实现进路,如图2所示。

3.2 大模型数据隐私治理的实现进路

(1)从技术维度出发,数据隐私治理的核心在于借助技术工具为不同阶段治理任务提供硬性支撑,其实现进路(T→P)可归纳为:①准备阶段的隐私风险隔离。可借助差分隐私技术,在不影响模型准确性前提下向数据集适当添加噪声,使攻击者难以从结果中推断用户的敏感信息,实现数据隐私风险隔离[32]。②处理阶段的隐私防护增强。可运用数据匿名去除或替换敏感信息,使数据无法直接关联到特定个体,从而强化数据保护隐私能力。③运用阶段的隐私泄露防御。多方安全计算(MPC)允许多个参与方仅提供加密数据,在不解密状态下协同计算目标函数,实现数据可用不可见。如在金融领域应用多方安全计算方法,使各方无需共享客户敏感信息即可联合训练信用评分模型,在保障数据隐私的同时还能显著提升模型泛化能力。

(2)从经济维度出发,数据隐私治理的核心在于构建分级分类治理体系,以降低数据隐私治理成本和提升数据治理效果,其实现进路(E→P)可归纳为:①准备阶段的隐私分级。隐私分级作为平衡合规成本、数据价值与市场竞争力的有效方式已被许多国际组织广泛认可和应用,本研究借鉴欧盟在《人工智能法案》中提出的四级风险等级划分思路,将大模型数据泄露风险划分为公共级、内部级、敏感级和机密级。②处理阶段的分类治理。研究表明,伴随着数据量增加,大模型呈现超线性规模收益,但隐私风险也呈指数级增长,需要在规模经济与隐私泄露之间寻求均衡,可基于隐私分类权衡规模经济效应和隐私治理成本,并通过差异化制度设计实现效率最优。③运用阶段的权力下放。现有大模型企业在实际中将大部分数据管理权掌握在自己手中,甚至多数模型企业无法赋予用户信息删除的基本权力,亟需通过对敏感数据的权力下放,允许用户判断并对自身敏感数据进行分类、删除等操作,以切实降低隐私泄露风险。

(3)从道德维度出发,数据隐私治理的核心在于充分尊重和保护人类主体地位,其实现进路(M→P)可归纳为:①准备阶段的道德准则。数据隐私治理的道德准则集中体现为数据知情同意、最小必要性、可问责性。其理论基础源于康德的道德义务论,秉持人是目的而非手段的伦理准则,明确要求数据收集活动必须建立在主体充分知情同意的基础之上,以保障其自主权[33]。《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》通过“特定目的最小范围”原则限制数据过度收集,并通过透明性要求与主体责任机制强化数据处理的可问责性。②处理阶段的道德内嵌。该阶段将抽象伦理准则转化为具体治理框架,可借鉴英国和新加坡的具体实践,通过制定指引性政策,将伦理要求细化为法律框架下的具体义务。同时,企业需承担告知用户数据收集范围与用途、个人信息贡献自主选择权等责任。③运用阶段的道德调试。可通过动态知情同意机制与透明度工具保障用户对数据使用场景的知情权与控制权,建立伦理委员会与第三方审计机制来监督数据是否公平。

(4)从社会维度出发,数据隐私治理的核心在于尊重个体权利,在此基础上最大化数据社会价值,其实现进路(S→P)可归纳为:①准备阶段的契约重构。该阶段因大模型所需海量数据可能会突破传统数据收集的合法性边界,因此需要重构数字经济时代的社会契约(如数据信托制度),平衡大模型创新发展与公民的基本权利[34]。②处理阶段的监管协同。借鉴徐凌验[35]对大模型安全风险及治理的分析与建议,可建立由政府专门机构、用户、第三方监管机构等多方参与的协同监管机制,对大模型数据隐私治理过程和结果进行多角度观察,使数据隐私治理更加有效和可持续。③运用阶段的社会价值实现。该阶段实现社会价值较为重要,社会契约理论认为技术治理应内嵌于社会公共价值[36],这意味着数据隐私治理需将社会主流期望作为核心目标。为实现该目标,应探索建立由政府机构、大模型企业和社会公众等多方协同共治的数据隐私治理联盟创新制度,通过集体行动推动形成符合公共价值的数据治理规则与实践,最终增强社会信任、促进公平正义、保障公共利益。综上,本文构建基于责任式创新范式的大模型数据隐私治理实现进路,如图3所示。

3.3 大模型数据伦理治理实现进路

(1)从技术维度出发,数据伦理治理的核心在于借助技术工具为不同阶段治理提供技术解决之道,其实现进路(T→E)可归纳为:①准备阶段的合规验证。借鉴美国国家标准与技术研究院发布的《数据工程指南》,可尝试通过建立数据来源元数据追踪技术系统,结合数字水印、差分隐私等现实大模型验证数据伦理的合规性。②处理阶段的伦理表征。该阶段可综合运用对抗性去偏、因果图模型等技术,减少数据处理过程中因种族、性别、宗教等因素产生的歧视,强化不同群体间的公平公正。③运用阶段的动态审计。可尝试通过联邦学习架构下的可验证计算、基于人类反馈的强化学习等技术手段,使大模型数据运用更加符合伦理规范,同时开发开源审计工具包(如数据偏见检测框架等),助力伦理风险常态化监控与评估。

(2)从经济维度出发,数据伦理治理的核心在于降低数据治理成本和提升数据治理成效,其实现进路(E→E)可归纳为:①准备阶段的产权配置。大模型催生数据要素市场规模化发展,但多源异构数据涉及个人、企业与公共领域多方权益,数据产权模糊引发“公地悲剧”(如数据过度采集)、“反公地悲剧”(如数据割裂)等伦理风险,科斯定理很早便提出产权界定是市场有效配置资源的前提[37],应在确保数据类型多样化和群体代表性的基础上,通过法律和市场机制(如欧盟《数据治理法案》中的数据中介确权模式)优化数据资源配置[38]。②处理阶段的成本控制。Raji等[39]研究发现,大模型数据处理会放大偏见,若不及时介入可能会带来远超企业合规成本的社会经济损失,迫切需要通过标准设计、审计等将外部成本转化为企业内部成本,进而实现数据伦理治理效果提升。③运用阶段的目标平衡。在大模型部署应用过程中,数据伦理可能会加剧不公、降低社会福利等,但数据伦理治理本身也会带来治理成本,解决之道在于通过制度设计重构数据市场激励结构,将数据伦理转化为企业可持续竞争力。

(3)从道德维度出发,大模型数据伦理治理的核心在于坚持人类价值观的主体地位,其实现进路(M→E)可归纳为:①准备阶段的伦理合规。数据采集程序需严格符合处理合法性要求(如欧盟《通用数据保护条例》规定的数据主体同意、合同履行等)并契合我国制度伦理,充分保障数据主体的知情权与自主选择权,防范未经授权获取。同时,需严格审查数据分布偏差,防止模型习得并固化社会结构性歧视,以确保数据体现公平正义。②处理阶段的伦理对齐。大模型数据处理过程承载着人类价值判断,数据伦理问题不仅具有显性化表现,而且存在隐性威胁,因此既需要将群体代表性缺失、文化语境剥离等伦理约束嵌入其中以应对显性化伦理偏差,也需要运用对抗性测试主动发现并修复尚未显现的伦理缺陷,这种将响应式与预测式相结合的治理方式是实现大模型数据治理伦理对齐的重要渠道。③运用阶段的伦理问责。为应对大模型规模化和市场化应用过程中的数据伦理风险,需要不同主体进一步强化责任分配与协同共治,以降低数据伦理带来的负向影响。其中,作为研发与部署的大模型企业应注重市场反馈,逐步完善数据伦理治理组织设计与行业标准;监管机构则应根据模型部署领域建立差异化标准,如对国防、医疗等严肃场景实施伦理前置审批与实时动态监控;用户和社会公众应提升数据素养并积极反馈伦理问题,同时通过舆论监督提升各方对数据伦理问题的重视程度与解决力度。

(4)从社会维度出发,数据伦理治理的核心在于引导其朝着符合社会期望的方向前进,其实现进路(S→E)可归纳为:①准备阶段的透明合规。该阶段应使数据收集过程更加透明、公正并尽可能体现社会责任,可尝试对数据来源与构成进行公开、征询与吸纳社会意见,将边缘群体信息纳入数据训练集,构建涵盖数据代表性、伦理规范和社会协作的伦理评估框架。②处理阶段的公平正义。大模型训练主要依赖的互联网语料库往往会系统性复制社会偏见,大模型参数权重失衡可能会进一步压制少数群体话语权[40],因此需构建由技术专家、伦理学家、社会科学家、模型深度使用者等利益相关者合理参与的治理与监督制度,最大化确保数据处理公平正义。③运用阶段的社会反思。该阶段大模型可能伴随应用领域愈发广泛、用户数量激增以及依赖性增强等影响甚至操控社会认知,为实现数据伦理治理与社会价值平衡共融,亟需构建透明包容、适应性强的治理框架。如通过简化模型结构、可视化工具开发提升治理透明度,通过建立跨学科伦理审查委员会、开拓公众参与渠道强化包容参与,通过定期审查数据伦理与政策一致性追踪社会期望演变趋势。基于责任式创新范式的大模型数据伦理治理实现进路如图4所示。

4 结论与展望

4.1 研究结论

本文聚焦大模型数据治理,将责任式创新范式引入大模型数据治理领域,提出并探讨基于责任式创新范式的大模型数据治理内涵、特征、分析框架和实现路径,得出以下结论:

(1)大模型数据治理面临的议题比较繁杂,导致资源分散、分配和治理效果不佳以及治理维度囿于传统范式而缺乏对社会责任深度思考的双重困境。基于责任式创新范式的大模型数据治理不仅关注价值创造等正向意义的充分实现,而且兼顾隐私泄露、偏见歧视等负外部性影响的防范化解,在数据准备、处理、运用阶段会吸纳更多利益相关者参与并综合考虑可能产生的经济效益、伦理等结果,最终实现可信向善、可持续的数据生态循环。数据治理范畴在技术先进可行、经济效益增加的基础上,进一步拓展至社会期望满足和伦理道德可接受层面,治理阶段从数据收集、清洗等部分环节拓展为全生命周期[26],治理主体从内部转向内外结合,治理逻辑从价值创造转向多目标动态平衡。

(2)将大模型数据治理提炼为数据质量、数据隐私、数据伦理三大核心议题,基于责任式创新范式将数据治理范畴拓展为技术、经济、道德、社会4个维度。进一步采用矩阵式思维,以治理议题和治理维度为两轴,从理论层面构建基于责任式创新范式的大模型数据治理分析框架,为大模型数据治理提供了更详尽、直观的治理结构与行动指引。

4.2 理论贡献

本文将责任式创新范式引入大模型数据治理领域,理论贡献主要体现在以下两个方面:

(1)现有研究多关注模型层面架构设计与训练优化[7],忽视了数据层面系统性改进带来的治理效果提升[8],而建立在结构化数据基础上的传统数据管理理论难以适配大模型数据多源异构、高度复杂、持续迭代等需求,既有研究对数据治理的关注焦点也多囿于“技术—经济”范式,缺乏对更广泛、更深层次伦理道德与社会期望的责任担当[9-10]。鉴于此,本文分析责任式创新这一新兴治理范式与大模型数据治理面临的主要困境,提出基于责任式创新范式的大模型数据治理内涵、特征和分析框架,从而将责任式创新范式引入大模型数据治理研究。

(2)已有研究缺乏对大模型数据治理如何实践的系统性分类与细致探讨,本文在已经构建的基于责任式创新范式大模型数据治理分析框架的基础上,进一步探讨每条路径的实现过程,为大模型数据治理问题实践提供了战略图景和操作指引。

4.3 不足与展望

面向大模型的数据治理仍处于探索阶段,本文存在如下不足:①尽管对归纳出来的12条具体治理进路进行了较为详细地刻画,认为这些实现进路之间存在协同与权衡关系,但没有针对不同进路通过何种作用关系对治理结果产生影响进行深入讨论,未来应进一步探究不同治理进路之间的协同作用机理。②结合实际案例对大模型数据治理进行研究。案例研究的目的不仅在于从实践层面验证基于责任式创新范式的数据治理框架的合理性,而且为完善该理论分析框架提供了更为充分的现实证据,如新的核心治理议题、治理维度以及模型治理策略等。③探寻大模型跨境数据多边协作治理机制。全球范围内数据快速流动为大模型训练提供了丰富多样的信息,各国数据规制制度差异使数据治理超越单一国家边界而成为全球性公共问题,未来大模型数据治理应推动形成多边协作机制,同时提前布局如何构建我国自主可控的数据治理体系。

[1] 安小米,龙志奇,邝苗苗.标准化视角下大模型数据治理的理论框架及其构成要素研究[J].情报资料工作, 2024,45(6):75-83.

[2] 盛小平,田婧,向桂林. 科学数据开放共享中的数据质量治理研究[J]. 图书情报工作, 2020, 64 (22): 11-24.

[3] 卜伟,张应允.公共数据开放对新质生产力的赋能效应——基于社会再生产视角[J].科技进步与对策,2025,42(20):129-141.

[4] 张春春,孙瑞英.如何走出AIGC的“科林格里奇困境”:全流程动态数据合规治理[J].图书情报知识, 2024, 41(2):39-49,66.

[5] OBERMEYER Z, POWERS B, VOGELI C, et al. Dissecting racial bias in an algorithm used to manage the health of populations[J]. Science, 2019, 366(6464):447-453.

[6] 肖红军,张丽丽.大模型伦理失范的理论解构与治理创新[J].财经问题研究, 2024, 45(5):15-32.

[7] OWEN R, MACNAGHTEN P, STILGOE J. Making responsible research and innovation meaningful in citizen science[J]. Science and Public Policy, 2024,51(3): 329-340.

[8] BENDER E M, GEBRU T, MCMILLAN M A, et al. On the dangers of stochastic parrots: can language models be too big[C].In Proceedings of the 2021 ACM Conference on Fairness,Accountability,and Transparency, 2021.

[9] CODD E F.A relational model of data for large shared data banks[J].Communications of the ACM,1970,13(6):377-387.

[10] INMON W H. Building the data warehouse (fourth edition) [M]. 4th ed. Indianapolis, IN: Wiley,2005.

[11] VON SCHOMBERG R V.A vision of responsible research and innovation[M].New Jersey: John Wiley &Sons,Ltd,2013.

[12] OWEN R, MACNAGHTEN P, STILGOE J. Responsible research and innovation: from science in society to science for society, with society[J]. Science &Public Policy, 2012,39(6):751-760.

[13] TOMAS H M. Systemic innovation and risk: technology assessment and the challenge of responsible innovation[J]. Technology in Society, 2003, 25(3):369-384.

[14] STILGOE J, OWEN R, MACNAGHTEN P. Developing a framework for responsible innovation[J]. Research Policy, 2013, 42(9):1568-1580.

[15] 胡颖. 数字技术赋能政府电商监管:敏捷治理体系的构建路径研究[J]. 电子商务评论, 2025, 14(12): 6056-6064.

[16] 曹霞,李玮佳.组态视角下企业责任式创新路径研究[J].科技进步与对策,2025,42(18):98-107.

[17] FLICK C,STAHL B C.Critical responsible innovation—the role(s) of the researcher[J]. Science and Public Policy, 2024, 51(1): 112-121.

[18] FLICK C, STAHL B C. Ethics in the Metaverse: responsible innovation as a pathway for policy and industry[J]. Science and Public Policy, 2025, 52(2): 215-227.

[19] WEBER K, OTTO B, STERLE H. One size does not fit all a contingency approach to data governance[J]. Journal of Data and Information Quality,2009, 1(1):1-27.

[20] OTTO B. Organizing data governance: findings from the telecommunications industry and consequences for large service providers[J]. Communications of the Association for Information Systems, 2011, 29(1):45-66.

[21] ANDRIJA POPOVIC. Implications of the fourth industrial revolution on sustainable development[J]. Economics of Sustainable Development,2020,4(1):45-60.

[22] 杨斌,马亮.数字技术驱动的敏捷治理缘何受阻:非正式制度视角下的案例研究[J].电子政务, 2024, 21(9): 2-15.

[23] ARGUELLO C N, SEARLE H, RAMPAZZI S, et al. A practical methodology for ML-based EM side channel disassemblers[J]. arXiv e-prints, 2022.DOI:10.48550/arXiv.2206.10746.

[24] ZENG Y, LU E, HUANG C. Human-centered AI: a new framework for the governance of large language models[J]. Engineering, 2022,15(1):1-4.

[25] KHATRI V,BROWN C V. Designing data governance[J]．Communications of the ACM, 2010,53(1):148-152.

[26] WHITTLESTONE J, NYRUP R, ALEXANDROVA A, et al. Ethical and societal implications of algorithms, data, and artificial intelligence: a roadmap for research[R]. Nuffield Foundation, 2019.

[27] OZKAYA I. Application of large language models to software engineering tasks: opportunities, risks, and implications[J]. IEEE Software, 2023, 40(3): 4-8.

[28] 沈世勇,姜茂敏.人工智能背景下医养结合数据应用的伦理探析[J].中国医学伦理学,2025,38(9):1217-1226.

[29] JOHNSON M, CHEN L, RODRIGUEZ A. Digital governance, transparency, and public trust in the AI era:a systematic review (2020—2025) [J]. Government Information Quarterly, 2025, 42(1): 101-118.

[30] JONES C I, CHRISTOPHER T. Nonrivalry and the economics of data[J]. American Economic Review,2020,110(9): 2819-2858.

[31] LIU Y,WANG H,MARTINEZ S,et al.From prejudice to parity: a neural framework for debiasing large language model embeddings[C]. COLING 2025: 30th International Conference on Computational Linguistics,2025:4512-4528.

[32] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C].Proceedings of the 38th International Conference on Machine Learning, 2021.

[33] 徐曼琦. 从理论批判到实践哲学的批判性重构——基于马克思对于康德道德哲学的批判[J]. 哲学进展, 2024, 13(11): 3101-3107.

[34] DELACROIX S,LAWRENCE N D.Bottom-up data trusts: disrupting surveillance capitalism[J]. Cambridge Law &Technology Review, 2019, 8(1):1-32.

[35] 徐凌验.大模型安全风险及治理路径研究[J].信息安全研究,2024,10(10):975-980.

[36] RAHWAN I. Society-in-the-loop: programming the algorithmic social contract[J]. Ethics and Information Technology, 2018, 20(1):5-14.

[37] COASE, RONALD H. The problem of social cost[J]. Journal of Law and Economics, 1960,3(1):1-44.

[38] JONES C I, CHRISTOPHER T. Nonrivalry and the economics of data[J]. American Economic Review,2020,110(9): 2819-2858.

[39] RAJI I D, SMART A, WHITE R N, et al. Closing the AI accountability gap: defining an end-to-end framework for internal algorithmic auditing[J]. Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency, 2020, 20(4):161-172.

[40] CRAWFORD K. Atlas of AI: power, politics, and the planetary costs of artificial intelligence[M].New Haven: Yale University Press, 2021.