生成式人工智能数据风险治理模式评析与机制完善

郭小伟1,2

(1.上海交通大学 凯原法学院;2.上海交通大学 中国法与社会研究院,上海 200030)

摘 要:人工智能已经深度嵌入社会运行网络,成为数字社会的底层架构和基础设施。学界对生成式AI数据风险从生命周期、权利理论、数据安全等视角进行分析,但多聚焦数据属性特征与数据风险形态表现,相较而言,忽视了治理本身的核心属性和过程机制。“作为理论的治理”强调治理目标的明确性、治理主体的协同性、治理依据的完备性以及治理手段的灵活性四个方面,而生成式AI数据风险治理困境可依此划分为目标含混、主体割裂、依据缺位、手段僵化四大方面。基于此,应通过风险分级的动态平衡、政企利益的协同耦合、短长期目标的时序衔接来实现目标校准;通过公权力机关的协同联动、政企共生的共治运作、国际规则的协作共建来实现主体协同;通过分层立法的法律保障、多元共治的标准建构、制度固化的伦理约束来实现依据完善;通过行政工具的精准革新、技术工具的制度激活、多元工具的联动互嵌来实现工具体系升级。通过各治理要素之间的深度耦合与有机融贯,最终推动生成式AI数据风险治理体系的持续创新和治理机制的质性跃迁。

关键词:人工智能;数据安全风险;韧性治理;动态治理

Analysis of Models and Improvement of Mechanisms for Data Risk Governance in Generative Artificial Intelligence

Guo Xiaowei1,2

(1.Kouguan Law School, Shanghai Jiaotong University;2.China Institute for Socio-Legal Studies, Shanghai Jiaotong University, Shanghai 200030,China)

Abstract:Artificial intelligence has been deeply embedded in the network of social operations, serving as the underlying architecture and infrastructure of the digital society. Academia has conducted in-depth typological analyses of data risks in generative artificial intelligence from various perspectives and methodologies, including the life cycle perspective, rights theory perspective, and data security perspective, and has proposed corresponding measures to address these data risks. However, a common limitation of the aforementioned life cycle perspective, rights theory perspective, and data security perspective lies in the disconnection between theoretical logic and practical dilemmas, specifically, they fail to fully recognize the unique characteristics of data risks in generative AI and systematically examine the complex feedback mechanism between training data and generated content. Consequently, these perspectives are trapped in an internal perspective of data risk governance, neglecting the spillover effects, transmissibility, and interconnection inherent to generative AI data risks themselves. Overall, academic analyses of generative AI data risks have long been confined to the cognitive limitation of "centering on governance objects",that is, overemphasizing the attribute characteristics of "data" and the morphological manifestations of "data risks" while ignoring the core attributes and process mechanisms of "governance" itself. This has rendered existing analytical approaches and models unable to respond to the complexity of governance practices, ultimately reducing governance schemes to mere "paper compliance" that cannot be effectively implemented. Therefore, it is necessary to take governance theory as the starting point, analyze the practical dilemmas in generative artificial intelligence data risk governance, and propose targeted optimization schemes for such governance.

Professor Gerry Stoker has further refined a "governance" theory that can provide an organizational framework. "Governance as theory" emphasizes four key aspects: the clarity of governance goals, the synergy of governance subjects, the completeness of governance basis, and the flexibility of governance means. The governance dilemmas in generative AI data risks can thus be categorized into four dimensions: ambiguity of governance goals, fragmentation of governance subjects, absence of governance basis, and rigidity of governance means. Accordingly, the governance dilemmas in generative artificial intelligence data risks can thus be categorized into four major types: the dilemma of misaligned governance goals, which includes difficulties in balancing security and development, reconciling national and corporate goals, and aligning short-term and long-term objectives; the dilemma of fragmented governance subjects, which involves complex games among public authorities, the binary opposition between the state and enterprises, and international competition for rule-making power; the absence of governance basis, which covers the lack of laws and regulations, industry standards, and ethical norms; and the rigidity of governance means, which includes the path dependence on traditional administrative tools, institutional obstacles to technological empowerment, and the breakdown of synergy among multiple tools.

In response, system synergy, dynamic adaptation, risk communication, and multi-stakeholder co-governance shall serve as core concepts. Goal calibration is to be achieved through a risk-classified dynamic balance mechanism, a synergistic coupling mechanism of government-enterprise interests, and a temporal cohesive mechanism for short-term and long-term goals; subject synergy is to be realized through a collaborative linkage mechanism among public authorities, a co-governance operation mechanism for government-enterprise symbiosis, and a collaborative mechanism for international rule-making; the governance basis is to be improved through a hierarchical legislative legal guarantee mechanism, a multi-stakeholder co-governance standard-setting mechanism, and an institutionally embedded ethical constraint mechanism; and governance means are to be innovated through a precision-oriented reform mechanism for administrative tools, an institutional activation mechanism for technological tools, and a synergistic coupling mechanism for multiple tools. Furthermore, through in-depth coupling of governance goals, subjects, foundations, and means, as well as systematic reconstruction of interrelated mechanisms, continuous innovation in the generative artificial intelligence data risk governance system and a qualitative leap in governance mechanisms can be ultimately promoted, laying a solid foundation for the healthy and sustainable development of generative artificial intelligence.

Key WordsArtificial Intelligence; Data Security Risk; Resilient Governance; Dynamic Governance

收稿日期:2025-05-15

修回日期:2025-08-03

基金项目:广东省普通高校青年创新人才项目(2025WQNCX054)

作者简介:郭小伟(1999—),男,山西洪洞人,上海交通大学凯原法学院博士研究生,上海交通大学中国法与社会研究院研究助理,研究方向为人工智能治理。

DOI:10.6049/kjjbydc.D72025050392

开放科学(资源服务)标识码(OSID):

中图分类号:TP18

文献标识码:A

文章编号:1001-7348(2026)08-0001-12

0 引言

ChatGPT拉开了通用人工智能(Artificial General Intelligence)的时代序幕,DeepSeek则掀起广开源、低成本、多部署的数字浪潮。当各大高等院校、科技公司、应用平台纷纷接入生成式AI时,人工智能渐次嵌入社会运行网络,成为数字社会的底层架构和基础设施。同时,人工智能运作风险与原有社会已有风险产生耦合,导致数字社会风险呈指数级增长,并使原有社会风险应对机制捉襟见肘[1]。人工智能大模型的颠覆性创新高度依赖海量数据的“喂养”和训练,数据规模越大、质量越高,人工智能大模型性能也就越好。因此,要实现生成式AI风险治理和安全保障,需落脚到数据风险源头治理上。鉴于此,学界对生成式AI数据风险进行积极探索,从生命周期视角、权利理论视角、数据安全视角等不同角度入手,提出相应数据风险应对措施。然而,上述数据风险分析忽视了数据本身的关系性、双向交互性以及数据风险的非线性、跨领域扩散等特征,无法适应生成式AI数据风险治理的韧性需求和动态要求,因而亟需对生成式AI数据风险治理机制进行完善。

1 生成式AI数据风险分析

1.1 生命周期视角下数据风险

生命周期指从创造到毁灭、从“出生”到“死亡”的整个过程。生命周期视角以生成式AI技术运作机理为基础,将数据风险贯穿数据全生命周期不同阶段。这一视角借鉴产品生命周期管理理论,将数据从产生到销毁视为一个有机整体,通过阶段化分析实现风险精准识别与管控。学界以生成式AI技术透视和运作机理为基础,将生成式AI数据风险划分为收集阶段、分析阶段和输出阶段。其中,收集阶段风险是指生成式AI在模型训练语料库搭建时通过各种途径和手段获取海量数据面临的潜在非法获取风险、非法收集风险、数据噪声风险、数据偏差风险等[2],分析阶段风险是指生成式AI在被训练时受各种价值观影响和侵袭所产生的数据歧视风险、伪相关风险、数据黑箱风险以及数据安全保障措施不当而导致的潜在数据泄漏风险[3],输出阶段风险是指技术运作天然局限性而导致的不良内容生成风险[4]

整体而言,从生命周期视角分析生成式AI数据风险具有如下优势:①全面性。生命周期视角下数据风险分析能够洞察生成式AI运作的全过程,系统总结潜在数据风险,从而构建契合生命周期的数据治理机制。②动态性。生命周期视角下数据风险分析能够因应生成式AI运作过程,划分不同阶段风险,从而增强数据风险治理方案的针对性和契合性。③前瞻性。生命周期规律对数据风险具有一定预测性和前瞻性,能够对生成式AI数据风险进行预测,并采用风险预防手段和措施进行干预,从而避免数据风险向数据危险转变[5]

然而,从生命周期视角分析生成式AI数据风险也存在一定局限:①生命周期划分科学性不足。人文社科类学者在研究技术问题时往往倾向于进行类型化分析,难以对生成式AI运作周期形成深刻认知,于是便形成生成式AI数据风险分析的“三阶段论”“四阶段论”“五阶段论”“六阶段论”等不同立场,进而设计数据风险治理不同方案。②数据风险把握精准度不够。无论采取何种生命周期阶段论,对生成式AI数据风险的分析始终要围绕数据展开,但输出阶段的不良内容风险很难归结为数据风险类型,因其中涉及算法设计、模型优化等技术因素,过度强调数据维度有可能掩盖问题本质。

1.2 权利理论视角下数据风险

权利尤其是法定权利是法律赋予个人实现其自身利益或意志的力量。权利理论视角以法律赋予的权利体系为基础,将生成式AI数据风险界定为对各类法定权利的侵害。这一进路强调数据治理的制度依托性,通过权利保障框架规范数据处理行为。学界以生成式AI“数据输入”“训练数据”“内容输出”三大阶段为基础,运用权利理论将生成式AI数据风险划分为复制权侵权风险、翻译权侵权风险、汇编权侵权风险、改编权侵权风险和传播权侵权风险等[6]。其中,复制权侵权风险是指人工智能数据在输入阶段存在的侵犯著作权人制作作品复制品的潜在侵权风险;演绎权侵权风险是指人工智能数据在训练阶段对数据原作品进行翻译、清洗、标记、汇编、整理行为时侵犯著作权人翻译权、汇编权所产生的权利风险;传播权侵权风险是指人工智能数据在输出阶段侵犯著作权人向公众传播其作品权利所产生的风险[7]

整体而言,从权利视角分析生成式AI数据风险具有如下优势:①人本性。从数据治理实践看,各种风险治理往往以数据为主语,使得技术中心主义、技术治理主义大行其道,混淆了技术治理目的和过程。而基于数据治理的制度依托性,将生成式AI数据风险落脚于权利风险,更有利于“人是万物的尺度”以及“人是目的”的实现[8]。②实践性。相比于其它数据风险治理进路的抽象性,权利视角下生成式AI数据风险分析为个体提供法律救济和制度保障理论方案,并通过法律制度这一权利保障实现数据治理。

然而,从权利视角分析生成式AI数据风险也存在一些不足:首先,无法完全关照国家、社会、个体等不同主体的各种权利。学界目前对权利视角下的数据风险分析仅局限于著作权或知识产权范畴,忽视了个人信息权、隐私权、人格权等具体权利风险[9]。其次,无法回应新兴权利保障需求。权利视角下数据风险分析往往集中于法定权利,即只有法律明文规定的权利才能纳入风险分析范畴,而忽视了生成式AI运作过程中的潜在新兴权利或道德权利,从而使权利保障丧失了突围空间。

1.3 数据安全视角下数据风险

安全是人类社会的底线,也是危险状态的镜像映射。数据安全视角以安全价值为核心,强调数据风险的破坏性后果,旨在通过安全防护体系保障数据系统稳定运行。学界从生成式AI运作的数据输入、数据运算、数据存储、数据输出过程入手,基于安全价值观将生成式AI数据风险划分为数据主权风险、意识形态安全风险、网络安全风险、国际安全风险等[10]。此外,还有学者将生成式AI数据安全风险划分为数据投毒风险、数据深度伪造风险、数据过度采集风险、数据滥用分析风险等[11]。也有学者将数据安全风险划分为交互数据自动传输迭代产生的数据泄漏风险、定制化训练产生的数据泄漏风险、大模型数据安全防御能力不足3种类型[12]

数据安全的优势在于其对底线价值的坚守,安全作为数据治理的基础性目标,为数据风险治理提供了明确的价值导向。同时,该视角具有较强的系统性,将数据风险置于国家安全、社会稳定框架下审视,有助于推动跨部门、跨领域协同治理。相较于其它视角,数据安全视角下的数据风险分析尚不成熟。这是因为安全本身就是抽象性价值和不确定性概念,很难具化为具体安全类型,又因为安全本身的附随性和依附性,使得其与权利保障、数字利用等紧密相关又相互排斥,从而在抽象拔高和具象落地过程中左右摇摆[13]。该视角主要局限于安全概念的抽象性和不确定性,难以转化为具体治理措施,在实际操作中容易出现标准模糊、责任不清等问题。此外,安全目标与发展需求平衡难度较大,过度强调安全可能会抑制技术创新,而放松安全管控又可能会导致风险失控,这种张力使得安全视角在指导实践时面临两难选择。需要强调的是,作为状态的安全仍是生成式AI数据风险治理的主线价值,即生成式AI数据风险治理的目的在于通过持续的危险识别和风险治理实现风险水平可接受。

1.4 三大数据风险分析进路对比

综上所述,生命周期视角、权利理论视角、数据安全视角三大分析进路在应对生成式AI数据风险时各有侧重:生命周期视角有利于进行全链条风险识别,从而为生成式AI数据风险过程治理提供基本分析框架;权利理论视角聚焦数据主体权益,能够在生成式AI数据风险转化为现实危险和切实损害时为数据主体的法律救济提供基本规范依据;数据安全视角强调生成式AI运行和发展的底线思维,为生成式AI系统的稳定运行提供基本支撑和底线要求。由于落脚点不同,三者在适用场景上具有互补性:数据安全视角适用于宏观维度政策制定和系统防护,生命周期视角适用于中观维度技术研发与技术运作风险治理,权利理论视角适用于微观维度纠纷解决和权益保护(见表1)。

表1 生成式AI数据风险分析进路对比
Table 1 Comparison of Generative AI data risk analysis approaches

分析进路主要优势 局限性侧重点适用维度适用场景权利理论视角人本性、实践性无法平衡主体权利;无法保障新兴权利侧重于风险发生后的权益确认、损害赔偿和法律救济微观维度数据主体与技术主体间的纠纷解决、个人信息侵权诉讼、数据权益损害赔偿等场景生命周期视角全面性、动态性、前瞻性生命周期划分不够科学,数据风险把握不够精准聚焦数据处理全流程风险识别与过程治理中观维度技术研发阶段风险预判、技术运作过程中动态风险管控及全链条流程化治理数据安全视角能够为风险治理提供明确的价值导向,有助于推动跨部门、跨领域协同治理难以转化为具体治理措施,可能会抑制技术创新以系统安全和数据安全为核心,侧重于建立风险防控的最低标准和安全基线宏观维度国家层面政策制定、行业安全标准制定、系统级安全防护体系构建及合规监管框架

实际上,生成式AI数据风险治理与一般人工智能数据风险治理存在显著差异。第一,技术原理差异。一般人工智能系统的核心逻辑在于通过数据训练实现要素识别与决策支持,其数据风险集中在数据输入质量上。而生成式AI的核心逻辑在于利用大规模训练数据学习数据分布的基本规律,以此为基础生成全新的文本、图像、视频等内容。第二,风险维度差异。生成式AI运作时的训练数据不在于驱动决策,而在于创造内容,从而使数据风险链条逐渐蔓延并集中在输出阶段。换言之,一般人工智能在输出阶段的数据风险主要表现为决策误差,本质上仍是训练数据风险的延续,而生成式AI在输出阶段的数据风险则具有独立性,常表现为知识产权侵权风险、深度伪造风险、虚假信息传播风险等。第三,治理逻辑差异。一般人工智能数据风险治理往往通过数据运作全生命周期对数据采集、数据存储、数据使用等关键环节进行合规治理,而生成式AI数据风险治理则需要覆盖训练数据、模型算法、生成内容等完整链条。

需要说明的是,上述提及的生命周期视角、权利理论视角、数据安全视角的共同局限在于理论逻辑和现实困境的承接断层,既未充分认识生成式AI数据风险的特殊性,也未系统审视训练数据与生成内容之间的复杂反馈机制,从而深陷于数据风险治理的内在视角,而忽视了生成式AI数据风险本身的外溢性、传导性和关联性。整体来看,学界对生成式AI数据风险分析长期陷入“以治理对象为中心”的认知局限,即过度聚焦“数据”属性特征与“数据风险”形态表现,忽视了“治理”本身的核心属性和过程机制,导致现有分析进路与模式难以回应治理实践的复杂性,最终使得治理方案沦为纸上合规但无法落地生效。因此,本文以治理理论为切入点,剖析生成式AI数据风险治理的现实困境,并提出生成式AI数据风险治理机制优化方案。

2 生成式AI数据风险治理的现实困境

格里·斯托克等[14]通过分析西方国家尤其是英美两国关于“治理”的学术语境,进一步凝练能够提供组织框架的“治理”理论,即“作为理论的治理”。“作为理论的治理”强调治理目标的明确性(为什么治)、治理主体的协同性(谁来治)、治理依据的完备性(靠什么治)以及治理手段的灵活性(怎么治)四大方面。本文参考这一研究,将生成式AI数据风险治理困境划分为治理目标含混、治理主体割裂、治理依据缺位、治理手段僵化四个方面。

2.1 生成式AI数据风险治理目标

(1)安全与发展的动态平衡。2021年,国家新一代人工智能治理专业委员会发布的《新一代人工智能伦理规范》明确,“有序推动人工智能健康和可持续发展”,“增强安全透明”。同年,联合国教科文组织通过的《人工智能伦理问题建议书》提出,“加快技术发展步伐”,“确保个人数据和敏感数据的充分安全”。2023年,我国中央网信办发布的《全球人工智能治理倡议》提出“坚持发展和安全并重的原则”。2024年,联合国大会通过的《全球数字契约》有79次提到“发展”,37次提到“安全”。尽管“发展与安全并重”原则已取得各国共识,但“在安全中发展,用发展促安全”的具体方案在落地时却很难把握平衡,从而陷入偏颇的境地。在生成式AI治理实践中,很难精准把握两者平衡[15]。若过于强调风险防范,可能会抑制技术创新;若过于注重创新,又可能会导致数据风险失控。以医疗领域为例,生成式AI在辅助诊断、药物研发等方面具有巨大潜力,但过度严格的数据安全要求可能会限制医疗数据共享与利用,阻碍模型优化;反之,放松安全管控又可能会导致患者隐私泄露,引发伦理争议。因此,各国对生成式AI治理采取了不同方案:欧盟采取“硬法模式”,美国采取“软法模式”,新加坡采取“技术—程序模式”,而中国则采取“法律规制与行业引导并举模式”(见表2)。

表2 生成式AI治理模式对比
Table 2 Comparison of Generative AI governance models

国家/地区治理模式代表性规范核心特征适用范围优势不足欧盟 硬法模式《人工智能法案》通过系统性立法建立强制合规框架,基于风险分级实施全生命周期监管所有在欧盟境内使用或影响欧盟数据主体的AI系统,包括域外提供商提供全球首个全面AI监管框架,明确禁止、高风险等分类标准;强化透明度要求;设立严格处罚机制合规成本高昂;横向立法未充分考虑技术差异性;域外效力可能会引发国际争议美国 软法模式《禁用对抗性人工智能法案》等以行业自律为主导,联邦与州权博弈激烈,以致美国众议院对各州的人工智能监管提出禁止性法令联邦层面聚焦政府部门及军事应用,商业领域依赖企业自我认证最大限度鼓励技术创新;灵活应对技术快速迭代;降低初创企业合规负担缺乏强制约束力,标准碎片化;州与联邦政策冲突;数据隐私保护力度不足新加坡技术—程序模式《生成式人工智能治理模型框架》以技术验证和流程控制为核心,构建可验证的治理工具包,强调国际协同私营部门AI系统开发与部署,侧重金融、医疗等关键领域平衡创新与风险,提供可量化评估指标;工具包支持多框架互操作性;政府将角色定位为促进者依赖企业自愿参与,缺乏强制力;全球影响力有限;工具包技术局限性有待突破中国 法律规制与行业引导并举模式《生成式人工智能服务管理暂行办法》法律规制与行业自律相结合,强调安全底线与发展导向双重目标生成式AI服务提供者,覆盖内容生成、数据训练、服务运营全链条兼顾安全与创新,明确备案、内容合规等硬性要求;行业联盟推动技术标准制定;快速响应技术变革监管灵活性不足,部分条款需细化;跨境数据流动规则有待完善;中小企业合规成本压力较大

(2)公共利益与企业诉求协同。国家治理生成式AI数据风险的目的在于关注公共利益和社会整体发展,倾向于维护国家安全、保障社会稳定、保护公民权益。我国《生成式人工智能服务管理暂行办法》的立法目的包括“促进生成式人工智能健康发展和规范应用”“维护国家安全和社会公共利益”“保护公民、法人和其他组织的合法权益”三大部分,主要从国家利益、社会利益、公共利益、行业(发展)利益、群体利益等宏观角度出发。而企业则通常以追求经济利益和市场竞争优势为首要目标,倾向于市场竞争、用户抢夺、收益扩大等资本需求。基于此,国家在生成式AI数据风险认知和应对时倾向于采取宏观层面政策、法规进行严格监管,从而形成一种层级化管理模式。而企业注重短期业务发展、技术创新和资本增值,更倾向于采用相对滞后或较为温和的措施应对数据风险[16]。因此,企业治理生成式AI数据风险的核心目标在于合规导向,即并非抑制或防范数据风险本身,而在于契合国家或法律对企业生成式AI数据风险治理的具体要求。此外,企业内部也存在行政、业务、技术、合规部门的分野,因而会使企业内部协同治理出现断层。

(3)短期与长期目标统筹。生成式AI数据风险治理短期目标聚焦“促进生成式AI健康发展和规范应用”。在行业发展初期阶段,这一目标至关重要。只有确保生成式AI在初始阶段沿着健康、规范的轨道前行,才能为后续发展奠定坚实基础。而长期目标则着眼于更为宏观和深远的层面,即着眼于“推动经济、社会及生态可持续发展”或“增进人类福祉”。从经济可持续发展角度看,生成式AI技术若能合理运用,则可助力各行业实现智能化升级,创造新经济增长点,推动产业结构优化升级,实现新质生产力跃进[17]。一方面,生成式AI数据风险治理需要大力鼓励生成式AI技术创新,让生成式AI行业保持基本发展活力。另一方面,生成式AI数据风险治理要坚定不移地以推动经济繁荣、促进社会进步、增进人类福祉为长期目标,这是技术发展的终极价值导向。然而,现实中一些企业为追求短期利益,忽视数据质量提升、隐私保护机制完善等现实要求以及“经济、社会及生态可持续发展”的长期目标,导致生成式AI数据风险不断累积,进而引发了一系列的风险联动反应。

2.2 生成式AI数据风险治理主体

(1)公权力机关间的治理协同。生成式AI具有鲜明的技术普适性和应用场景性特征,其数据风险治理也往往关涉各种不同的行政主体。我国《生成式人工智能服务管理暂行办法》由国家互联网信息办公室、国家发展改革委、教育部、科技部、工业和信息化部、公安部、国家广播电视总局7个部门共同发布。《中华人民共和国数据安全法》第五条和第六条涉及“中央国家安全领导机构”“工业部门”“电信部门”“交通部门”“金融部门”“自然资源部门”“卫生健康部门”“教育部门”“科技部门”“公安机关”“国家安全机关”“国家网信部门”等十余个公权力主体。2023年,中共中央、国务院印发《党和国家机构改革方案》强调,国家数据局的主要职责在于“负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等”。2024年,国务院发布的《网络数据安全管理条例》则涉及“国家网信部门”“公安机关”“国家安全机关”“国家数据管理部门”等多个行政主体。在生成式AI数据风险治理中,不同公权力机关具有不同职责。例如,网信部门负责统筹协调网络安全工作,制定相关政策和标准;工信部门侧重于推动人工智能产业发展,在产业政策制定、技术标准推广等方面发挥作用;公安部门则主要负责打击利用生成式AI实施的违法犯罪行为,从而维护社会秩序和安全;还有其他相关职能部门,如科技部更关注AI技术研发政策导向,市场监管部门主要关注市场主体在人工智能数据使用和服务方面的合规性等。多部门管理格局下,需要建立公权力机关之间高效协调机制,否则可能弱化生成式AI数据风险治理的行政效能。

(2)国家与企业的二元分野。国家与企业在生成式AI数据风险治理方面有不同目标和侧重,国家通过颁布法律法规、政策文件及构建制度等实现数据风险治理,而企业则通过技术架构、隐私政策、伦理规范来实现数据风险治理。由于国家和企业在生成式AI运作机理及数据应用上存在一定信息不对称,国家在很大程度上需要通过研发、使用生成式AI的企业落实数据风险治理责任,或者通过设定和强化企业的法定义务与合规责任,来传导和落实数据风险治理的要求[18]。例如,《网络数据安全管理条例》第19条明确规定了提供生成式AI服务的网络数据处理者“训练数据和训练数据处理活动的安全管理”义务,通过落实企业或平台责任来实现生成式AI数据风险治理。而《生成式人工智能服务管理暂行办法》倾向于通过“依法开展预训练、优化训练等训练数据处理活动”“制定符合本办法要求的清晰、具体、可操作的标注规则”“开展数据标注质量评估”等企业方、平台方、行业方义务规定来实现生成式AI数据风险治理。因此,实践中生成式AI数据风险的治理结构在很大程度上形成“规制者—被规制者”的二元传导体系。这一结构虽有助于明确责任主体,但也可能因过度依赖外部规制而抑制企业内生治理动力的形成,使风险防控长效协同面临挑战。

此外,面临规则制定权的国际争夺。生成式AI备受关注,其能深度嵌入社会生活和社会生产底层架构,成为撬动数字经济的杠杆。在巨大的经济利益以及潜在的政治利益、社会利益的驱动下,各国均希望在生成式AI国际规则制定中发挥主导作用,从而切实维护本国的国家利益和技术优势。俄罗斯基于本国网络安全考虑,通过持续强化国家数据主权与网络安全,收紧对数据的整体控制,实行严格的本地化存储原则,形成“孤岛式数据保护模式”[19]。日本数据安全治理方案则以“信任与安全”为基础,形成政府主导、民间参与、严密监督的数据治理机制[20]。欧盟则更注重数据保护和隐私权利,倾向于制定严格的数据治理规则,并形成“隐私保护优先”的数据治理模式。美国借助其在人工智能技术和产业方面的领先优势,试图推动建立一套符合自身利益的国际规则,形成“经济利益优先”的数据治理模式[21]。不同国家之间在法律法规和技术标准规则制定权上的争夺,体现了其在生成式AI领域的战略利益和权力博弈,从而使得生成式AI数据风险国际治理出现主体争夺和割裂状态。

2.3 生成式AI数据风险治理依据

(1)法律法规缺位。生成式AI数据风险法律治理的正当性在于其能够有效保护个人隐私和数据安全、维护社会公共利益、促进技术创新和产业发展并应对跨国数据流动和管辖权问题。然而,目前生成式AI数据风险治理法律法规仍存在缺位现象:第一,针对生成式AI数据风险的法律法规不够健全。例如,欧盟《人工智能法案》第10条虽然专条规定数据和数据治理,但在人工智能类型方面仅涉及高风险人工智能系统,对于低风险和中风险人工智能系统数据风险未引起足够重视;另外,在数据处理环节仅涉及训练数据、验证数据、测试数据3个方面,未囊括数据销毁等其它数据处理环节。第二,生成式AI数据风险的治理要求与现有法律制度尚存在适配性的衔接与磨合空间。生成式AI数据风险的法律治理要求对现有数据、算法、算力分而治之的治理范式提出严峻挑战,使得已有法律制度在面对生成式AI数据治理系统性要求时难以实现完全的适配与契合。第三,生成式AI数据风险技术治理需求与法律治理效能不匹配。生成式AI数据风险治理中的信息权益保护、网络空间安全、数据权属界定等新型问题亟待解决,但立法起草的复杂性、立法程序的严密性、立法阶段的繁琐性、立法时间的周期性决定立法无法及时回应数字社会的现实需求。一言以蔽之,静态规则难以应对实时迭代的模型训练与数据生成[22]

(2)行业标准缺位。生成式AI数据风险治理行业标准缺位主要体现在以下几个方面:第一,数据质量评估标准缺失。在全国标准信息公共服务平台查询可知,现行人工智能领域涉及数据国家标准共有3项,且均为推荐性标准,包括《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》《网络安全技术 生成式人工智能数据标注安全规范》《人工智能 面向机器学习的数据标注规程》。这些标准主要涉及数据收集安全、数据预处理安全、数据使用安全、数据标注平台或工具安全要求、数据标注人员要求、数据标注核验要求、数据标注安全评价方法、标注任务前期准备、标注任务执行、标注结果输出等内容,未涉及生成式AI数据质量评估标准。因此,在训练语料的代表性、样本量、准确性、完整性等方面没有明确的量化指标和评估方法,导致生成式AI训练数据集构建难以判断数据是否存在偏差、错误或不足,进而影响生成式AI模型训练效果和生成结果的可靠性。第二,数据安全与隐私保护标准不完善。目前涉及的数据安全标准多为网络预约汽车服务、快递物流服务、健康医疗、声纹识别等各种场景的数据安全细化标准,针对生成式AI场景的具体标准、操作规范和技术要求还不够细化和全面。第三,模型评估与验证标准不健全。目前《人工智能 大模型 第2部分:评测指标与方法》仅局限于对人工智能大模型理解能力和生成能力的测评,而对生成式AI模型性能、安全性和可靠性的评估和验证缺乏完善标准及流程。

(3)伦理规范缺位。在社会系统论法学看来,生成式AI在技术操作层面呈现出一定的自我运行闭合特征,其在应对纷繁复杂的社会现实和网络关系时会形成一种兼具技术运作逻辑与法律关系属性的新型社会沟通媒介。在此过程中,法律系统与其它社会子系统尤其是技术系统的沟通和“诺米克博弈”并不一定能够及时有效,需要软法、伦理、道德等其它社会规范的多元治理。已有人工智能伦理规范仍存在如下难题:第一,伦理规范难以达成共识。一般而言,不同文化、不同宗教、不同国家、不同社会背景以及不同利益群体对于生成式AI伦理道德的基本理解和价值侧重存在显著差异,不同行业、不同领域、不同企业的业务目标、利益诉求、主要需求不同,其对生成式AI伦理规范的期望也不同。第二,伦理规范算法难以落地。伦理规范往往是抽象的概念和原则,要将“透明”“不伤害”“责任”“隐私”“民主”“人权”“公开”“公平”等伦理规范转化为具体可执行的算法存在一定技术困难,“伦理规范代码化”和“代码伦理规范化”存在现实技术难题[23]。此外,随着生成式AI技术的不断发展和迭代更新,伦理规范也需要进行相应调整、完善、更新和升级,这就需要建立动态伦理规范代码化机制,从而使得伦理规范在生成式AI数据风险治理领域落地难度倍增。第三,伦理规范责任难以执行。生成式AI数据风险治理往往涉及研发、应用、评估、检验等多个环节,从数据收集、数据标注,到模型训练、模型优化,再到最终模型应用和使用,很难界定每个主体在伦理规范执行方面的具体责任,导致折扣执行与责任推诿更加常见。并且,伦理责任并不具有法律责任的强制性,因而也就很难确定可操作的责任认定标准和处罚措施,导致在实际执行过程中难以对违反伦理规范的行为进行有效约束和制裁[24]

2.4 生成式AI数据风险治理手段

(1)传统行政工具路径依赖。行政部门依赖的事前备案、事中审查、事后处罚的治理链条本质上是为应对传统风险而设计的线性工具,却因治理惯性而被直接用于生成式AI非线性风险治理,导致工具效能减弱。第一,事前备案工具静态审查难以覆盖动态风险。生成式AI训练数据具有实时迭代性,模型训练常采用增量训练模式,在上线后仍持续吸纳新数据优化模型。而备案时提交的数据来源说明仅能覆盖初始训练数据,无法反映后续新增数据的合规性,使得事前备案工具的静态性与训练数据的动态性出现错配,导致备案沦为形式合规的程序性环节。第二,事中审查工具的人力依赖难以应对海量风险。事中治理仍以人工审查为核心,未能适配生成式AI数据的海量性与风险的隐蔽性。此外,生成式AI多模态内容常存在“灰色地带”,而人工审查依赖审查人员的主观判断,会导致同一类风险在不同平台、不同审查时段出现不同审查结果。第三,事后处罚的结果导向难以追溯风险链条。事后处罚多以结果追责为逻辑,却因生成式AI风险的多主体传导性而陷入追责困境。生成式AI数据风险形成往往涉及数据提供者、数据处理者、模型开发者、服务使用者等多个主体,但当前事后处罚多以平台为追责对象。这种“一刀切”式的处罚方式不仅导致真正的风险源头未被追责,还可能因高额处罚成本而抑制中小企业创新。整体来看,这种对传统行政工具的路径依赖使得生成式AI数据风险治理容易滞后于技术迭代与风险演化。

(2)技术赋能的制度梗阻。面对生成式AI数据风险,技术界和产业界相继研发了可解释AI、联邦学习、区块链溯源、多模态内容审核等技术工具,本应具备实时性、精准性、全链条性优势,以有效弥补行政工具局限,现实中却面临技术标准缺位、法律认可不足、激励机制缺失的三重制度梗阻。第一,技术标准缺位使得工具应用缺乏统一“度量衡”。当前,适配生成式AI数据风险的技术工具普遍缺乏国家或行业层面的统一技术标准,导致工具应用碎片化,无法形成协同防控合力。而企业为避免合规风险,只能选择保守技术方案,导致技术工具的深度解释能力无法有效发挥。第二,法律认可不足使得工具效力缺乏制度背书。技术工具的治理价值需依赖法律对其证据效力和合规地位的明确认可,但当前规范体系普遍存在技术工具法律定位空白,导致工具应用生成式AI缺乏制度支撑。第三,激励机制缺失使得企业应用缺乏利益驱动。技术工具研发与应用需投入高额成本,但当前制度未建立相应激励机制,再加上合规收益与成本严重失衡以及新兴技术误判风险,导致出现企业“不愿用”“不敢用”“用不起”的困顿局面。

(3)多元工具协同不足。当前,行政与技术工具协同存在“信息不互通”“功能不衔接”“权责不匹配”的三重欠缺,导致治理闭环不仅难以形成,反而可能会放大各自局限。第一,信息闭环缺失。行政工具规制依据与技术工具风险识别均依赖数据支撑,但二者数据体系无法完全互通,容易形成行政部门无实时数据、技术工具无规则数据的信息鸿沟,抑制工具协同效能。第二,功能耦合不足。治理工具协同需实现行政定规则、技术做执行、行政督效果的功能衔接,但当前二者在风险处置环节存在一定的脱节,形成技术发现风险无法及时处置、行政可处置却难以及时发现的矛盾和断层。第三,权责映射模糊。工具协同需以清晰的权责划分为基础,但当前未明确行政部门与企业在工具应用中的权责边界,容易导致出现技术工具出问题谁担责、行政工具用错谁负责的责任真空,进一步抑制协同意愿。总之,这种工具协同的碎片化容易使得治理陷入各自为战的内耗困境。

3 生成式AI数据风险治理机制优化

生成式AI数据风险治理面临目标含混、主体割裂、依据缺位、手段僵化四大系统性困境,本质上是治理要素与技术演化的适配失衡。对此,需要以系统协同、动态适配、风险沟通和多元共治为核心理念,构建目标校准、主体协同、依据完善、手段革新四位一体的优化方案,通过治理要素之间的深度耦合与机制再造,实现生成式AI数据风险治理的质性跃迁[25]

3.1 生成式AI数据风险治理目标校准

(1)通过平衡校准机制来破解安全与发展的平衡难题。安全与发展失衡源于静态底线思维对治理实践的路径锁定,即要么以绝对安全抑制创新活力,要么以无序发展放任风险扩散。对此,需建立基于风险分级的动态平衡框架,将技术工具嵌入平衡校准过程,实现安全可控前提下的发展最大化与发展导向下的安全精准化。第一,通过风险分级差异化治理来划定动态平衡的刚性边界。参考全国网络安全标准化技术委员会秘书处发布的《网络安全标准实践指南——生成式人工智能服务安全应急响应指南》所确立的“事件影响对象的重要程度”“业务损失的严重程度”“社会危害的严重程度”3个分级标准,将生成式AI数据风险划分为“特别重大”“重大”“较大”“一般”四级,对应设定“禁止准入”“严格审批”“备案监管”“自主防控”四类治理强度,从而既避免“一刀切”管控对技术发展的抑制作用,又通过刚性标准守住核心安全底线[26]。第二,通过安全与发展协同实现技术赋能平衡。以同态加密、差分隐私、安全多方计算等在内的隐私增强技术以及其它技术治理工具与智能审计工具为核心,搭建安全与发展的技术“桥梁”,形成技术合规与发展便利之间的正向循环。第三,建立反馈迭代的校准闭环。依托生成式AI自身数据分析能力尤其是去中心化治理网络拓扑结构、分布式治理模型或风险应对效果反馈强化学习机制来实现生成式AI系统对数据风险的动态响应和韧性治理[27]。也即,韧性适应的生成式AI数据风险治理模式将对数据风险的过度关注转移到对数据风险应对能力的系统构建上,从而在正本溯源过程中使生成式AI数据风险治理转向动态化、弹性化的治理正轨[28]

(2)通过利益缓冲的协同耦合机制融合国家与企业之间的目标差异。国家与企业的目标差异本质上是公共利益与商业利益的分配平衡,需通过权责清单法定化、利益诉求制度化、协同过程机制化实现二者目标耦合。第一,通过设计权责利对称制度明确主体诉求边界与重叠。在国家层面,根据《党和国家机构改革方案》的原则和精神,进一步细化数据风险领域分工,明确网信、公安、市场监管等部门的监管边界,由国家数据局统筹规则制定与跨域协同、公安部门负责打击数据犯罪、市场监管部门监管数据交易合规性,避免多头监管或监管真空。在企业层面,区分平台方、数据提供方、模型开发者的责任链条,由平台方承担全流程管控主责、数据提供方承担来源合规责任、模型开发者承担技术安全责任。第二,通过政企共治的平台化运作模式搭建目标协同的实践载体。平台内设规则共创、风险共享、技术共用三大模块,在规则共创模块,企业与行业组织可对拟出台的监管政策提出建议;在风险共享模块,企业需实时上传技术监测异常数据,政府同步推送跨企业风险线索;在技术共用模块,由政府牵头整合头部企业的检测工具与开源数据集,向中小企业提供轻量级版本。第三,通过国际规则的适应性衔接化解跨境场景目标冲突。针对跨境数据流动中出现的国家主权与企业全球化诉求冲突,建立规则互认和风险共防协同机制。积极推动生成式AI数据治理标准的国际对接,对符合我国安全要求且获得目标国认证的企业,简化其跨境数据流动审批流程。面对跨境虚假信息传播、训练数据侵权等风险,通过区块链技术实现证据跨境互认,从而在维护国家数据主权的同时保障企业全球化布局的合规性。

(3)打造短期防控和长期演进的时序衔接机制来促成即时需求与长远发展的有机衔接。短期与长期目标的不协同源于应急思维对长效逻辑的压制,因而需要构建应急处置、中期迭代、长期演进的时序衔接体系,实现不同阶段目标的有机贯通。第一,通过短期应急的精准管控守住风险扩散的即时底线。对突发数据泄露、虚假信息传播等风险,通过技术工具快速定位风险源头,采取局部隔离、精准删除、溯源追责的最小化处置措施,避免因全域下架或全面停服等过度干预影响技术研发进程。应急处置完成后,自动生成相应复盘报告,为长期制度完善提供数据支撑,使短期应急成为长期演进的试错样本[29]。第二,通过中期迭代的制度适配构建目标过渡的衔接桥梁。生成式AI企业应树立正确发展理念,将数据风险治理纳入企业战略规划,通过建立专门的数据风险治理机构或团队、制定数据风险治理目标和计划、完善数据风险治理流程和制度、开发数据风险治理技术和工具等措施提升生成式AI数据风险治理效率和效果。第三,通过长期演进的生态培育夯实目标实现的基础支撑。政府要重点扶持可解释AI、深度伪造检测等前沿技术研发,推动测试数据集开源共享,降低中小企业技术门槛。同时,建立政产学研用协同育人机制,将数据安全治理纳入人工智能专业核心课程,培育兼具技术能力与合规意识的复合型人才。此外,要推动头部企业与中小企业建立技术协作网络,形成标准共建、风险共防、创新共享的产业生态。

3.2 生成式AI数据风险治理主体协同

(1)通过公权力协同机制破解内部协同难题。公权力机关的内部协同阻滞源于权责边界模糊化与信息流转壁垒化,需通过高位统筹、技术赋能与流程再造,实现公权力体系的整体性治理。第一,通过高位阶统筹协调确立权责清晰的协同中枢。在国家层面,设立生成式AI数据治理协同委员会,由国家网信部门牵头,整合公安部门、工信部门、市场监管部门、司法部门、国家数据局等部门,制定相应权责清单,明确各部门的核心分工。此外,建立每周研判、每季通报、每年评估等常态化协同制度以及特殊高危场景专项调度制度,从制度根源化解推诿扯皮与协同难题。第二,通过技术化贯通衔接搭建数据共享协同载体。在保障各部门数据管理权的前提下,平台在采用跨域学习架构的基础上,通过差分隐私与可信执行环境技术,实现风险特征库、执法案例库、企业合规档案协同建模。同时,还可以嵌入工单智能分流模块,将跨部门风险线索按权责清单精准推送至对应主体。此外,还可以建立统一的技术适配标准,确保网信部门的风险监测数据、公安部门的溯源结果与市场监管部门的处罚信息可跨系统互通核验。第三,通过绩效化评估健全协同效能保障机制。建立协同效能评估体系,将跨部门响应时效、风险线索流转效率、联合执法办结率等量化指标纳入各部门绩效考核体系,引入第三方评估机构,根据评估结果设置奖罚分明的激励措施。

(2)通过政企共治机制纾解政企间协同发展的衔接梗阻。国家与企业因目标适配偏差与互信基础薄弱容易陷入利益协同不平衡的情形,需通过权责对称、利益共享与信任建构突破“监管—被监管”或“治理—被治理”的二元对立关系[30]。第一,通过权责对称配置构建政企目标耦合的制度基础。在责任端区分平台方、数据提供方、模型开发者全链条责任,在权益端设立相应合规激励清单和责任豁免机制。第二,通过平台化共治运作搭建政企协同实践的核心载体。相比前述提及的目标协同,实践协同更侧重于平台化共治运作的实践面向,即不仅要在规则共创上吸纳企业参与,更要在风险共防和技术共享上采取包括但不限于研发技术、降低门槛、政企互聘、彼此挂职、建立智库等实践举措[31]。第三,通过信任化生态培育体系夯实政企协同共生的社会基础。当政府与企业之间存在互信衔接不畅时,应引入第三方机构搭建二者之间的信任“桥梁”,通过国家认可的检测机构开展数据合规认证,增强政府信任,同时为认证企业颁发安全信任标签。此外,还需建立数据风险沟通机制以培育信任化的社会生态[32]。具体而言,既要建立内部沟通机制或跨部门风险信息共享平台,即在生成式AI开发和应用组织内部,建立良好沟通渠道以确保不同业务部门和技术人员之间能够及时、准确地交流数据风险信息;也要对外部利益相关者进行数据风险信息分级披露,通过数据风险沟通听证会、座谈会、报告会等形式将数据风险消弭于无形或消解于萌芽。

(3)通过国际协作机制缓解规则争夺博弈。生成式AI数据风险跨境传导性与规则制定的权力属性,使得国际社会陷入标准割据与话语权争夺困境,因而需要推动形成“和而不同”的国际治理格局。第一,通过强化内生规则体系来筑牢国际协作的制度根基。国际协作机制的打造有赖于国内规则体系的完善,只有国内规则体系牢固稳靠,才能为国际协作提供可输出的制度样本。此外,还需建立国内规则国际适配评估机制,由协同委员会定期研判国内规则与国际主流框架的兼容性,为跨境协作扫清制度障碍。第二,通过分层级国际协同构建多元包容的协作网络。要在兼顾规则主导权与治理包容性的基础上,实施圈层化国际协作策略。在核心圈层,深化与“一带一路”共建国家的数字治理合作,共建生成式AI数据安全走廊,实现训练数据来源核验、生成内容标识区域互认。在协作圈层,与欧盟、东盟等区域组织建立风险预警联盟,针对深度伪造、跨境数据泄露等共同风险,共享检测算法与溯源技术[33]。在对话圈层,与美国和日本在技术安全、伦理审查等共识领域开展双边对话,避免因规则差异引发技术脱钩。第三,通过话语权的柔性输出传递中国治理理念与方案。积极推广安全与发展平衡理念,区别于美国“技术自由优先”与欧盟“风险防控优先”的单一导向。此外,还要加强涉外法治人才尤其是复合型国际治理人才培育,用国际通用话语体系阐释中国治理逻辑,提升中国规则接受度。

3.3 完善生成式AI数据风险治理依据

(1)通过分层立法和动态调适的规则体系破解规范滞后困境。现有法律规范要么因过度原则化容易成为宣言式条款,要么因覆盖不全容易形成规制空白带,因而需建立兼顾稳定性与灵活性的分层立法框架,并辅之以法律更新机制和权责划分机制。第一,搭建包括基础性立法、专门性立法、实施性立法在内的分层立法立体框架。立法机关在构建刚性约束框架时,应充分考虑生成式AI的技术特点和发展规律,确保生成式AI数据风险治理法律法规的科学性和可操作性[34]。以《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》为基础支撑,构建横向全覆盖和纵向分层次的法律体系。在横向维度,制定关于人工智能的专门立法,设置聚焦训练数据合法性、跨境数据流动等核心议题数据专章。在纵向维度,配套出台涉及训练数据合规管理的具体细则或涉及生成内容标识的实施办法等规范性文件,将专门法的原则性要求转化为可操作、可核验、可追责的具体规则。第二,建立技术感知和快速响应的法律更新机制。为突破法的滞后性的天然瓶颈,应构建法律与技术动态适配机制。通过法律专家和技术专家对话和沟通,由法律专家提供特定留白条款或授权条款等立法技术,由技术专家提供动态调适的数字技术,在促进法律更新的同时形成法律与技术的治理合力。第三,完善全链条和差异化权责划分机制。要破解责任模糊难题,需构建主体、行为、责任精准匹配追责体系。同时,还可以引入阶梯式处罚机制和联合信用惩戒机制,对故意规避数据合规要求的企业从重处罚,对主动采用隐私计算、区块链溯源等技术防控风险的企业给予激励[35]

(2)通过完善行业标准体系破解碎片化困境。行业标准缺位源于政府单一供给与市场多元需求的失衡,现有标准要么因脱离技术实践沦为纸面标准,要么因缺乏协同性形成标准孤岛,因而需要实现标准与法律要求、技术实践的无缝衔接。第一,搭建多元共治的标准生态。改变目前的标准制定模式,构建政、产、学、研、用五方协同参与的标准生成机制和共识达成机制。第二,制定全链条覆盖三级标准。在基础通用层面,出台生成式AI数据分类分级标准;在场景专用层面,针对医疗、教育、跨境等场景制定专项标准;在技术适配层面,规范隐私计算、区块链溯源等工具应用标准。第三,建立协同衔接的闭环转化机制。需破解标准与法律的脱节、与技术的错位,构建三者协同转化或衔接体系。一方面,推动标准的法律化确认,将强制性标准纳入人工智能专门立法的正文或附则;另一方面,建立技术创新和标准更新联动机制,对可解释AI、深度伪造检测等新技术,通过快速评估纳入标准体系。就评估而言,数据风险评估需通过数据风险评估专家委员会、数据风险评估第三方公司、风险控制部门联合业务部门、行业或领域主管部门确定评估指标,运用量化方法、定性分析方法或数字技术工具对数据风险开展前置评估和定期评估。

(3)构建制度固化和全流程融入伦理规范体系以破解伦理悬置困境。伦理规范缺位在于价值倡导与实践约束的剥离,从而使伦理缺乏转化为实践行动的制度载体,因而需要建立制度化的伦理体系,实现伦理从软性倡导到刚性约束的落地转化。第一,确立底线坚守和价值引领的核心伦理原则。以《关于加强科技伦理治理的意见》《新一代人工智能伦理规范》《人工智能科技伦理管理服务办法(试行)》等为基础或指引,凝练生成式AI数据风险治理的伦理内核。要确立四大底线伦理原则,即“尊重隐私原则”“公平公正原则”“公开透明原则”“责任担当原则”,并将社会主义核心价值观嵌入生成式AI数据风险治理全流程。第二,构建制度嵌入伦理机制。在事前环节,建立伦理影响评估强制制度,使企业在生成式AI上线前提交数据风险评估报告,重点核查训练数据是否存在偏见、生成内容是否可能引发伦理风险等;在事中环节,依托技术工具实现伦理监测;在事后环节,建立伦理失范追责机制,对因伦理疏漏导致的歧视、虚假信息传播等问题,纳入企业信用档案[36]。第三,培育伦理支撑生态体系。构建包括政府、企业、公众等主体协同的伦理生态,培育良好的社会氛围。建立内部伦理委员会,将伦理要求嵌入算法设计、数据筛选等环节。还可以组织专家学者开展数据伦理研究,制定符合社会发展需求的伦理准则。通过社会公众和非政府组织的共同努力,让数据治理的伦理价值观念深入人心,成为社会成员自觉遵守的行为准则。

3.4 生成式AI数据风险治理路径

(1)构建行政工具革新机制以纾解路径依赖的惯性制约。传统行政工具具有一定的路径依赖性,需要通过对工具的精准化、数字化、弹性化改造,实现行政监管与风险演化的同频共振。第一,通过风险分级的精准化监管实现行政干预的靶向发力。生成式AI数据风险分类分级是实现精准化监管和监管工具匹配的重要基础。对于高风险场景,需要匹配实施前置安全评估和季度合规审计的双重措施,强制要求企业提交训练数据溯源报告和算法透明度说明。对于低风险场景,可推行负面清单和事后承诺模式,通过智能监测系统对违法内容实施精准拦截[37]。第二,通过全生命周期数字化转型实现动态响应。搭建跨部门行政监管数字化平台,整合备案系统、风险监测、执法办案等功能,嵌入人工智能算法,对风险线索进行自动识别与分派。在数据采集阶段,通过智能爬虫监测工具对违规爬取行为实施秒级预警;在训练阶段,依托自然语言处理技术自动核验个人信息保护,确保评估报告的真实性;在生成流转阶段,对接企业溯源系统,对违规内容进行跨平台追踪与一键下架。第三,通过柔性包容的弹性化适配来平衡监管强度与创新活力。在惩戒端,实施阶梯式处罚和信用联动机制,对首次轻微违规企业侧重合规指导,对屡犯企业纳入失信名单并限制市场准入;在激励端,参照部分城市推行的“算力券”“语料券”等模式,对主动部署可解释AI、区块链溯源等技术的企业给予资金补贴,对通过合规认证的企业简化备案流程;在容错端,建立技术局限豁免制度,对已履行法定合规义务但因技术迭代导致的非故意违规,经第三方评估后可减轻或免除处罚。

(2)建立技术赋能激活机制以打通技术落地的梗阻壁垒。技术赋能制度梗阻本质上是技术创新与制度供给的时空错配,需构建沙盒容错、技管耦合、生态培育三维动态机制,实现技术工具与治理体系的深度融合。第一,构建分级沙盒前端技术试错机制。通过有限风险场域制度设计为技术创新提供安全缓冲带,在风险可控的前提下进行大胆试错[38]。具体而言,构建创新型、验证型、推广型三级沙盒体系,创新型沙盒面向未成熟的突破性技术,验证型沙盒针对已具备初步应用条件的技术,推广型沙盒聚焦经验证的成熟技术。沙盒运行实行动态清单管理,由跨领域专家委员会定期更新可入盒技术目录与风险防控要求。第二,建立技管耦合的中端制度适配机制。在制度制定环节,吸纳技术研发者参与生成式AI数据风险治理制度修订;在标准制定环节,由监管部门主导划定安全底线,由企业与学界负责细化技术指标。第三,构建成本分担后端动力激活机制。建立政府补贴、市场分摊、社会支持的成本共担体系,降低企业技术适配门槛。在政府层面,设立专项基金对部署合规技术的企业给予分级补贴;在市场层面,推动建立行业技术共享平台,为其提供技术接口或使用费用;在社会层面,鼓励第三方机构提供技术租赁和合规托管在内的一体化服务,缓解人工智能企业在数据方面的运维压力。此外,依托模型上下文协议,将风险熵值评估体系、模型可解释性工具、众包式风险监测工具、生成内容防火墙、互认式监管沙盒、模型可干预接口、数据操作溯源监测系统等各种数据风险治理技术工具合法性接入,实现“以魔法打败魔法”“用技术规训技术”的数据风险走廊式治理机制[39]。但需注意的是,技术架构的繁杂设计和冗长设置会使生成式AI运行效率渐趋下降,过度隐私保护和数据保护可能会影响或干扰生成式AI模型的训练效果和输出结果,因而有必要在该数据风险走廊式治理机制的基础上探索场景化的“最小化合规”技术方案。

(3)通过多元工具联动互嵌消解协同不足的系统损耗。多元工具协同不足源于工具属性差异与权责边界模糊,通过平台整合、流程再造、责任绑定实现工具间的深度耦合与效能叠加。第一,通过一体化协同平台建设构建工具互联的技术载体。通过集约部署搭建国家级生成式AI数据风险协同治理平台,以核心底座和功能模块架构运行。其中,核心底座需整合跨部门行政数据、企业技术监测数据、第三方评估数据,通过联合学习实现数据可用不可见。而功能模块则涵盖风险预警、智能研判、执法协同、国际合作等场景。第二,通过闭环化协同流程设计实现工具联动的无缝衔接,建立从技术预警到行政研判再到执法处置最后到效果评估的全流程协同机制。由技术工具监测到数据风险后自动推送至协同平台,由行政部门依托平台内置的智能研判模型,结合风险等级与属地责任完成线索分派,由执法部门通过平台调取技术溯源证据并实施精准处置,在处置完成后由平台自动跟踪整改效果形成闭环。第三,通过责任化协同保障机制强化工具协同的刚性约束。在必要情况下,可建立协同效能评估与问责机制,将工具协同成效(如“跨部门数据共享率”“技术预警转化率”“协同处置办结率”等)纳入治理效能考核体系[40]

4 结语

传统治理范式主要是基于对象场景的分散治理、基于风险预防的事前治理以及基于法律规范的硬性治理,无法回应生成式AI数据风险治理的适应性、多元性、动态性和包容性要求。因此,面对治理目标含混、治理主体割裂、治理依据缺位、治理手段僵化困境,需要转变治理理念,丰富治理主体,创新治理技术,完善治理机制,最终形成技术可追溯、责任可承担、风险可沟通、治理可预期的生态化治理体系。本文以格里·斯托克(Gerry Stoker)教授的治理理论为基础,通过构建目标校准、主体协同、依据完善、手段革新四位一体的方案来优化生成式AI数据风险治理机制。需要说明的是,上述四大治理要素并非孤立运作,各种治理机制也并非单兵作战,而是通过复杂的互动关系形成数据风险治理合力,从而在硬约束与软引导相结合、事前预防与事后追责相衔接、政府监管与市场自律相互补的基础上推动生成式AI数据风险治理体系不断创新和渐趋完善。

具体而言,生成式AI治理的四大要素通过目标引领方向、主体承载行动、依据规范路径、工具赋能实施的内在逻辑形成深度耦合,共同构成治理效能提升的闭环系统。第一,治理目标为治理要素耦合提供价值基点。治理目标的价值校准直接决定其它要素耦合方向,目标导向性确保要素耦合始终围绕核心需求展开,避免治理偏离本质。第二,治理主体为治理要素耦合搭建行动载体。多元主体权责分配决定要素耦合的实践形态,以破解单一主体治理的局限性。第三,治理依据为治理要素耦合夯实规范基础,包括法律、标准、伦理等在内的多元依据体系,为治理要素耦合提供刚性约束与柔性指引,三者共同保障治理要素耦合的合规性与正当性。第四,治理工具为耦合注入实施动能。技术工具的适配性直接影响要素耦合的落地效果,工具的智能化升级进一步强化要素间的实时联动与动态适配。综上,四大治理要素耦合是目标定方向、主体聚合力、依据立规则、工具强执行的有机统一,最终形成循环迭代的治理生态,为生成式AI数据风险治理提供系统性解决方案。

参考文献:

[1] 刘艳红.生成式AI的三大安全风险及法律规制——以ChatGPT为例[J].东方法学,2023,16(4):29-43.

[2] 孙清白.论人工智能大模型训练数据风险治理的规范构建[J].电子政务,2024,21(12):41-52.

[3] 侯东德.人工智能发展中的数据风险及治理[J].行政法学研究,2024,32(6):3-15.

[4] 郑煌杰.AIGC赋能新质生产力的数据风险及其敏捷治理[J].河海大学学报(哲学社会科学版),2024,26(4):89-102.

[5] 尼克拉斯·卢曼.风险社会学[M].孙一洲,译.桂林:广西人民出版社, 2020.

[6] 焦和平.人工智能创作中数据获取与利用的著作权风险及化解路径[J].当代法学,2022,36(4):128-140.

[7] 郭德忠,张云蔚.生成式AI训练数据侵权风险与法律应对[J].湘潭大学学报(哲学社会科学版),2024,48(5):78-86.

[8] 郭小伟.法律家长主义视角下的算法治理[J].盛京法律评论,2023,14(2):86-108.

[9] 黄锫.人工智能大模型训练数据的风险类型与法律规制[J].政法论丛,2025,41(1):23-37.

[10] 钭晓东.论生成式AI的数据安全风险及回应型治理[J].东方法学,2023,16(5):106-116.

[11] 林伟.人工智能数据安全风险及应对[J].情报杂志,2022,41(10):105-111,88.

[12] 张欣.生成式AI的数据风险与治理路径[J].法律科学(西北政法大学学报),2023,41(5):42-54.

[13] 蒋银华.论数字法治政府建设的安全之维[J].法律科学(西北政法大学学报),2024,42(4):68-78.

[14] 格里·斯托克,华夏风.作为理论的治理:五个论点[J].国际社会科学杂志(中文版),2019,36(3):23-32.

[15] 季卫东.人工智能开发的理念、法律以及政策[J].东方法学,2019,20(5):4-13.

[16] 季卫东.法律与概率——不确定的世界与决策风险[J].地方立法研究,2021,6(1):1-18.

[17] 郭小伟.论新质生产力的法律属性[J].华东理工大学学报(社会科学版),2025,40(3):1-12,43.

[18] 郑戈.人工智能伦理的机制设计[J].中国法律评论,2025,12(1):48-62.

[19] 孙祁,尤利娅·哈里托诺娃.数据主权背景下俄罗斯数据跨境流动的立法特点及趋势[J].俄罗斯研究,2022,42(2):89-107.

[20] 邓灵斌.日本跨境数据流动规制新方案及中国路径——基于“数据安全保障”视角的分析[J].情报资料工作,2022,43(1):52-60.

[21] 任鹏飞.美国数据战略及其全球影响[J].当代世界社会主义问题,2024,41(3):126-141.

[22] 李学尧.人工智能立法的动态演化框架与制度设计[J].法律科学(西北政法大学学报),2025,43(3):32-44.

[23] 郭小伟,董岱霖.“代码即法律”的法哲学反思[J].南海法学,2023,7(1):1-12.

[24] 李学尧.人工智能伦理制度的跨学科建构:复杂适应系统的思路[J].浙江学刊,2024,52(6):48-56.

[25] 尼格尔·多德.社会理论与现代性[M].陶传进,译.北京:社会科学文献出版社,2002.

[26] 袁康,鄢浩宇.数据分类分级保护的逻辑厘定与制度构建——以重要数据识别和管控为中心[J].中国科技论坛,2022,38(7):167-177.

[27] 邱遥堃.生成式AI的规制挑战与体系应对[J].南大法学,2025,6(2):131-145.

[28] 郑煌杰.生成式AI数据风险治理的模式转型——从“传统治理”到“敏捷治理”[J].上海政法学院学报(法治论丛),2024,39(6):84-100.

[29] 赵梓羽.生成式AI数据安全风险及其应对[J].情报资料工作,2024,45(2):30-37.

[30] 丰霏.从立法技术到治理理念——中国语境下法律激励理论的转向[J].法商研究,2015,32(3):46-54.

[31] 李智,陈盈盈.具身智能体数据隐私风险的合作治理[J].上海财经大学学报,2025,27(5):138-152.

[32] 顾理平,王芊蕴.人机对话中的隐忧:大语言模型的数据隐私风险与信任机制[J].现代传播(中国传媒大学学报),2025,47(6):128-138.

[33] 洪莹莹.欧盟《数字市场法》及其对中国的启示[J].上海政法学院学报(法治论丛),2023,38(2):14-31.

[34] 郭小伟.数字正义的立法向度:语义、境遇与进路[J].中国矿业大学学报(社会科学版),2025,27(4):63-78.

[35] 吴宗泽,任柏玉.合成数据的隐私风险、监管困境与完善进路[J].中国科技论坛,2025,41(8):136-143.

[36] 和军,李江涛.人工智能数据风险及其治理[J].中国特色社会主义研究,2024,46(6):42-51.

[37] 梁远高.论人工智能大模型训练数据风险的分层规制[J].郑州大学学报(哲学社会科学版),2025,58(3):61-67,144.

[38] 周汉华.探索激励相容的个人数据治理之道——中国个人信息保护法的立法方向[J].法学研究,2018,40(2):3-23.

[39] 郭小伟.检察场景的数字正义:动因、挑战与方案[J].上海政法学院学报(法治论丛),2025,40(6):119-140.

[40] 张建文.对作为独立数据类型的“重要数据”的发生史与本体论考察[J].上海政法学院学报(法治论丛),2025,40(1):53-64.

(责任编辑:王敬敏)