This paper aims to enhance the scientific data governance system to balance data security with efficient data flow. It highlights the benefits of a data classification and grading system for managing heterogeneous data, aligning with the complex nature of scientific data. However, current research often overlooks the system's role in data circulation and sharing, focusing instead on security. The paper points out a significant gap in the literature regarding the impact of scientific data centers' classification and grading systems on overall governance. To address this, the paper conducts empirical research on China's national scientific data centers, applying contextual integrity theory and policy analysis to assess how data flow supports freedom, security, and value within specific contexts.
This paper utilizes the publicly accessible texts related to classification and grading from 20 national scientific data centers as research samples, and sets up seven observational points, namely normative categories, resource support, policy synergy, management model, liability allocation, openness degree, and normative value, to evaluate the supply, effectiveness, and value balance of the classification and grading system norms of scientific data centers in China. The breadth and depth of the research perspectives are sufficient to ensure the scientificity and reliability of the research results. The results indicate three cardinal issues within the classification and grading system of national scientific data centers. Firstly, the classification and grading system norms of the 20 national scientific data centers are inadequately formulated and have weak cooperativity among norm groups. Secondly, the positive list management and imbalance of liability allocation diminish incentives for the open sharing of scientific data. Thirdly, the existing classification and grading system overemphasizes data security to the ignorance of circulation, failing to achieve an appropriate equilibrium between security protection and open sharing values.
Drawing on the research findings, this paper offers several recommendations for improvement. It advocates for the augmentation of formal regulations that adhere to the principles of openness, rationality, and non-discrimination, while also reinforcing the harmonization of norms across various governance bodies. Subsequently, the paper suggests transitioning from a positive list to a negative list approach, thereby fostering a more permissive atmosphere for the dissemination of scientific data. Additionally, the establishment of an accountability and incentive framework is proposed to encourage the sharing of scientific data. Furthermore, it calls for the refinement of scientific data classification and grading protocols, integrating considerations of security and sharing value, and accounting for the positive and negative externalities associated with data utilization. Lastly, the paper endorses the application of the Principle of Proportionality, encompassing appropriateness, necessity, and balance, in the valuation and categorization of scientific data. This paper integrates research findings from the domains of Contextual Integrity theory, data classification and grading system, and scientific data governance. It innovatively introduces the Contextual Integrity theory into the fields of scientific data governance and the classification and grading system, filling the empirical gaps in the scientific data classification and grading system. Moreover, it constructs a novel model for classification and grading system model that balances both openness and sharing, and puts forward new approaches to optimizing scientific data governance. The results of this paper are expected to provide valuable guidance for researchers in their data management activities.
新质生产力作为创新驱动的先进生产力,科技突破是其核心标志之一,而这离不开数据生产要素的支撑。大数据时代,无论是经验研究、理论研究等经典科研范式,还是电子科研(E-Science)等革新范式都愈发倚重数据共享。但现实中,科学数据从应然的价值释放到实然的制度运行均存在诸多梗阻,导致科技成果孵化周期变长、重复科技劳动增加,不利于新质生产力发展。结合数据密集型科研特点,学界引入数据生命周期、成熟度模型、科学数据仓库等新兴理论,但这些研究多旨在为科学数据利用和转化提供工具性资源,未能回答“如何协调科学数据安全与价值共享的冲突”“如何搭建推动科学数据开放共享的治理架构”等元问题。基于科学数据在价值、类型、形态等诸方面的异质性要求,应针对不同数据类型进行差异化治理,而分类分级制度正是体现区分逻辑的治理工具,其贯穿于科学数据全生命周期,能够实现科学数据的安全保护和高效流通。虽然一些关涉科学数据分类分级的研究提出数据双层治理轨道、元数据管理、数据标签、科技资源标识等工具或框架,但对本土数据治理现况和创新实践的关注不足,研究客体也大多局限于某一狭窄数据领域,未能对整体科学数据作出体系化制度设计。
科学数据治理是劳动密集型过程,个体科研人员通常缺乏资源,组织支持是促进数据共享的必备要素之一[1]。很多科技大国通过建立科学数据中心方式为数据共享提供支撑,如美国设立的国家环境信息中心、英国建立的国家地球科学数据中心、英国大气数据中心等。我国设立了20所国家级科学数据中心,覆盖基础科学、农业、气象、海洋等多个领域,推动科学数据开放共享和创新应用。党的二十届三中全会明确提出建设和运营国家数据基础设施,促进数据共享。国务院2022年1月印发《“十四五”数字经济发展规划》,强调“推动数据资源标准体系建设,提升数据管理水平和数据质量,探索面向业务应用的共享、交换、协作和开放”。2024年9月25日,国家发展和改革委员会等部门发布《国家数据标准体系建设指南》,指出“建立国家数据标准体系,为推动数据要素高水平应用提供有力支撑”。科学数据分类分级制度是国家数据标准体系的重要组成部分,展开相关优化研究意义重大。因此,有必要探讨科学数据中心这一国家数据基础设施治理现状,提出建构开放共享导向型分类分级制度的具体建议。
不同的治理价值定位会影响具体的治理策略选择。安全和开放是两种重要的数据治理价值,但彼此存在一定冲突,需要予以平衡。
安全导向的数据治理模式以“尽可能封闭”为原则,在优先保证机密性、完整性、安全性[2]的基础上兼顾其它数据价值。以《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》为核心的规范架构分别从网络数据系统、一般数据以及个人信息等层面构建完整周延的数据安全保护体系。然而,数据密集型科研范式下偏于静态、安全导向型的治理模式难以契合动态的科学研究效率性需求,还可能阻碍科学数据推动科技突破。这是因为:第一,科学数据采集存在较高的工具和技术壁垒(如天文数据收集)。如果数据持有者以笼统的数据安全为由拒绝共享,那么很容易形成垄断。通过建立成员联盟将非成员排除在数据共享范围之外,虽然有利于提升成员单位的科研激励,但也易催生数据垄断。第二,过于强调静态安全的数据治理模式不利于科学研究合作。Figshare&Springer Nature向全球科学家发放的《开放数据状况调查问卷》中,642份中国学者问卷数据显示,73%的受访者认为开放数据可以促进合作,49%的受访者表示使用过他人的开放数据[3]。过于密集的安全保护规范可能引发科学数据流通困难、访问成本昂贵、共享收益减损等问题,不利于创新合作。第三,科技创新活动需要高准确性的科学数据,一些复杂创新更是需要原始数据,然而安全导向型治理模式更偏好共享经过加工处理的衍生数据产品,对原始数据资料则保持封闭态度。往往大量的科学数据分散在课题组甚至个人手中,有许多高价值的科学数据并未得到充分共享和使用[4]。欧盟委员会研究与创新总署在2018年发布的研究报告《不遵循FAIR原则开放科学数据的代价》中指出,科学数据开放共享的不彻底使欧盟每年直接经济损失达102亿欧元。
有别于安全导向型模式,开放共享型科学数据治理模式以尽可能开放为制度设计原则,努力打破学科封闭、知识鸿沟、技术壁垒等制约因素。新质生产力发展要求我国科学数据治理以开放共享为价值旨归,其正当性理据表现为:第一,回应科学开放时代的数据治理需要。随着科学研究全球化,很多国家和组织积极推动科学数据开放共享,大力挖掘科学数据的应用价值。2018年国务院办公厅印发的《科学数据管理办法》明确了“开放为常态、不开放为例外”的数据治理原则。2019年欧盟发布的《关于开放数据和公共部门信息再利用的指令》明确“尽可能开放,必要时才封闭”的数据治理原则。第二,科学数据相较于其它数据有更高的开放共享需求。一方面,离开科学数据共享,很多学科研究步履维艰(如遗传学、基因组学)。欧盟于2009年设立开放获取基础设施研究项目,2016年推出“开放科学云计划”,这些举措极大促进欧洲科学事业发展[5]。另一方面,科学数据处理加工后的衍生数据或后续成果易成为知识产权法保护对象。21世纪以来专利制度饱受保护强度过大的诟病[6],同时,美国在TRIPs、ACTA等国际协定中不断推高知识产权保护水平,意图垄断和建立技术霸权。相比滞后且昂贵的技术转让或许可,更加前置的科学数据共享能更大程度地提升创新效率。第三,相较企业商业数据和个人隐私数据,科学数据具有更强的公共物品属性。共享非竞争性科学数据不仅不会陷入公地悲剧,反而会因发展生产力、减少无效知识劳动、缩短创新周期而对公共福利产生深远影响[7]。有学者甚至呼吁保障“开放科学的人权”(Human Right to Open Science)[5]。开放共享有利于科技创新,消除“知识鸿沟”[8]。开放共享是科学数据不可忽略的重要属性,是科学数据要素效益最大化发挥和增值的先决条件[9]。
在科学开放运动的助推下,开放共享型科学数据治理模式方兴未艾,但欲取得更好的治理绩效仍需防范数据安全风险,而分类分级制度正是一种能够在保证数据安全的前提下实现数据共享的制度枢纽。政治经济学家沃格尔[10]提出,信息经济需要更多能够赋权市场的治理机制,制度规范就属于市场治理机制之一。治理者可以通过分类分级制度规范这一治理机制,在融合安全与共享价值的情况下推动数据治理模式迭代升级。
风险理论是安全导向型科学数据治理的理论依据[11],其强调通过评估前端的潜在性危害以加强后端的风险预防。该理论强调风险封堵而非疏导,但静态封堵策略势必忽视数字风险自身规律,陷入发展与安全的双重困境(Double Bind)[12]。数据风险不仅包括数据收集、存储中的静态风险,还包括数据流动中产生的风险。例如,曾有期刊将相关国防科学数据设置为科学前沿问题,诱导研究者发表相关学术成果并提供大量数据[13],此类数据流动就存在危害国家安全的风险。基于风险理论的治理可能陷入既不能有效防范数据安全风险(尤其是动态风险),又难以促进数据流通发展的局面。
本文认为开放共享型科学数据治理的理论依据是场景理论[14]。该理论是康奈尔大学数据法学者海伦·尼森鲍姆(Helen Nissenbaum)[15]提出的,最早用于解释美国《消费者隐私权利法案》的“尊重场景原则”。该理论为数据流动提供3个层次的评判标准:是否促进自由、可否保证安全以及能否促进重要价值或目的实现。相较于风险理论,场景理论更适应当下数据要素赋能新质生产力发展的改革方向,这是因为它提供了一种区分对待、个案分析方法来解决数据流通中相互冲突的利益和价值问题。场景理论并非忽视数据风险,相反,其要求监管者对数据风险内涵有更全面、动态的把握。数据风险的传染性和渗透性导致其容易在不同应用场景间扩散蔓延,单一层面的风险分析难以防范系统性风险[12]。科学数据的精准治理要求在场景中评估风险,风险的复杂内涵也只能在场景中被全面感知,数据治理只有在场景中才能更好地平衡共享与安全价值,而分类分级制度正是落实场景原则、处置多元风险、实现分而治之的关键制度工具。《中华人民共和国网络安全法》《中华人民共和国数据安全法》等法律都贯穿了数据分类分级安全保护原则。随着“数据二十条”出台,数据的开放利用价值越来越受到重视,分类分级也成为确定数据开放共享清单的前置程序。分类分级制度具有保护数据安全和促进数据共享的双重功能,治理者借由分类分级的杠杆功能可以有效回应不同科学数据共享场景中的动态风险治理需求。
如果科学数据治理模式期望同时实现科学数据的安全利益和共享收益,实现场景治理,则离不开分类分级制度的支撑。
2.2.1 分类分级的差异化管理与科学数据异质性的耦合
分类分级制度的实质是通过数据类型化实现数据差异化管理[16],这与科学数据的异质性高度契合。无论是具象的科学数据类型、内容及格式,还是抽象的科学数据价值、权益及责任均千差万别,这些异质性导致治理者难以提炼出统一的、对不同数据类型通用的安全标准。过宽的标准存在数据泄露隐患,过严的标准则阻碍数据流通。相较“一刀切”式的机械规制,分类分级量体裁衣式的场景治理能因地制宜,通过数据类型化确定不同数据应用场景的安全保护水平和开放共享水平,实现高效、精准、敏捷、灵活的治理[17]。
2.2.2 分类分级的动态性管控与科学数据流通性的匹配
分类分级制度具有动态性管控优势,即通过动态调整分类分级标准以灵活应对不同时空和场景下的数据安全风险。通过调整数据内容类别、共享级别、开放程度、流通渠道等实现敏捷治理,既能在前端落实波特价值链模型的信息安全保护要求[2],也能在后端针对数据的动态安全风险建立快速反应机制。开放科学时代,唯有建立能够兼顾开放和安全双重价值的灵活场景治理架构,才能防范科学数据共享的风险。
2.2.3 分类分级的全流程控制与科学数据周期性的共存
分类分级制度通过前端风险性评估、中端差异化管理、后端动态化控制方式,实现不同场景下全生命周期数据安全与开放共享价值冲突的平衡。在数据收集、存储与传输的前端场景中,分类分级制度可以通过风险性评估精准识别潜在风险点并采用不同应对举措(如风险数据管理、特定途径传输等);在数据分析与处理的中端场景中,分类分级制度对不同类型或不同风险等级数据采用差异化管理手段(如数据用途分析、数据重处理等);在数据共享与销毁的末端场景中,分类分级制度可实现动态化控制(如数据访问控制、许可协议变更、特定途径销毁等)[18]。
国家科学数据中心是促进科学数据共享的动脉枢纽和关键设施,其如同科学数据流通的“主动脉”,海量的科学数据由遍布地方的“毛细血管”向“主动脉”汇集。《中华人民共和国数据安全法》《科学数据管理办法》《中国科学院科学数据管理与开放共享办法(试行)》与《科学数据安全分类分级指南》均明确数据中心需要对科学数据进行分类分级管理。国家科学数据中心的分类分级对整体的科学数据共享具有重要意义。本文采用政策内容分析方法对20家国家科学数据中心的数据分级分类规范进行分析。一些数据中心存在数据隔离,导致不易获得足够数量的政策样本,故本文选择以定性为主的网络调研法和规范分析法,既从无利益关系的访客角色进行系统外视角的观测,也以数据使用申请者的角色进行系统内视角的观测。同时,设计若干国家科学数据中心观测点,并结合文献研究对这些观测点进行评估,梳理存在的问题并提出解决方案。本文设置的观测点如下:规范类别、资源支持、政策协同、管理模式、责任分配、开放程度与规范价值。总体而言,各科学数据中心整体上仍存在过度强调静态安全的倾向,分析框架具体见图1。
图1 科学数据分类分级制度分析框架
Fig.1 Analytical framework of science data classification and grading system
“规范类别”“资源支持”“政策协同”3个观测点分别从规范表现形式、规范丰富度和规范群间协同效果,分析国家级科学数据中心分类分级规范状况,发现存在如下问题:
(1)分类分级规范完善度不足。本文将科学数据中心分类分级规范的完善度从弱到强依次排列,总结得出三类,分别是“网站说明”“技术规则”与“制度规则”(见表1)。第一,“网站说明”指在网站页面列出数据分类分级情况。例如,国家对地观测科学数据中心的网站说明将数据产品类型划分为对地观测数据产品、信息深加工数据、遥感数据和其它数据。此外,数据产品共享级别分为在线资源和离线资源两种,前者可直接下载,后者需管理员审核通过后方可下载。网站说明类规范的完善度最弱,仅在网页粗略展示分类分级结果,并没有阐述该结果的法律或科学依据,基本处于“黑箱状态”。规范完善度不足易使科学数据中心陷入数据分类模糊状态,增加了相关人员检索成本。第二,“技术规则”类指的是能够体现分类分级处理思路的元数据编码、技术规范标准等技术性文件。例如,国家基础学科公共科学数据中心在其牵头制定的《生态科学数据元数据》中对数据的标识信息设置分级代码(未分级、内部、秘密、机密、绝密)和分类代码(研究对象、学科分类、角色)。“技术规则”亦存在分类分级正当性缺失问题,即其只体现技术逻辑而缺失规范逻辑、价值逻辑,并且更偏重分类而忽略分级。本文检索发现,设置了“技术规则”的9所科学数据中心中只有3所涉及分级编码,而且践行技术逻辑(依据数据的业务和行业属性)易导致专业性太强、使用范围较窄,通常局限于某特定领域。第三,制度规则是指科学数据中心通过正式制度文本落实分类分级制度,然而其存在内容过于抽象的问题。例如,有的科学数据中心仅提及“对通过审核的科学数据进行分类、编目、标识、保存与备份,并依照科学数据汇交协议的数据开放方式和共享策略对科学数据进行发布”,而没有具体的分类分级标准或细则。有的科学数据中心的“制度规则”多为委任性规则与准用性规则,确定性规则较少,导致分类分级规范相对笼统,难以实施。
表1 国家科学数据中心分类分级制度的规范政策
Table 1 Policies for the classification and grading system of the national science data centers
科学数据中心规范性文件名称国家青藏高原科学数据中心网站说明-国家材料腐蚀与防护科学数据中心网站说明-国家对地观测科学数据中心网站说明-国家高能物理科学数据中心制度规则《高能物理科学数据汇交管理办法》国家基础学科公共科学数据中心技术规则《生态科学数据元数据》国家基因组科学数据中心技术规则《人类基因测序原始数据汇交元数据标准》国家天文科学数据中心制度规则《标准化数据共享协议》国家气象科学数据中心网站说明-技术规则《气象资料分类与编码》制度规则《气象资料共享管理办法》国家地球系统科学数据中心技术规则《地理信息分类与编码规则》《专题地图信息分类与代码》制度规则《草地资源空间信息共享数据规范》国家微生物科学数据中心制度规则《国家微生物科学数据中心数据汇交协议》《微生物数据库安全体系设计要求》国家农业科学数据中心网站说明-制度规则《标准化数据共享协议》《农业科学数据发布管理规则(NADC016)》《农业科学数据中心用户管理规范(NADC012)》技术规则《土壤科学数据元数据》
续表1 国家科学数据中心分类分级制度的规范政策
Table 1(Continued) Policies for the classification and grading system of the national science data centers
科学数据中心规范性文件名称国家极地科学数据中心制度规则《中国极地考察数据管理办法》《中国极地科学考察样品和数据管理办法(试行)》《极地领域国家重点研发计划项目数据汇交与共享实施细则(暂行)》国家林业和草原科学数据中心技术规则《森林资源基础数据技术规范》《自然保护区数据库技术规范》《濒危物种数据库技术规范》《退耕还林工程基础数据技术规范》制度规则《林业科学数据中心运行与管理规范》国家冰川冻土沙漠科学数据中心制度规则《中国特殊环境与灾害研究网络数据管理与共享条例(征求意见稿)》国家人口健康科学数据中心网站说明-技术规则《人口健康科学数据共享数据集分类与编码标准(征求意见稿)》制度规则《人口健康科学数据仓储(PHDA)管理流程》国家海洋科学数据中心制度规则《国家海洋科学数据共享服务平台建设运行管理暂行办法(试行稿)》技术规则《海洋科学数据共享服务规范数据标识》制度规则《海洋科学数据共享安全管理要求》国家计量科学数据中心制度规则《国家计量科学数据中心数据分级分类管理办法》国家地震科学数据中心技术规则《地震科学数据分类与编码(征求意见稿)》制度规则《地震科学数据共享系统运行规范(征求意见稿)》《地震科学数据发布规范(征求意见稿)》国家空间科学数据中心制度规则《空间环境科学数据安全分级指南》国家生态科学数据中心制度规则《生态系统长期观测数据产品分类分级》
(2)政策协同度不足。政策协同包括不同政策起草主体之间的政策协同和同一政策起草主体内部的政策协同。国家科学数据中心的分类分级规范来源多样化,政策起草主体可能包括行政主管部门、依托建设单位、参建单位、数据中心等,然而“政出多门”易导致规范冲突。例如,国家气象科学数据中心在“网站说明”中指出其提供全社会开放共享和协议开放共享两种服务,而中国气象局《气象资料共享管理办法》则要求用户提供一系列证明文件方能获取数据。同一政策起草主体的内部规范间也可能存在冲突,如国家人口健康科学数据中心起草的《人口健康科学数据仓储(PHDA)管理流程》对数据储存、数据备份和数据访问均设定了分类分级标准,然而未对3个分类分级标准的关系作出说明,数据访问中“开放数据”“受控数据”“关闭数据”的认定是否与前两个阶段的分类分级标准一致仍存疑义。
在制度运行方面,本文通过“管理模式”“责任分配”“开放程度”3个观测点评价不同分类分级制度在平衡数据安全和开放共享方面的有效性。
针对“管理模式”观测点,《科学数据管理办法》以及《中国科学院科学数据管理与开放共享办法(试行)》规定科学数据采用“正面清单”管理模式,即由数据中心通过分类分级制度区分数据资源后,确定可以开放的数据目录,目录之内的是经过审查、可流通的数据,目录以外则是需要采取一定措施予以限制或禁止流通的保密数据。在上述立法的影响下,国家科学数据中心普遍推行“正面清单”管理模式。有的科学数据中心通过分类分级对数据资产进行全面清点,然后依次划分为4个级别并给予不同层级用户相应的访问权限,而价值更高的原始数据和保密数据只向三四级用户流通。这种做法可能并不符合《科学数据管理办法》“开放为常态、不开放为例外”的原则。
从“责任分配”观测点来看,“正面清单”模式加重科学数据中心审查压力,要求其对相关数据的共享风险背书,但现有制度又未将数据价值释放效率、开放共享程度等指标纳入人员绩效考核体系。再细致的事前审查也难以完全规避事后动态发展风险,过重的审查压力与责任负担导致数据管理主体更加倾向于数据收集、存储等低风险静态活动,而回避数据使用、共享等高风险动态活动。破解之道在于强化分类分级制度中的开放共享职责设定,明确不同环节、不同角色数据管理主体的开放共享责任,从而改变权责失衡状态。经济合作与发展组织在《关于加强数据的获取和共享的建议》中提出,应当确保利益相关者根据角色对其共享数据质量负责,明确组织内部的角色分配和数据治理责任。当前我国科学数据治理者过度厌恶风险,实质上也是共享责任规范阙如的外化结果。
“开放程度”观测点旨在评价分类分级制度是否能提高数据可获取性,然而过于严苛的“正面清单”只会进一步限缩数据开放共享程度。例如,国内很多科学数据中心虽初步搭建了共享框架,但基本采取限制共享模式——即少数数据可由数据使用者网上直接下载,大部分数据须经过数据中心或数据提供单位的审核。例如,有的科学数据中心共有4 102条数据集,其中,4 070条为限制共享,只有1条是在线完全共享的(检索时间为2024年12月18日)。此外,有的科学数据中心要求申请共享数据只限于科研项目用途,有的科学数据中心则通过建立数据联盟方式使数据只能在有限范围内流动。
“规范价值”观测点用于判断分类分级制度是否实现安全保护与开放共享间的价值平衡,结果发现整体上仍偏好静态安全价值。各科学数据中心的分类分级规范在风险理论影响下主要关注如何防范数据流通的消极影响,将数据流通的价值纳入定级考量范畴。例如,国家微生物科学数据中心依据不同的数据安全等级设置不同访问权限,数据安全等级越高表明数据所需权限越高。国家空间科学数据中心依据空间环境科学数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用后造成的影响程度,将数据划分为五级。只有个别科学数据中心在其管理办法中明确指出同时基于数据安全和利用价值确定数据保存策略与共享方式。对此,科学数据中心应在场景理论指引下拓展价值判断经纬,建立实现价值福利最大化的分类分级机制。具体而言,第一,国家价值不能仅局限于科学数据涉及的国家秘密、国防利益等国家安全利益,还应囊括开放共享科学数据所能实现的国家发展利益。例如,2023年我国制定《月球样品及科学数据国际合作管理细则》并向18个国家分享月球土壤,反映出我国在科学数据治理领域一贯的开放共享立场。党的二十大报告提出“扩大国际科技交流合作,加强国际化科研环境建设,形成具有全球竞争力的开放创新生态”,推动科学数据流动是我国科技发展的内在需求,有利于研发合作和学科标准建立,也是世界各国缩小创新鸿沟、反对科技霸权的客观要求。第二,科学数据的社会利益在现有规范体系下更多体现为防御性价值面向,如公共通信安全、公共交通安全、社会公共安全等,具有公共品属性的科学数据的社会利益内涵还应包括允许社会公众合理利用数据、促进科学开放和联合研发、推动相关科学事业共同发展等积极性价值面向。第三,私人权益不仅包括组织或个人就劳动、技术等要素投入形成的财产权益,还需考虑其利用科学数据获得的发展利益。“对于数据资源来讲,流通即是数据的生命,流通是数据社会化利用的方式”[19],科学数据的最大价值蕴藏于动态流通过程中,应科学纳入分类分级制度。
分类分级制度是促进科学数据开放共享并同时保护数据安全的底层逻辑和基础制度设施,《中华人民共和国数据安全法》将其作为数据安全风险的管理工具。此外,《科学数据管理办法》和《中国科学院科学数据管理与开放共享办法(试行)》不再简单地将分类分级制度定位为安全保护工具,而是同时作为推动开放共享的基础工具。例如,《科学数据管理办法》专门在“共享与利用”一章中规定“法人单位要对科学数据进行分级分类”。但遗憾的是,现有分类分级制度仍然存在规范简略、模式滞后、价值单一等问题。在微观领域,技术进步往往走在制度前面,带动相关领域的制度变革;而在宏观领域,整体性的制度安排对具体领域的技术创新影响巨大[20]。为了实现数据要素化改革目标,科学数据的分类分级需要制度变革。
4.1.1 加大具体规则供应
“网站说明”“技术规则”“制度规则”均能发挥指引作用,但只有制度规则才是具有权威性、稳定性的规范。我国科学数据分类分级规范正式制度较少、非正式规定较多,加大正式制度规则供应迫在眉睫。
分类分级规范制定应当遵循科学合理的指导原则。2019年欧盟《开放数据与公共部门信息再利用指令》将FAIR原则确定为欧盟制定科学数据战略、政策、法规的重要指导原则,并被许多国家的开放科学数据立法所借鉴。本文提出公开、合理、无歧视的规范制定原则:第一,公开原则要求分类分级标准公开透明,保障科学数据申请者的知情权。实践中有的科学数据中心虽然向社会公众提供全社会开放共享、协议开放和保密期禁止共享3种数据层级,但并未公开分类分级的具体解释规则或划定标准,将科学数据设定为有条件共享或不予共享需依据充分。未来还应继续强化公开原则,科学数据有条件共享或不予共享的设定依据必须向公众公示,对于限制开放的数据也应公开其可访问条件与途径。第二,合理原则要求限制科学数据共享的任何措施必须合理,数据管理者需提供实施限制的实质性正当理由。例如,英国研究理事会确定了科学数据广泛开放共享原则,如果要实施开放限制,必须提供合理正当的理由[21]。又如,中国科学院海洋科学数据中心《海洋科学大数据中心用户须知》提出,数据生产者可根据研究任务需要,事先申请共享数据的保护期限,但原则上不超过一年,如果要延长保护期限则需提前报请数据管理委员会批准。对保护期的限制可以较好地平衡数据生产者与数据申请者的利益,避免因数据的过度独占而阻碍数据流通,满足合理性原则。第三,无歧视原则要求对于相同情况的数据或数据产品,申请人应当给予同等的数据使用授权等级。美国海洋与大气管理局要求贯彻非歧视原则,除法律、商业协议、国家安全等原因外,数据应以不妨碍访问的形式分发,使其获得最广泛的传播[22]。经济合作与发展组织在《关于加强数据的获取和共享的建议》中也明确提出非歧视性数据访问原则。Sayogo&Pardo[1]指出,相关立法和政策既可以增强也可以抑制科学数据共享,相关法律政策应确保合理、负责任地使用科学数据,保障中立的科学数据共享环境。作为我国重要的数据基础设施,科学数据中心在制定分类分级相关标准或细则时,应按照公开、合理、无歧视原则,将分类的科学性、分级的合理性、实施限制的正当性解释、申请人的救济途径、分类分级的技术逻辑等关键要素进行明确规定。
4.1.2 促进不同规则间协同
加大规则供应的同时,还要保障不同规则间协同,包括纵向协同与横向协同[23]。前者是指不同层级行政主体制定规则间的协同性,后者指同一行政主体制定不同规则间的协同性,而加强规则协同性有利于增强政策连贯性、一致性和综合性。如美国国家科学基金会设有与其它联邦机构的协调机制,促使各机构标准、指南及政策保持最大程度的一致性,从而减少科学数据开放阻碍[24]。增强规则协同性可以从效力阶梯化与内容一致性两方面切入:第一,效力阶梯化强调不同规则主体间形成规则效力位阶。根据《科学数据管理办法》,规则来源主体包括行政主管部门、依托法人单位和科学数据中心。行政主管部门制定的规则应把握总体方向,保障科学数据共享的基本框架秩序,将实施细则的剩余立法权让渡给更具专业性的制定主体(如数据中心);下位规范在不违反上位规范的前提下积极发挥专业主义和技术理性,形成操作性较强的制度规则,多方联动、协同发力,健全分类分级体系。第二,内容一致性要求不同规则的外在表达和内在逻辑都要保持连贯性。例如,《海洋科学数据共享服务规范数据标识》将海洋数据划分为原始数据、处理后数据、信息产品和专题成果,但《国家海洋科学数据共享服务平台建设运行管理暂行办法(试行稿)》中确认的数据分级是公开数据、保密数据、敏感数据和内部数据,存在表达与逻辑上的断裂。
为有效推动分类分级制度运行和落地,应当从内源运行模式更新和外部监督激励机制完善两方面双管齐下。
4.2.1 内源支撑:负面清单管理模式补强分类分级制度
相比正面清单运行模式,负面清单管理模式能够提供更多的流通自由度,其要求负面清单以内数据需经过实质审查方能共享,而清单以外数据默认为可以自由共享。一方面,该制度可以减轻科学数据中心的事前审查压力,增强数据使用者的事后数据合规义务,以此扭转现行制度中权责配置的失衡。监管的核心关切点也随之从数据申请场景下的静态许可资格审查转变为数据使用场景下的动态使用过程监管。《地震科学数据共享管理办法》规定用户应配合数据资源调查并有义务反馈数据使用情况,这是一种值得推广的动态过程监管做法。另一方面,与“不授权即禁止”的正面清单相比,“不禁止即自由”的负面清单制度提供了更自由的科学数据流通环境。事实上,我国在数据跨境流通领域业已落实负面清单管理模式。例如,《中国(天津)自由贸易试验区数据出境管理清单(负面清单)(2024年版)》对国家秘密、核心数据、政务数据之外的数据采用双层管理模式:负面清单范围内数据需遵守相关规定,而负面清单外数据免予申报数据出境安全评估、订立个人信息出境标准合同、通过个人信息保护认证等义务。科学数据治理也可以借鉴天津经验,通过分类分级的前置性筛选确定科学数据资源的“负面清单”(见表2)。具言之,分别确定科学数据的安全级别与共享级别,经综合权衡后再确定数据的最终级别。其中,高级别数据可纳为负面清单的限制共享对象,采用审核制共享程序(进行实质审查并签订特别协议);低级别数据则排除在负面清单以外,对其设定自动化开放共享程序,申请者可通过签署数据默认授权协议自动获得数据资源。相比正面清单的“申请+实质审查”做法,负面清单模式对于清单以外的数据不再审查,数据使用者符合条件即可获得数据开放权限。不同领域的科学数据都可以分为负面清单内数据和清单外数据两大类,通过精准场景治理以释放更大的数据价值。
表2 负面清单模式下科学数据中心双轨制共享程序示例
Table 2 Examples of dual-track sharing program for science data centers in the mode of negative list
数据类型共享类型数据负面清单国家地震科学数据数据默认授权协议非危害国土安全、地质安全、资源安全、国防安全或对国家经济建设具有重大影响的数据特别协议并实质审查危害国土安全、地质安全、资源安全、国防安全或对国家经济建设具有重大影响的战略性数据国家空间科学数据数据默认授权协议非达到国家规定的覆盖度、精度和尺度等,或未表现敏感区域和目标,非威胁领空安全、国家秘密或重大公共利益的空间数据特别协议并实质审查达到国家规定的覆盖度、精度和尺度等,或表现敏感区域和目标,威胁领空安全、国家秘密或重大公共利益的空间数据国家气象科学数据数据默认授权协议非涉及服务军事、国防科研、高科技领域,未威胁国防安全或泄露国家秘密的各类气象监测数据、灾害防御数据等特别协议并实质审查涉及服务军事、国防科研、高科技领域,可能威胁国防安全或泄露国家秘密的各类气象监测数据、灾害防御数据等国家林业和草原科学数据数据默认授权协议非危害生物安全、粮食安全、人民健康,未达到国家规定的覆盖度、精度和尺度等,或未表现敏感区域和目标的林业草原信息数据特别协议并实质审查危害生物安全、粮食安全、人民健康,达到国家规定的覆盖度、精度和尺度等,或表现敏感区域和目标的林业草原信息数据
4.2.2 外部推动:“问责—激励”双重规制强化数据开放
推动分类分级的实践,还需要刚性的外部问责机制,但是《科学数据管理办法》并未明确规定拒绝开放共享的法律责任,问责机制缺位极大地弱化开放共享质效。值得指出的是,该办法第30条规定主管部门和法人单位应建立完善的科学数据管理与开放共享工作评价考核制度,这为未来的问责制设计预留了空间。国家地震科学数据中心曾试行《地震科学数据共享项目评价制度细则》,从国家科技基础条件进展、国家科技创新、社会进步、经济进展、绩效目标实现程度及用户中意度6个方面对数据中心共享工作进行绩效考核。该考核机制具有激励共享的功能,可以向其它数据治理领域推广。相关科学数据中心还可以参考科技部办公厅印发的《国家重大科研基础设施和大型科研仪器开放共享评价考核实施细则》,将数据分类分级规则完善度、数据开放率、共享率、数据质量、对外服务成效、用户评价作为科学数据开放共享工作的关键考评指标。然而,共享导向型分类分级制度的全面落实仍然离不开刚性的问责规范,具体可参考《中华人民共和国科学技术进步法》第111条对不履行特定科学技术资源共享使用义务的主管人员和其他直接责任人员设定的罚则规定,对于不履行科学数据共享义务的相关责任人员也设定罚则(如有关主管部门责令改正,给予警告或者通报批评,对直接负责的主管人员和其他直接责任人员依法给予处分)。
除反向惩戒外,还应当注重正向激励。例如,欧盟委员会专门为科研数据开放申请预算,符合开放数据补贴政策的,可申请相应的经费用于弥补在开放科学信息过程中产生的费用成本[25]。在我国,《陕西省科学数据管理实施细则》第14条规定:对整理发表产权清晰、准确完整、共享价值高的科学数据的科研人员予以奖励,同时对于积极履行科学数据共享义务的单位设定相关考核激励机制。这是一种非常值得推广的激励做法,而大量调查研究也揭示缺少激励的环境下研究人员缺乏数据分享意愿[26]。对于政府资助的科学研究项目,可以要求其公开共享科学数据,并将数据开放情况作为结项考核依据。例如,美国国立卫生研究院一直要求资助额超过一定金额的研究项目必须公开科学数据。数据出版亦是激励科研人员开放数据的重要手段,科技期刊可以要求论文作者同步提交原始科学数据,并在国内科学数据中心上传、分享。尽管一些期刊已开始采取类似做法,但并不是普遍现象,而且往往采取摘要形式披露或者设置各种访问限制。
传统价值位阶中社会公益与个人私益存在冲突且前者具有天然优势,但场景理论对此持质疑立场,认为隐私数据的合理流通不仅有利于单个的信息主体利益,还有利于实现场景与社会的最终目的及价值[15]。例如,在医学科研场景中,一些生物数据和医疗数据的采集及共享可能涉及个人敏感信息,但是长期来看,这些数据开放共享所带来的医疗科技发展、疫苗研究攻克等科学红利反过来又极大地提升个体权益。场景理论认为,何种价值更为优先取决于具体场景和基于何种目标及价值考量。因此,开放共享型分类分级制度需将不同场景下的多元价值考量纳入制度权衡体系,进而协调国家安全或发展利益、社会公共利益、特定群体利益、企业商业利益、私人隐私利益等复杂利益。
4.3.1 科学数据分级方法重构:统合安全价值与共享价值
科技部平台中心发布了《科学数据安全分类分级指南》。在林业植物方面,已出台《林业科学数据分类与编码》《植物科学数据分类与编码》等,国家人口健康科学数据中心就分类编码推出征求意见稿。但既存体系更偏重科学数据分类,对分级的判定方法关注不足,比较重视安全价值而缺少考量共享价值。鉴于此,本文尝试统合安全价值和共享价值,建构更加全面综合的科学数据分级判定方法。
具体而言,按照图2程序进行分级:第一步,按照影响对象和影响程度的判定方法(见表3)对数据资源进行安全等级划分(N1)。第二步,通过调整安全系数,获得新的等级(N2),该系数与安全风险矫正措施有关,即能否通过脱密处理、脱敏处理、数据分离、数据擦出、数据替换、数据屏蔽、匿名化等手段降低安全风险,实现降级。第三步,按照受益对象和受益程度的定级方法(见表3),对数据资源进行共享等级划分(M)。例如,4级数据具有极高共享价值,能在国家发展、经济增长、社会秩序、公共利益等方面带来极为显著的福利增进;3级数据具有较高共享价值,能带来经济增长、社会秩序、公共利益、组织和个人权益等方面明显的福利改善;2级数据具有中等共享价值,能带来社会秩序、公共福利等方面的改善;1级数据具有轻微共享价值,对公无益但是能改善私人权益;0级科学数据几乎不具有共享价值。第四步,综合权衡共享数据带来的负外部性和正外部性,确定综合级别(L)并作为最终数据级别(该数值越低则越应当共享)。当N2≥M时,意味着数据共享带来的福利增进并不能抵消数据安全风险对国家、社会或公众造成的损害,此时L只需按照安全级别N2进行定级而无需考量共享价值;反之,当数据共享能带来净福利增进(M-N2>0),则综合定级时需考虑数据开放共享价值,此时L=N2-(M-N2)。例如,某类空间数据的安全级别为4(严重危害国家安全),共享级别为1(无法带来国家利益和社会公益增进),那么综合级别L仍为4,应持比较谨慎的开放态度;某类林业数据的安全级别为3,但共享级别为4,那么综合级别L=3-(4-3)=2,L2级比N3级数据更应被共享。
表3 兼顾安全的开放共享型科学数据分级制度
Table 3 An open and shared science data grading system with security considerations
影响对象影响程度特别严重危害严重危害一般危害无损害受益程度极高较高中低国家安全55414430经济运行54414330社会稳定54314320公共利益54314320组织权益个人权益32113100
图2 科学数据分级编码规则
Fig.2 Grading coding rules for science data
4.3.2 分级方法引入比例原则:权衡安全价值与共享价值
分类分级制度不是简单的数字游戏,价值权衡贯穿前述安全等级划分(N)、共享等级划分(M)以及综合定级划分(L)全过程,而定级结果也影响负面清单的具体内容。科学数据不仅是信息的集合,也是复杂价值的聚合体,分类分级应该通过价值权衡作出实现各方权益最大化的制度安排[27]。随着现代社会治理理论发展,制度价值权衡逐渐从推崇单一价值的塔状思维演变成价值间相互交融促进的网状思维,需要正确理解不同价值间相互限制或促进的关系[28]。科学数据的非竞争性、离散性、复杂性、综合性、易变性等特征导致其往往同时负荷若干冲突价值,而比例原则是经典的异质价值权衡工具,可以提供具体的判断方法,能为科学数据中心和相关科学数据使用者提供稳定的预期与行为指引,进而形成相对稳定的数据开放共享秩序[29]。
比例原则由适当性、必要性和均衡性3个子原则构成。对科学数据分级进行价值权衡时,应当遵从上述子原则。
(1)适当性原则要求科学数据中心采取的分级做法能实现相关价值目标。如果某些科学数据能够在无权益损害情况下开放共享,那么对其进行保密审查的措施就违背了适当性原则。《科学数据管理办法》规定,对于需对外提供的科学数据,监管者应执行安全保密审查制度。这增强了科学数据安全性,但也会大大增加数据共享成本,也影响科学数据常态化开放。《安徽省科学数据管理实施办法》规定,对于政府预算资金资助的各类项目所产生的相关原始数据以及衍生数据,除国家法律法规有特殊规定外,都应对外开放共享,其符合适当性原则。简言之,只要在法律法规范围内,原始数据也默认开放共享。
(2)必要性又称最小损害原则,是指进行价值权衡后如果仍然认为需对某些价值作出限制或克减,数据管理者只能采取限制最小化手段。《广东省科学数据管理实施细则(试行)》也作出类似规定,涉及商业秘密、个人隐私暂定为有条件共享或不予共享的科学数据,可以经脱密、脱敏处理或经相关权利人同意后开放共享,满足必要性原则最小限制的要求。
(3)均衡性原则是指通过科学数据共享行为获得的收益与可能给其他利益主体造成的损害要维持比例适当性。基于风险理论的分类分级制度只考虑科学数据开放共享可能给国家安全、公共利益等造成的损害,而忽视数据流通带来的社会福利增进,则偏离了均衡性原则。
在发展新质生产力背景下,科学数据治理已从风险理论下的静态安全型向场景理论下的开放共享型模式跃迁,如何发挥科学数据的乘数效应、更好地赋能创新实践并推动科技进步、增加公共福祉,成为新的治理议题。在我国的科学数据治理架构中,国家科学数据中心扮演促进数据共享的关键角色,但是通过对规范类别、资源支持、政策协同、管理模式、责任分配等观测点的细致分析,发现我国科学数据中心的分类分级实践存在一些问题,阻碍数据共享质效提升。
通过文献分析和政策比较,本文提出完善科学数据分类分级制度的建议:①应在公开、合理、无歧视的制定原则下,加强科学数据中心的分类分级规则供应,改变正式制度规范稀少、非正式规范较多的格局,同时,增强行政部门、依托法人单位、科学数据中心等不同制度主体之间的政策协同性。②将“不授权即禁止”的正面清单模式转变为“不禁止即自由”的负面清单模式,提供更自由的科学数据流通环境。③借鉴《中华人民共和国科学技术进步法》《国家重大科研基础设施和大型科研仪器开放共享评价考核实施细则》等规范中的责任机制,针对不履行科学数据共享义务的行为,建立刚性问责机制。同时,对参与数据开放工作的科研人员予以正向激励。④统合安全价值和共享价值,建构更加全面的科学数据分级判定方法。具言之,进行安全等级划分和共享等级划分,综合考量数据共享的正负外部性,确定最终的综合级别(L)。⑤利用比例原则,基于适当性、必要性和均衡性3个子原则,对科学数据的分类分级进行价值权衡,协调异质性价值冲突。
英国皇家学会的研究报告《科学是一项开放的事业》明确指出,科学开放的制约因素还包括经济利益(如数据所有权)。Chaplin[30]提出,科学数据及相关研究副产品是科研人员的重要智力资本,也是他们自身竞争优势的来源,缺乏产权保护、担忧被竞争者搭便车等因素导致他们普遍缺乏数据分享意愿。但科学数据的复杂性、涉及利益主体的多样性等因素导致产权界定存在困难。相比其它方案,分类分级制度能够实现数据权益的分配正义,让不同利益相关主体从科学数据共享中获得经济价值,从而解决数据主体共享激励匮乏的问题。“数据二十条”在提出“三权分置”产权方案的同时,也明确分类分级制度在推进数据授权使用、界定数据行为各方合法权利中的基础制度地位。此外,科学数据的分级分类制度还要解决数据标准化、数据知识产权保护、个体隐私保护、数据跨境和国际合作等一系列难题,这需要进行持续的研究。
[1] DJOKO SIGIT SAYOGO,THERESA A PARDO. Exploring the determinants of scientific data sharing:understanding the motivation to publish research data[J].Government Information Quarterly,2013,30(1):S19-S31.
[2] MICHAEL E PORTER. Competitive advantage:creating and sustaining superior performance[M].New York:Free Press,1985:36-43.
[3] 付丽丽.中国科研群体对开放科学有较高支持度[N].科技日报,2023-12-13(005).
[4] 新华社.开掘好大数据资源“富矿”——聚焦我国首个国家层面的科学数据管理办法[EB/OL].(2018-04-08)[2024-07-07].https://www.gov.cn/zhengce/2018-04/08/content_5280638.htm.
[5] GIORGIA BINCOLETTO. Scientific research processing health data in the European Union:data protection regime vs. open data[J].Journal of Open Access to Law,2023,11(2):1-23.
[6] 孙瑜晨.策略性专利申请行为的反垄断法规制[J].江西社会科学,2023,43(6):141-152.
[7] 唐素琴,曹婉迪.对我国科学数据权属界定的若干思考[J].科技与法律(中英文),2023,35(2):32-41.
[8] 何炼红,刘丁勤.学术期刊开放获取的国际变革与启示[J].法制与经济,2024,33(1):12-28.
[9] 郭华东,邹自明,陈刚,等.科学数据支撑国家重大战略需求的若干思考[J].科学通报,2024,69(9):1116-1122.
[10] 斯蒂文·K·沃格尔. 市场治理术[M].毛海栋,译. 北京:北京大学出版社, 2020:16.
[11] 郑作彧,吴晓光.卢曼的风险理论及其风险[J].吉林大学社会科学学报,2021,61(6):83-94.
[12] 范柏乃,盛中华.数字风险治理:研究脉络、理论框架及未来展望[J].管理世界,2024,40(8):208-239.
[13] 马天一.科学数据出版面临的风险隐患及其治理对策[J].情报杂志,2023,42(12):168-173.
[14] HELEN NISSENBAUM. Privacy in context:technology,policy,and the integrity of social life [M].California:Stanford University Press,2009:140.
[15] 海伦·尼森鲍姆,王苑.何为场景——隐私场景理论中场景概念之解析[J].网络信息法学研究,2021,4(1):3-28.
[16] 马费成,熊思玥,孙玉姣,等.数据分类分级确权对数据要素价值实现的影响[J].信息资源管理学报,2024,14(1):4-12.
[17] LORENA ELENA STANESCU,RALUCA ONUFREICIUC. Some reflections on 'datafication':data governance and legal challenges[J].European Journal of Law and Public Administration,2020,7(1):100-115.
[18] 刘晓娟,孙镘莉.生命周期视角下科学数据安全分级管理实践与启示[J].情报理论与实践,2023,46(3):68-74.
[19] 高富平.数据流通理论数据资源权利配置的基础[J].中外法学,2019,31(6):1405-1424.
[20] 张守文.发展法学:经济法维度的解析[M].北京:中国人民大学出版社,2021:296.
[21] 王静,马慧勤.英国科学数据管理概述[J].全球科技经济瞭望,2018,33(6):33-38.
[22] 赵强,于凯本.美国海洋科学数据管理政策现状与启示[J].海洋信息,2019,34(4):1-7.
[23] 马海群,洪伟达.我国开放政府数据政策协同的先导性研究[J].图书馆建设,2018,41(4):61-68.
[24] 姜鑫.开放科学数据政策分析与评估[M].北京:科学出版社,2023:138.
[25] 周文能,刘云,王刚波.国内外科学数据管理与共享政策分析及对国家自然科学基金的启示[J].中国科学基金,2023,37(1):150-160.
[26] REBECCA S EISENBERG,ARTI K RAI. Harnessing and sharing the benefits of state-sponsored research:intellectual property rights and data sharing in California's Stem Cell Initiative[J].Berkeley Technology Law Journal,2006,21(3):1187-1213.
[27] 冯晓青.数据产权法律构造论[J].政法论丛,2024,40(1):120-136.
[28] 魏健馨.大数据及其多重应用价值的宪法学审视[J].上海政法学院学报(法治论丛),2023,38(5):64-74.
[29] 张铁薇,林秋.数据利用正当性判断:比例原则约束下的利益衡量[J].商业研究,2023,66(6):143-152.
[30] MAC CHAPLIN. A challenge to conservationists[J].World Watch Magazine,2004,17(6):17-31.