欢迎您阅览陕西科技报!
通版阅读请点击:
展开通版
收缩通版
当前版:07版
发布日期:
数据知识产权促进AI数据集开发利用
于白 陈祎
  人工智能(AI)作为引领新一轮科技革命和产业变革的战略性技术,深刻改变人类生产生活方式。我国数据资源丰富,要将数据资源优势转化为人工智能科技创新与产业创新的动力,必须深化数据资源开发利用和开放共享。
  当前,我国人工智能发展处于世界第一梯队,人工智能企业数量占全球比例超过七成。尽管我国在人工智能应用和部分技术领域取得了显著成就,但人工智能高质量数据集的开发利用仍然面临瓶颈,构成了制约我国人工智能核心竞争力提升的数据短板。要解决我国人工智能高质量数据集开发利用所面临的问题,必须充分发挥市场在数据资源配置中的决定性作用。数据知识产权登记作为一项重要的制度创新,为破解上述难题提供了关键突破口。
  内涵高度契合
  人工智能高质量数据集并非原始数据的简单汇集,而是为了特定人工智能任务,经过设计、采集、清洗、标注等一系列处理过程,形成的具有特定结构、规模和质量标准的数据集合。虽然我国数据知识产权登记尚处于地区试点阶段,但综合各试点地区相关规则文件,可以概括出数据知识产权登记对象的四个核心要素:数据来源合法合规、经过一定规则或算法处理、处理后的数据具有实用价值、处理后的数据具有智力成果属性。
  高质量数据集的特征与数据知识产权登记对象的要求高度适配。一是高质量数据集的构建过程本身是一系列复杂处理行为的集成,赋予了数据新的结构和可用性,完全符合数据知识产权登记对象“经过一定规则或算法处理”的要求。二是高质量数据集能够显著提升模型的准确率、稳健性和泛化能力,从而降低企业研发成本、缩短产品上市周期、开拓新的应用场景,最终转化为企业的市场竞争优势和经济回报,因此具有显著的“实用价值”。三是高质量数据集的构建需要数据工程师、领域专家进行规划设计、规则制定、质量评估等工作,还需要大量标注人员进行精细标注,符合“智力成果属性”的要求。
  提供更优方案
  传统知识产权类型如专利权、著作权、商业秘密以及通过反不正当竞争法等方式,在适应高质量数据集的特性和保护需求方面存在一定的局限。例如:专利制度主要保护具有新颖性、创造性和实用性的技术方案,数据本身或数据集合通常被视为信息而非技术方案,难以满足专利保护客体的要求。著作权保护的是思想的独创性表达,高质量数据集的选择和编排往往更侧重于满足模型训练的实用性、全面性和均衡性,其“独创性”表达的高度很难界定,许多数据集因不具备足够的独创性而无法构成汇编作品。商业秘密保护要求信息具有秘密性、价值性并采取了合理的保密措施,许多高质量数据集,其价值恰恰体现在公开、共享或流通使用中,一旦公开或广泛共享,就丧失了秘密性前提。反不正当竞争法可以在特定情况下为受侵害的数据权益提供保护,然而,对“不正当竞争行为”的认定往往需要结合具体案情、商业道德、竞争秩序等多方面因素进行综合判断,保护数据知识产权的可预期性不够强。
  数据知识产权制度的创设正是为了弥补现有法律体系在数据要素权益界定和保护上的不足。数据知识产权登记能够明确权益归属,提供稳定预期。通过数据知识产权登记,可以初步确认数据处理者对其合法合规获取并经过实质性加工处理的数据集合所享有的财产性权益,从而激励其持续投入高质量数据集的开发和供给。此外,数据知识产权登记能够降低交易成本,减少数据交易过程中的信息不对称和潜在法律风险,为高质量数据集进入市场流通提供便利。因此,尽管其他法律制度可以在某些方面提供补充性保护,但数据知识产权登记因其针对性、前瞻性和对数据要素特性的深刻把握,为高质量数据集的保护提供了更为优越和系统的解决方案。
   发挥双向促进作用
  从各试点地区政策实践效果看,数据知识产权登记确实能够从强化供给和促进流通两个方面发挥双向促进作用,帮助破解高质量数据集开发利用的难题。
  激励高质量数据集开发与供给,拓宽“源头活水”。自2022年起,我国在北京、上海、江苏、浙江、广东、深圳等17个省市分批次开展了数据知识产权登记试点工作。截至2025年3月,已累计接收数据知识产权登记申请超过4.8万件,颁发登记证书超过2.4万份。试点取得了良好成效,有效推动了包括人工智能高质量数据集在内的数据供给。如在今年5月发布的数据知识产权第二批十大典型案例中,人形机器人(上海)有限公司“通用人形机器人运动行为训练数据”,作为通用人形机器人运动行为训练模型数据集,在完成数据知识产权登记后,已服务企业20余家,交易额达1.4亿元。
  促进高质量数据集流通与利用,畅通“价值血脉”。近年来涉及数据侵权的诉讼案件不断出现,司法领域对数据知识产权登记的作用也有了进一步的认识。在北京市高级人民法院发布的2024年度知识产权司法保护十大案例中就有全国首例确认数据知识产权证书效力的案件。在该案中,北京知识产权法院就涉案的人工智能语音训练数据集,首次明确了数据知识产权登记证可作为当事人享有相关财产性利益的初步证据。这对于提升数据知识产权登记证书的法律地位和认可度具有里程碑意义。与此同时,一些数据交易所已开始将数据知识产权登记证书作为数据产品挂牌交易的参考依据,进一步畅通了数据价值的转化实现路径。
  总体而言,人工智能高质量数据集的内涵与数据知识产权登记对象的要求高度契合,相较于传统知识产权保护模式,数据知识产权登记在明晰权益、激励供给、促进流通、便利维权等方面展现出更强的针对性。试点地区的实践案例亦印证了其在发挥人工智能数据要素价值方面的积极成效。在人工智能浪潮席卷全球的时代背景下,数据知识产权登记作为一项针对数据要素特性的创新性制度安排,为破解人工智能高质量数据集开发利用瓶颈、夯实我国人工智能创新发展根基,提供了兼具理论自洽性与实践可行性的有效路径。
 

(作者单位:国家知识产权局专利局专利审查协作北京中心、中国专利信息中心)


社址:西安市药王洞155号 邮编:710003 电话/编辑部:029-87345421
广告部:029-87347875 投稿信箱:sxkjb169@aliyun.com 版权所有:陕西科技报社 技术支持:锦华科技