大模型训练数据合规

📋 显示/隐藏目录

现行基准: 生成式 AI 暂行办法(2023)+ 个人信息保护法(2021)+ 著作权法(2020修订)

大模型训练数据合规

最后更新:2026-04-06 | 由 LLM 基于知识库原始资料编译
关联概念:人工智能生成内容(AIGC)合规 | 算法合规 | 数据处理者义务与责任

核心法条

  • 《生成式人工智能服务管理暂行办法》(国家网信办等七部门令第 15 号,2023 年 8 月 15 日)第 7 条——训练数据的合法性要求:合法来源、个人信息取得同意、不侵害知识产权 [现行有效]
  • 《生成式人工智能服务管理暂行办法》 第 8 条——数据标注规则:制定清晰可操作的标注规则,开展标注质量评估,对标注人员进行培训 [现行有效]
  • 《生成式人工智能服务管理暂行办法》 第 4 条——算法设计、训练数据选择等过程中不得产生基于民族、信仰、国别、地区等的歧视 [现行有效]
  • 《个人信息保护法》第 13 条:个人信息处理的合法性基础(同意、法定义务、公共利益等) [现行有效]
  • 《著作权法》第 24 条:合理使用制度——训练数据涉及的著作权问题 [现行有效]
  • 《互联网信息服务深度合成管理规定》第 9 条:使用具有合法来源的数据和基础模型 [现行有效]

规则沿革

时间节点 变化内容 依据
2021-11-01 《个人信息保护法》确立个人信息处理合法性基础 现行有效
2023-01-10 《深度合成管理规定》要求使用合法来源的数据 现行有效
2023-08-15 《生成式 AI 暂行办法》第 7 条首次系统性规定训练数据合规要求 现行有效
2024-2025 全球 AI 训练数据的法律争议(版权诉讼、个人信息保护)持续演进,相关判例和解释正在积累 持续发展中

一、训练数据的分类框架

按数据类型分类

类别 合规要点
公开可访问数据 虽为公开信息,但大规模采集仍需注意网站服务条款(ToS)和 Robots 协议
个人信息 需满足 PIPL 第 13 条下的合法性基础
版权保护数据 需注意著作权法规定的合理使用边界
商业秘密数据 未经授权不得使用
重要数据 需符合《数据安全法》的分类分级管理制度
合成/人工生成数据 数据质量需满足模型训练需求,来源合法

按训练阶段分类

阶段 数据用途 主要合规问题
预训练(Pre-training) 大规模无监督学习 数据来源合法性、版权、个人信息保护
微调(Fine-tuning) 针对特定任务优化模型 训练数据质量标注、偏见消除
人类反馈强化学习(RLHF) 基于人类偏好优化输出 标注人员个人信息保护、标注规则合规

二、训练数据的核心合规要求

(一)数据来源合法性(《暂行办法》第 7 条第 1 款)

训练数据应当具有合法来源,具体包括以下途径:

来源类型 合规要求
授权数据 数据提供者需具有处分权,授权范围清晰
公开数据 不违反网站服务条款和数据使用协议
购买数据 交易合法,卖方有权处分
自行采集数据 采集过程合法,特别是个人信息的采集须符合 PIPL

(二)个人信息处理合规(《暂行办法》第 7 条第 2 款)

合规环节 法律要求
合法性基础 取得个人信息主体同意,或符合《个人信息保护法》第 13 条其他法定条件
最小必要 仅收集满足训练目的所必需的数据
敏感信息 处理敏感个人信息需取得单独同意(PIPL 第 29 条)
去标识化 训练前应对个人信息进行去标识化处理
删除义务 训练完成后或目的实现后,依法删除个人信息

(三)知识产权合规(《暂行办法》第 7 条第 3 款)

训练数据中涉及受著作权保护的内容(如文学作品、图片、音乐、代码),需关注以下问题:

  1. 合理使用抗辩——训练数据使用是否构成《著作权法》第 24 条规定的合理使用
  2. 目前中国尚未有专门针对 AI 训练数据的合理使用豁免
  3. 合理使用认定需考量:使用目的、作品性质、使用比例、对原作品市场的影响

  4. 数据来源筛选——建议优先获取已授权的数据集、开源数据集、公共领域数据

  5. 侵权风险防范——避免使用明显带有版权声明且未获授权的数据

  6. 生成内容版权——模型在训练数据影响下生成的内容若实质性相似于原作品,可能构成侵权

(四)数据标注合规(《暂行办法》第 8 条)

要素 具体要求
标注规则制定 规则应清晰、可操作、可验证
标注人员培训 对参与标注的人员进行专业培训
标注质量评估 定期开展标注质量审核与评估
标注数据安全 确保标注过程中的数据安全,防止泄露

三、训练数据中的反歧视要求

数据来源审查

审查要点 说明
数据多样性 训练数据应覆盖不同群体,避免单一群体数据占主导
数据均衡性 各类别、各群体的样本量应相对均衡
历史偏见识别 识别历史数据中可能存在的系统性偏见

《暂行办法》第 4 条的具体化

在训练数据选择过程中应当:
- 避免使用基于民族、信仰、国别、地区、性别、年龄等属性的歧视性数据
- 对已知存在偏见的数据源进行清洗和过滤
- 通过数据增强/过采样等技提升少数群体的代表性

四、训练数据的留存与审计

数据留存义务

数据类型 保留要求
训练数据来源记录 应保留来源证明(授权协议、数据采购合同、采集记录等)
数据标注记录 应保存标注规则、标注结果、质量评估记录
合规审查记录 应保存合规审查报告和相关证据

审计准备

  1. 建立训练数据台账——按项目记录数据来源、数量、类型
  2. 保存全部数据获取合规文件——授权协议、同意记录、合法性说明
  3. 建立合规审查报告归档制度
  4. 配合主管部门的合规检查和审计要求

五、训练数据获取的技术合规

数据爬取的合规边界

行为 合规性判断
遵守 robots.txt 的爬取 一般合规(但仍需注意数据本身的权利保护)
绕过 robots.txt 的爬取 可能违反网站服务协议,构成不正当竞争
大规模高频爬取 可能构成对网站正常运营的不正当干扰
绕过反爬机制的爬取 可能构成非法获取计算机信息系统数据

开源数据的使用

  • 遵循开源许可协议(如 CC BY-SA、GPL 等)
  • 注意开源协议的限制性条款(如要求以相同协议开源衍生作品)
  • 对数据集标注的署名要求和引用规范

六、合规实务清单

  1. 训练数据清查——建立数据台账,记录每批训练数据的来源、类型和规模
  2. 合法性审查——对每批数据逐一评估来源合法性
  3. 个人信息处理——获取充分同意或确认其他合法性基础
  4. 版权清理——排除明显受版权保护且未获授权的数据
  5. 偏见筛查——对训练数据的多样性和均衡性进行评估
  6. 数据标注管理——制定标注规则、培训人员、定期评估
  7. 合规文档留存——建立完整的合规档案
  8. 建立数据安全体系——训练数据的存储、传输、访问安全

知识库原始资料索引

法律法规

  • 生成式人工智能服务管理暂行办法

学术研究

  • 邱遥堃:文生视频大模型Sora将如何影响智慧法院建设

引用资料: 5 项