现行基准: 生成式 AI 暂行办法(2023)+ 个人信息保护法(2021)+ 著作权法(2020修订)
大模型训练数据合规
最后更新:2026-04-06 | 由 LLM 基于知识库原始资料编译
关联概念:人工智能生成内容(AIGC)合规 | 算法合规 | 数据处理者义务与责任
核心法条
- 《生成式人工智能服务管理暂行办法》(国家网信办等七部门令第 15 号,2023 年 8 月 15 日)第 7 条——训练数据的合法性要求:合法来源、个人信息取得同意、不侵害知识产权 [现行有效]
- 《生成式人工智能服务管理暂行办法》 第 8 条——数据标注规则:制定清晰可操作的标注规则,开展标注质量评估,对标注人员进行培训 [现行有效]
- 《生成式人工智能服务管理暂行办法》 第 4 条——算法设计、训练数据选择等过程中不得产生基于民族、信仰、国别、地区等的歧视 [现行有效]
- 《个人信息保护法》第 13 条:个人信息处理的合法性基础(同意、法定义务、公共利益等) [现行有效]
- 《著作权法》第 24 条:合理使用制度——训练数据涉及的著作权问题 [现行有效]
- 《互联网信息服务深度合成管理规定》第 9 条:使用具有合法来源的数据和基础模型 [现行有效]
规则沿革
| 时间节点 | 变化内容 | 依据 |
|---|---|---|
| 2021-11-01 | 《个人信息保护法》确立个人信息处理合法性基础 | 现行有效 |
| 2023-01-10 | 《深度合成管理规定》要求使用合法来源的数据 | 现行有效 |
| 2023-08-15 | 《生成式 AI 暂行办法》第 7 条首次系统性规定训练数据合规要求 | 现行有效 |
| 2024-2025 | 全球 AI 训练数据的法律争议(版权诉讼、个人信息保护)持续演进,相关判例和解释正在积累 | 持续发展中 |
一、训练数据的分类框架
按数据类型分类
| 类别 | 合规要点 |
|---|---|
| 公开可访问数据 | 虽为公开信息,但大规模采集仍需注意网站服务条款(ToS)和 Robots 协议 |
| 个人信息 | 需满足 PIPL 第 13 条下的合法性基础 |
| 版权保护数据 | 需注意著作权法规定的合理使用边界 |
| 商业秘密数据 | 未经授权不得使用 |
| 重要数据 | 需符合《数据安全法》的分类分级管理制度 |
| 合成/人工生成数据 | 数据质量需满足模型训练需求,来源合法 |
按训练阶段分类
| 阶段 | 数据用途 | 主要合规问题 |
|---|---|---|
| 预训练(Pre-training) | 大规模无监督学习 | 数据来源合法性、版权、个人信息保护 |
| 微调(Fine-tuning) | 针对特定任务优化模型 | 训练数据质量标注、偏见消除 |
| 人类反馈强化学习(RLHF) | 基于人类偏好优化输出 | 标注人员个人信息保护、标注规则合规 |
二、训练数据的核心合规要求
(一)数据来源合法性(《暂行办法》第 7 条第 1 款)
训练数据应当具有合法来源,具体包括以下途径:
| 来源类型 | 合规要求 |
|---|---|
| 授权数据 | 数据提供者需具有处分权,授权范围清晰 |
| 公开数据 | 不违反网站服务条款和数据使用协议 |
| 购买数据 | 交易合法,卖方有权处分 |
| 自行采集数据 | 采集过程合法,特别是个人信息的采集须符合 PIPL |
(二)个人信息处理合规(《暂行办法》第 7 条第 2 款)
| 合规环节 | 法律要求 |
|---|---|
| 合法性基础 | 取得个人信息主体同意,或符合《个人信息保护法》第 13 条其他法定条件 |
| 最小必要 | 仅收集满足训练目的所必需的数据 |
| 敏感信息 | 处理敏感个人信息需取得单独同意(PIPL 第 29 条) |
| 去标识化 | 训练前应对个人信息进行去标识化处理 |
| 删除义务 | 训练完成后或目的实现后,依法删除个人信息 |
(三)知识产权合规(《暂行办法》第 7 条第 3 款)
训练数据中涉及受著作权保护的内容(如文学作品、图片、音乐、代码),需关注以下问题:
- 合理使用抗辩——训练数据使用是否构成《著作权法》第 24 条规定的合理使用
- 目前中国尚未有专门针对 AI 训练数据的合理使用豁免
-
合理使用认定需考量:使用目的、作品性质、使用比例、对原作品市场的影响
-
数据来源筛选——建议优先获取已授权的数据集、开源数据集、公共领域数据
-
侵权风险防范——避免使用明显带有版权声明且未获授权的数据
-
生成内容版权——模型在训练数据影响下生成的内容若实质性相似于原作品,可能构成侵权
(四)数据标注合规(《暂行办法》第 8 条)
| 要素 | 具体要求 |
|---|---|
| 标注规则制定 | 规则应清晰、可操作、可验证 |
| 标注人员培训 | 对参与标注的人员进行专业培训 |
| 标注质量评估 | 定期开展标注质量审核与评估 |
| 标注数据安全 | 确保标注过程中的数据安全,防止泄露 |
三、训练数据中的反歧视要求
数据来源审查
| 审查要点 | 说明 |
|---|---|
| 数据多样性 | 训练数据应覆盖不同群体,避免单一群体数据占主导 |
| 数据均衡性 | 各类别、各群体的样本量应相对均衡 |
| 历史偏见识别 | 识别历史数据中可能存在的系统性偏见 |
《暂行办法》第 4 条的具体化
在训练数据选择过程中应当:
- 避免使用基于民族、信仰、国别、地区、性别、年龄等属性的歧视性数据
- 对已知存在偏见的数据源进行清洗和过滤
- 通过数据增强/过采样等技提升少数群体的代表性
四、训练数据的留存与审计
数据留存义务
| 数据类型 | 保留要求 |
|---|---|
| 训练数据来源记录 | 应保留来源证明(授权协议、数据采购合同、采集记录等) |
| 数据标注记录 | 应保存标注规则、标注结果、质量评估记录 |
| 合规审查记录 | 应保存合规审查报告和相关证据 |
审计准备
- 建立训练数据台账——按项目记录数据来源、数量、类型
- 保存全部数据获取合规文件——授权协议、同意记录、合法性说明
- 建立合规审查报告归档制度
- 配合主管部门的合规检查和审计要求
五、训练数据获取的技术合规
数据爬取的合规边界
| 行为 | 合规性判断 |
|---|---|
| 遵守 robots.txt 的爬取 | 一般合规(但仍需注意数据本身的权利保护) |
| 绕过 robots.txt 的爬取 | 可能违反网站服务协议,构成不正当竞争 |
| 大规模高频爬取 | 可能构成对网站正常运营的不正当干扰 |
| 绕过反爬机制的爬取 | 可能构成非法获取计算机信息系统数据 |
开源数据的使用
- 遵循开源许可协议(如 CC BY-SA、GPL 等)
- 注意开源协议的限制性条款(如要求以相同协议开源衍生作品)
- 对数据集标注的署名要求和引用规范
六、合规实务清单
- 训练数据清查——建立数据台账,记录每批训练数据的来源、类型和规模
- 合法性审查——对每批数据逐一评估来源合法性
- 个人信息处理——获取充分同意或确认其他合法性基础
- 版权清理——排除明显受版权保护且未获授权的数据
- 偏见筛查——对训练数据的多样性和均衡性进行评估
- 数据标注管理——制定标注规则、培训人员、定期评估
- 合规文档留存——建立完整的合规档案
- 建立数据安全体系——训练数据的存储、传输、访问安全
知识库原始资料索引
法律法规
- 生成式人工智能服务管理暂行办法
学术研究
- 邱遥堃:文生视频大模型Sora将如何影响智慧法院建设