现行基准: 个人信息保护法(2021)+ 算法推荐管理规定(2022)+ 生成式AI暂行办法(2023)
算法偏见与歧视防范
最后更新:2026-04-06 | 由 LLM 基于知识库原始资料编译
关联概念:算法合规 | 个人信息保护 | 网络安全
核心法条
- 《个人信息保护法》第 24 条:利用个人信息进行自动化决策的,应当保证决策的透明度和结果公平、公正,不得对个人在交易价格等交易条件上实行不合理的差别待遇 [现行有效]
- 《互联网信息服务算法推荐管理规定》(国家网信办等四部门令第 9 号,2022 年 3 月 1 日施行)——算法推荐服务中的反歧视规则 [现行有效]
- 第 8 条:不得设置诱导用户沉迷、过度消费等算法模型
- 第 14 条:不得利用算法对其他用户进行不合理的差别待遇
- 第 21 条:不得利用算法在交易价格等交易条件上实施不合理的差别待遇
- 《生成式人工智能服务管理暂行办法》(国家网信办等七部门令第 15 号,2023 年 8 月 15 日施行)——算法训练过程中的反歧视要求 [现行有效]
- 第 4 条第 2 项:在算法设计、训练数据选择等过程中不得产生基于种族、民族、性别等的歧视
- 《互联网信息服务深度合成管理规定》——深度合成技术使用中的公平性和安全性要求 [现行有效]
规则沿革
| 时间节点 |
变化内容 |
依据 |
| 2021-11-01 |
《个人信息保护法》第 24 条首次规定自动化决策的公平性义务 |
现行有效 |
| 2022-03-01 |
《算法推荐管理规定》细化反"大数据杀熟"等歧视规则 |
现行有效 |
| 2023-08-15 |
《生成式 AI 暂行办法》要求训练数据选择中防止歧视 |
现行有效 |
一、算法偏见的定义与类型
定义
算法偏见(Algorithmic Bias)是指算法系统在处理数据或做出决策时,对特定个人、群体或类别产生不公平、不公正的结果或差别待遇的现象。
主要类型
| 偏见类型 |
表现形式 |
法律对应 |
| 价格偏见(大数据杀熟) |
基于用户画像对同类用户实施不同价格 |
《算法规定》第 21 条;PIPL 第 24 条 |
| 推荐偏见 |
算法模型对特定群体进行不公正或带有歧视性的推荐 |
《算法规定》第 8、10 条 |
| 结果偏见 |
算法训练数据不均衡导致特定群体被系统性误判 |
《生成式 AI 暂行办法》第 4 条 |
| 反馈偏见 |
算法通过用户历史行为数据强化既有偏见 |
《算法规定》第 8 条 |
| 就业/劳动偏见 |
平台调度算法对劳动者进行不公正的订单或报酬分配 |
《算法规定》第 20 条 |
二、算法偏见的产生机制
数据来源层面
| 偏见来源 |
说明 |
| 样本偏差 |
训练数据中某些群体的代表性不足,导致算法对其表现较差 |
| 历史偏见 |
历史数据中存在人类偏见,算法从数据中"学习"到这些偏见 |
| 测量偏差 |
数据采集过程中的系统性偏差(如特定群体的数据质量较差) |
| 幸存者偏差 |
只获取"存活"数据(如只统计已成交用户)导致的偏差 |
算法设计层面
| 偏见来源 |
说明 |
| 目标函数设置不当 |
优化目标本身带有偏见(如单一追求利润最大化而忽视公平) |
| 特征选择偏差 |
使用与受保护属性高度相关的间接特征 |
| 评估指标偏差 |
仅使用整体准确率等指标,忽视各群体的表现差异 |
| 反馈循环 |
算法输出反过来影响后续训练数据 |
三、中国法律框架下的算法歧视防范
PIPL 第 24 条的反歧视规则
《个人信息保护法》第 24 条构成算法歧视防范的核心法律依据:
| 要求 |
内容 |
| 透明度义务 |
自动化决策应当保证决策的透明度 |
| 公平性义务 |
结果应当公平、公正 |
| 反差别待遇 |
不得对个人在交易价格等交易条件上实行不合理的差别待遇 |
| 人工干预权 |
自动化决策对个人权益有重大影响的,个人有权要求说明并拒绝仅通过自动化决策作出决定 |
《算法推荐管理规定》的细化规则
| 条款 |
反歧视规则 |
| 第 8 条 |
不得设置诱导用户沉迷、过度消费等违反法律法规或违背伦理道德的算法模型 |
| 第 10 条 |
加强用户模型和用户标签管理,不得将违法和不良信息关键词记入用户兴趣点 |
| 第 14 条 |
不得利用算法虚拟注册账号、操纵用户账号、虚假点赞、评论、转发,不得利用算法屏蔽信息、过度推荐、操纵榜单、控制热搜等干预信息呈现 |
| 第 21 条 |
不得根据消费者的偏好、交易习惯等特征,利用算法在交易价格等交易条件上实施不合理的差别待遇 |
《生成式 AI 暂行办法》的训练数据歧视防范
第 4 条要求:
- 在算法设计、训练数据选择、模型生成等全过程中应当防止产生歧视
- 基于服务类型特点,采取措施提升生成内容的准确性和可靠性
- 训练数据中不得包含基于民族、信仰、国别、地区等内容的歧视性内容
四、算法偏见的识别与审计
技术检测手段
| 检测手段 |
适用场景 |
说明 |
| 公平性指标(群体差异) |
比较不同群体的算法表现 |
如人口统计均等性、机会均等 |
| 反事实公平性测试 |
改变输入特征观察输出变化 |
测试敏感属性是否影响结果 |
| 特征重要性分析 |
识别算法决策关键特征 |
检测是否存在间接歧视特征 |
| 偏差影响矩阵 |
对不同群体的偏差影响量化 |
系统性识别偏差程度 |
合规审计流程
- 识别风险场景——确定哪些算法可能涉及歧视性决策
- 数据采集与审查——审查训练数据的分布和代表性
- 算法影响评估——对不同群体进行差异分析
- 修复方案——调整训练数据、优化算法模型、引入公平性约束
- 持续监控——算法上线后持续监控是否存在实际歧视结果
五、法律责任与救济
行政责任
| 法律依据 |
处罚标准 |
| 《算法规定》第 33 条 |
责令改正、警告、通报批评;可处 1—10 万元罚款 |
| PIPL 第 66 条 |
利用自动化决策实施不合理差别待遇的,按个人信息保护违法行为处罚(最高 5000 万元或营业额 5%) |
| 《生成式 AI 暂行办法》第 21 条 |
责令改正;拒不改正的,暂停服务、罚款 |
民事救济
- 遭受算法歧视的个人可依据 PIPL 第 69 条的过错推定原则主张赔偿
- 个人有权要求算法服务提供者对歧视性决策作出解释说明(PIPL 第 48 条)
- 可向网信、市场监管等部门投诉举报
六、防范实务清单
- 审查训练数据——确保数据来源合法、分布合理、无系统性偏见
- 建立算法评估机制——上线前进行公平性评估,上线后进行持续监控
- 设置人工审查兜底——对涉及重大权益的自动化决策引入人工审查
- 提供申诉渠道——为用户提供便捷的权利救济途径
- 保留决策记录——留存算法决策过程记录以便事后审查
- 建立内部偏见审查制度——定期审核算法模型是否存在歧视性输出
知识库原始资料索引
法律法规
- 互联网信息服务算法推荐管理规定
- 生成式人工智能服务管理暂行办法
学术研究