检测训练前数据偏差 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

检测训练前数据偏差

法律、政策和计算机科学等学科都对算法偏见、歧视、公平性和相关主题进行了研究。如果计算机系统歧视某些个人或个人群体,可能会被视为有偏见。支持这些应用程序的机器学习模型从数据中学习,这些数据可能反映差异或其他固有的偏见。例如,培训数据可能不足以反映各种人口群体,或者可能包含有偏见的标签。根据表现出这些偏见的数据集训练的机器学习模型最终可能会学习它们,然后在预测中重现甚至加剧这些偏见。机器学习领域提供了一个机会,通过检测偏见并在机器学习生命周期的每个阶段进行测量,来解决偏见。你可以使用亚马逊 SageMaker 澄清以确定用于训练模型的数据是否对任何偏见进行编码

可以在训练之前和训练后测量偏差,并在将模型部署到端点进行推理之后,根据基线进行监控。训练前偏差指标旨在在用于训练模型之前检测和衡量原始数据中的偏差。所使用的指标与模型无关,因为它们不依赖于任何模型输出。但是,有不同的公平概念需要采取不同的偏见措施。亚马逊 SageMaker 澄清提供了偏见指标来量化各种公平性标准。

有关偏置指标的其他信息,请参阅金融 Machine Learning 的公平性措施.

亚马逊 SageMaker 澄清偏见和公平性条款

SageMaker 澄清使用以下术语来讨论偏见和公平性。

功能

表格数据栏中包含的个人可衡量的属性或观察到的现象的特征。

Label

是训练机器学习模型的目标功能。称作观察标签要么观察结果.

预测的标签

模型所预测的标签。也称作预测结果.

示例

由要素值和标签值描述的观测实体,包含在表格数据的行中。

数据集

样本的集合。

偏差

不同群体(如年龄或收入等级)的训练数据或模型预测行为的不平衡。偏见可能是用于训练模型的数据或算法造成的。例如,如果机器学习模型主要根据中年人的数据进行培训,那么在进行涉及年轻人和老年人的预测时,可能会不那么准确。

偏置指标

返回指示潜在偏差水平的数值的函数。

偏差报告

给定数据集的偏差指标集合,或者数据集和模型的组合。

正标签值

标签值对样本中观察到的人口统计群体有利。换句话说,将样本指定为具有正结果.

负标签值

对样本中观察到的人口统计群体不利的标签值。换句话说,将样本指定为具有负结果.

组变量

数据集的类别列,用于组成用于衡量条件人口差异 (CDD) 的子组。仅对于辛普森的悖论而言,此指标是必需的。

分面

包含测量偏差的属性的列或要素。

分面值

偏见可能偏向或不赞成的属性的特征值。

预测的概率

正如模型所预测的那样有正面或负面结果的概率。

示例笔记本

亚马逊 SageMaker 澄清提供了以下示例笔记本用于偏差检测:

此笔记本已验证可在亚马逊上运行 SageMaker 仅限 Studio。如果您需要有关如何在亚马逊打开笔记本电脑的说明 SageMaker 工作室,请参阅创建或打开亚马逊 SageMaker Studio Notebook. 如果系统会提示您选择内核,请选择Python 3(数据科学).