本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
为训练前数据中的偏差生成报告 SageMaker 工作室
SageMaker 澄清与亚马逊集成 SageMaker Data Wrangler,它可以帮助您识别数据准备过程中的偏差,而无需编写自己的代码。数据 Wrangler 提供了 end-to-end 使用亚马逊导入、准备、转换、特色化和分析数据的解决方案 SageMaker Studio。有关 Data Wrangler 数据准备工作流的概述,请参阅使用亚马逊准备 ML 数据 SageMaker DATA Wrangler. 您可以指定感兴趣的属性,例如性别或年龄,并 SageMaker 澄清运行一组算法来检测这些属性中是否存在偏见。算法运行后, SageMaker 澄清提供了一份直观报告,其中描述了可能偏见的来源和严重程度,以便您可以规划缓解措施。例如, 在一个财务数据集中, 与其他年龄组相比, 向一个年龄组提供商业贷款的例子很少, SageMaker 标记不平衡状态,以便您可以避免使用不利于该年龄组的模型。
分析和报告数据偏差
要开始使用 Data Wrangler,请参阅首先使用数据 Wrangler.
-
打开亚马逊 SageMaker 选择录音室创建数据流来自 的导入和准备数据瓷砖。
-
从导入数据选项卡上,选择Amazon S3然后在数据源/S3 源页.
-
导入数据后,请在数据流页面然后选择添加分析.
-
在存储库的创建分析页面,转至配置面板然后选择偏置报告来自 的图表菜单。
-
通过提供名称、要预测的列以及它是值还是阈值、要分析偏差的列(小面)以及它是值还是阈值。
-
通过选择偏差指标继续配置偏差报告。
-
选择检查偏差以生成和查看偏见报告。向下滚动以查看所有报告。
-
选择偏差指标描述右侧的插入符号,以查看可以帮助您解释指标值重要性的文档。
-
要查看偏差指标值的表格摘要,请选择表格,您可以通过选择以保存报告以供导出Create位于页面的右下角。
-
在存储数据偏差报告的页面上,选择Export选项卡以下载报告。