本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
获取有关数据和数据质量的见解
使用数据质量和见解报告以便对已导入数据 Wrangler 的数据进行分析。我们建议您在导入数据集后创建报告。您可以使用报告来帮助清理和处理数据。它为您提供了缺失值的数量和异常值数等信息。如果您的数据存在问题,例如目标泄漏或不平衡,见解报告可以引起您注意这些问题。
如果您对导入的数据进行了采样,Data Wrangler 将根据抽样数据创建报告。有关关闭采样的信息,请参阅导入.
以下主题介绍了报告的部分:
您可以下载报告,也可以在线查看。如需下载报告,请选择屏幕右上角的下载按钮。下图显示了按钮。
摘要
洞察报告对数据进行了简要摘要,其中包括缺少值、无效值、要素类型、异常值计数等一般信息。它还可能包括高严重性警告,这些警告指出数据可能存在问题。我们建议您调查警告。
以下是报告摘要示例。
“目标” 栏
当您创建数据质量和见解报告时,Data Wrangler 为您提供了选择目标列的选项。目标专栏是你试图预测的一列。当您选择目标列时,Data Wrangler 会自动创建目标列分析。它还按照其预测能力的顺序对这些要素进行排名。选择目标列时,必须指定是试图解决回归还是分类问题。
对于分类,Data Wrangler 显示了一个表格和最常见类的直方图。课是一个类别。它还显示目标值缺失或无效的观测值或行。
下图显示了分类问题的目标列分析示例。
对于回归,Data Wrangler 将显示目标列中所有值的直方图。它还会显示具有缺失、无效或异常值目标值的观测值或行。
下图显示了回归问题的目标列分析示例。
快速模型
这些区域有:快速模型提供了对您根据数据训练的模型的预期预测质量的估计值。
Data Wrangler 将您的数据拆分为训练和验证折叠。它使用 80% 的样本进行训练,20% 的值用于验证。对于分类,样品被分层分割。对于分层拆分,每个数据分区的标签比例相同。对于分类问题,训练和分类折叠之间的标签比例相同非常重要。Data Wrangler 使用默认超参数训练 XGBoost 模型。它对验证数据应用提前停止并执行最少的功能预处理。
对于分类模型,Data Wrangler 会返回模型摘要和混淆矩阵。
以下是分类模型摘要示例。如需了解有关返回的信息的详细信息,请参阅定义.
以下是快速模型返回的混淆矩阵示例。
混淆矩阵提供以下信息:
-
预测的标签与真实标签匹配的次数。
-
预测的标签与真实标签不匹配的次数。
真正的标签代表了数据中的实际观察。例如,如果您使用模型来检测欺诈性交易,那么真实的标签代表实际上是欺诈性或非欺诈性的交易。预测的标签表示模型为数据分配的标签。
你可以使用混淆矩阵来查看模型对存在或不存在条件的预测程度如何。如果你预测欺诈性交易,你可以使用混淆矩阵来了解模型的敏感性和特殊性。敏感性是指模型检测欺诈性交易的能力。特殊性是指模型避免将非欺诈性交易检测为欺诈性交易的能力。
下面是回归问题快速模型输出示例。
功能摘要
当您指定目标列时,Data Wrangler 会按照其预测能力对要素进行排序。预测能力是在以分层方式拆分为 80%/20% 的训练和验证折叠后,是根据数据来衡量的。Data Wrangler 针对训练组上的每个功能单独拟合一个模型。它应用最小的要素预处理并衡量验证数据的预测性能。
它将分数标准化为范围为 [0,1]。更高的预测分数表示对于自己预测目标更有用的列。分数较低表示不能预测目标列的列。
在与其他列同时使用时,本身并非预测性的列具有预测性,这种情况很少见。您可以放心地使用预测分数来确定数据集中的要素是否具有预测性。
分数较低通常表示该功能是多余的。分数为 1 意味着完美的预测能力,这通常表示目标泄漏。当数据集包含在预测时不可用的列时,通常会发生目标泄漏。例如,它可能是目标列的副本。
以下是显示每个要素的预测值的表格和直方图的示例。
示例
Data Wrangler 会提供有关您的样本是否异常或数据集中是否有重复的信息。
Data Wrangler 使用隔离林算法检测异常样本。隔离林将异常分数与数据集的每个样本(行)关联起来。低异常分数表示样本异常。高分与非异常样本有关。具有负异常分数的样本通常被视为异常,异常分数为正的样本被视为非异常。
当你查看可能异常的样本时,我们建议你注意异常值。例如,您可能有异常值,这些值可能是由于收集和处理数据的错误而导致的。以下是根据 Data Wrangler 实施隔离林算法的最异常样本的示例。我们建议您在检查异常样本时使用领域知识和业务逻辑。
Data Wrangler 会检测重复行并计算数据中重复行的比率。某些数据源可能包含有效的重复项。其他数据源可能存在重复项,指出数据收集方面的问题。由于数据收集错误而导致的重复样本可能会干扰依赖将数据拆分为独立训练和验证折叠的机器学习过程。
以下是见解报告中可能受到重复样本影响的元素:
-
快速模型
-
预测功率估计
-
自动超级参数调整
您可以使用从数据集中删除重复的样本删除重复项转换管理行. Data Wrangler 向您展示最频繁的重复行。
定义
以下是数据见解报告中使用的技术术语的定义。