本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SHAP 基准的可解释性
如前所述,解释通常是截然不同的(也就是说,它们解释了偏离基线的原因)。因此,对于同一模型预测,您可以期望获得对不同基线的不同解释,因此选择基线至关重要。在机器学习上下文中,基线对应于一个假设实例,该实例可以是没有信息要么信息丰富. 在计算 Shapley 值的过程中, SageMaker 澄清在基线和给定实例之间生成几个新实例,其中,通过将要素值设置为基线值来建模不存在要素,并通过将要素值设置为给定实例的值来建模要素的存在。因此,缺少所有要素与基线相对应,所有要素的存在对应于给定的实例。
你怎样才能选择良好的基准? 通常最好选择信息内容非常低的基线。例如,您可以通过使用数值要素的中位数或平均值以及分类要素的模式,从训练数据集构建平均实例。对于大学录取示例,您可能有兴趣解释为什么特定申请人与基于普通申请人的基准录取率相比,为什么特定申请人被接受。如果未提供,则基线将自动计算 SageMaker 在输入数据集中使用 K-均值或 K-原型进行澄清
或者,您也可以选择生成有关信息性基线的说明。对于大学入学情况,您可能想解释为什么特定申请人与来自相似人口背景的其他申请人相比,被拒绝。在这种情况下,你可以选择一个代表感兴趣的申请人的基线,即那些来自类似人口背景的申请人。因此,您可以使用信息性基线将分析集中于特定模型预测的具体方面。您可以通过将人口统计属性和其他无法处理的要素设置为与给定实例中相同的值来隔离要素进行评估。