本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Shapley 值的功能归因
SageMaker 澄清基于以下概念提供功能归因Shapley Value
SageMaker Cline 从博弈论中采用了 Shapley 价值观的概念,并将其部署在机器学习环境中。Shapley 值提供了一种量化每位玩家对游戏贡献的方法,因此也是根据玩家的贡献将游戏产生的总收益分配给玩家的方法。在这种机器学习背景下, SageMaker 澄清将给定实例上模型的预测视为比赛以及模型中包含的功能作为玩家们. 对于第一个近似值,您可能会想通过量化任一要素的结果来确定每个要素的边际贡献或效果落下来自模型的那个功能或落下模型中的所有其他功能。但是,这种方法没有考虑到模型中包含的特征往往彼此不独立。例如,如果两个要素高度相关,则删除其中一个要素可能不会显著改变模型预测。
为了解决这些潜在的依赖关系,Shapley 值要求必须考虑每个可能的要素组合(或联合)的结果,以确定每个要素的重要性。鉴于d功能,有 2 个d这种可能的功能组合,每种组合都与潜在模型相对应。确定给定功能的归因f,考虑包括在内的边际贡献f在所有不包含的功能组合(和关联模型)中f,然后取平均值。可以表明,Shapley 价值是分配满足某些理想属性的每个功能的贡献或重要性的独特方式。特别是,每个要素的 Shapley 值的总和对应于模型的预测与没有功能的虚拟模型之间的差异。但是,即使是为了合理的价值d,比方说 50 个功能,训练 2 是计算过于望而且不切实际d可能的模型。因此, SageMaker 澄清需要利用各种近似技术。为此目的, SageMaker 澄清使用 SHAPLEY 加法解释 (SHAP),其中包含了这种近似值,并通过额外的优化设计了可扩展且高效的内核 SHAP 算法的实施。
有关 Shapley 值的其他信息,请参阅解释模型预测的统一方法