本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
总变化距离 (TVD)
总变化距离数据偏差指标 (TVD) 为 L 的一半1-规范。TVD 是方面标签结果的概率分布之间可能最大的差异一个和D. L1-norm 是 Hamming 距离,这是一个指标,通过确定将一个字符串更改为另一个字符串所需的最小替换次数来比较两个二进制数据字符串。如果字符串是彼此的副本,它将决定复制时发生的错误数量。在偏见检测背景下,TVD 量化了多少方面的结果一个必须改变才能与各方面的结果相匹配D.
总变体距离的公式如下:
TVD = ½*L1P (P)aP, Pd)
例如,假设您有三个类别的结果分布,iy {y0y1y2} = 在大学招生多类别场景中 {已接受、等候名单、拒绝}。你把平面计数之间的差异一个和D用于计算 TVD 的每个结果。结果如下:
L1P (P)aP, Pd) = |na0)-nd0)|na(1)-nd(1)|na2)-nd(2)|
其中:
-
nai)是第 i 个类别结果的数量一个: 例如 na0)是方面的数量一个接受。
-
ndi)是方面 d 中第 i 个类别结果的数量:例如 nd2)是方面的数量D拒绝。
二进制、多类别和连续结果的 TVD 值范围为 [0, 1),其中:
-
接近零的值表示标签的分布情况类似。
-
正值意味着标签分布差异,分歧越积极就越大。
-