The What-If Tool: 机器学习模型的交互式探测(The What-If Tool: Interactive Probing of Machine Learning Models)

在这个可解释的机器学习时代,仅仅进行模型训练并从中获得预测的结果已经无法让人感到信服。 为了能够真正获得良好的结果,我们还应该能够探究我们的模型。探究一个模型需要问很多问题,例如探测模型中的问题和矛盾,这样的任务通常是复杂的并且需要编写大量的自定义代码。What-If Tool [1] 这个工具能够轻松、准确地解决这个问题,使它更容易为平常的用户来探究、评估和调试他们的机器学习系统。

What-If Tool 是一种交互式的可视化工具,旨在研究机器学习模型,缩写为 WIT。它能够让人检查,评估和比较机器学习模型,从而可以理解分类或回归模型。 由于其友好的用户界面和对复杂编码的较少依赖,开发人员,产品经理,研究人员或学生都可以将其用于其目的。 WIT 是 Google 根据 PAIR(人+ AI研究)计划发布的一种开源可视化工具。 PAIR 将整个 Google 的研究人员召集在一起,以研究和重新设计人们与 AI 系统交互的方式,What-If Tool 可以通过 TensorBoard 或 Jupyter 或 Colab Notebook 中的访问该工具。

图1 What-if Tool 系统界面

Advantage:

What-If Tool 的目的是为人们提供一种简单,直观且功能强大的方式,使其仅通过可视界面即可对一组数据进行训练后的 ML 模型。 图2展示了 WIT 的主要优势。

图2 What-if Tool 的优势

Overview:

What-If Tool 主要包含三个 tab 界面,分别是 Datapoint Editor, Performance & Fairness 和 Features。下图展示了Datapoint Editor,右侧面板包含已加载数据集中各个数据点的可视化结果。

图3 What-If Tool工具的 Datapoint Editor 界面

1. Datapoint Editor

Datapoint 编辑器可通过以下方式帮助执行数据分析:

  • 查看和编辑数据点的详细信息

它允许用户选定数据点,该数据点在右侧面板上以黄色突出显示,并对其属性进行修改,让我们尝试将年龄从53更改为58,然后单击“运行推断”按钮,以查看其对模型性能的影响。

图4 Datapointer Editor 对数据属性进行修改

通过简单地更改此人的年龄,该模型现在可以预测该人属于高收入类别。 对于此数据点,之前预测结果中肯定(高收入)类别的推理得分为0.473,否定(低收入)类别的推理得分为0.529。 但是,通过改变年龄,高收入类别得分变为0.503。

  • 寻找最近的反事实

了解模型行为的另一种方法是查看哪些小的变化会导致模型翻转其决定,即反事实。 只需单击一下,我们就能看到与我们选择的数据点最相似的反事实,以绿色突出显示。 现在,在 Datapoint Editor 选项卡中,我们还可以在原始数据点的特征值旁边看到反事实的特征值。 绿色文本表示两个数据点不同的特征。 WIT 使用 L1 和 L2 距离来计算数据点之间的相似度。

图5 Datapointer Editor 寻找最近的反事实

在这个例子中,最近的反事实例子年龄稍大,具有不同的职业和资本收益,但在其他方面相同。我们还可以使用“显示与所选数据点的相似性”按钮来查看所选点与其他点之间的相似性。 WIT 测量从选定点到其他每个数据点的距离。

  • 分析偏相关图

部分依赖图(短 PDP 或 PD 图)显示了一个或两个特征对机器学习模型的预测结果的边际影响,数据点的年龄和教育 PDP 如下:

图6 Datapointer Editor 分析相关性

上图显示该模型已获悉年龄与收入之间存在正相关,更高的学位使模型对更高的收入更有信心。高资本收益是高收入的非常有力的指标,远比其他任何单一特征都重要。

2.Performance & Fairness

此选项卡使我们可以使用混淆矩阵和 ROC 曲线查看整体模型的性能。

  • 模型性能分析

为了衡量模型的性能,我们需要告诉工具什么是真实性特征,即模型正在尝试预测的特征(在这种情况下为“超过50K”)。

图7 模型性能分析

我们可以看到,在默认阈值水平0.5下,我们的模型在15%的时间内不正确,大约5%的时间为假阳性,而10%的时间为假阴性。 可以更改阈值以查看其对模型准确性的影响。

  • ML公平

机器学习的公平性与模型构建和预测结果一样重要。 训练数据中的任何偏差都将反映在训练后的模型中,如果部署了这种模型,则结果输出也将产生偏差。 WIT 可以通过几种不同的方式帮助调查公平性问题。 我们可以设置用于分割数据的输入要素(或要素集)。 例如,让我们看看性别对模型表现的影响。

图8 ML公平

我们可以看到,该模型在女性身上比男性更准确。 此外,该模型还预测女性的高收入远低于男性(男性的时间为9.3%,男性为28.6%)。 一个可能的原因可能是由于女性在数据集中的代表性不足,我们将在下一部分中进行探讨。另外,该工具可以在考虑与算法公平性相关的众多约束(例如人口统计均等或机会均等)中的任何约束时,为两个子集最佳地设置决策阈值。

3.Features

“功能”选项卡提供数据集中每个功能的摘要统计信息,包括直方图,分位数图,条形图等。该选项卡还可以查看数据集中每个功能的值的分布。

图9 特征界面

结论

WIT是一个非常方便的工具,它可以将模型探究到最重要的人的手中。 仅仅创建和训练模型并不是机器学习的目的,而是真正理解机器学习的目的和原因是理解模型的创建方式。

引用:

[1] Wexler, James, et al. “The What-If Tool: Interactive Probing of Machine Learning Models.” IEEE transactions on visualization and computer graphics (2019).

[2] https://pair-code.github.io/what-if-tool/index.html

评论关闭。