降维是一种常用的高维数据可视化方法,它将高维数据投影到低维空间,在产生的投影中保留原始数据的特定特征。降维的典型分析过程分为两步。用户首先寻找投影中特殊的视觉结构(如离群值和聚类),然后解释每个视觉结构中的模式。然而,显著和可解释的结构并非总是存在。这会导致用户的后续分析难以开展。另一方面,用户知识可用于提高模式显著性和可解释性,从而构建结果驱动的分析流程。知识指的是用户对目标数据集的整体理解,这来自于他们的经验。这篇文章 [1]提出一种实现基于知识数据分析的嵌入方法。
方法的流程分为三步(图1)。首先,知识编辑器使用户能够将其知识外化。其次,数据投影器显示投影并允许用户选择视觉结构进行分析。最后,模式解释器帮助用户理解与所选视觉结构相关的模式。

知识编辑将用户知识外化为显式的样本标签。这个过程通过一个渐进的树隐喻策略来实现灵活分组(图2)。用户点击节点会激活一个弹出窗口。在窗口内他们可以选择一个维度,将其数值划分为创建组的区间。窗口包含一个条形图,其中属于同一类别的条带被分配一个独特的颜色。在添加子类后,其父节点的颜色变为灰色,表明该类不再存在。节点被可视化为饼图。饼图的大小编码包含样本的数量。它的中心显示两个数字,分别是组的索引以及属于这个组的样本百分比。每个切片对应一个维度,颜色用于编码所有属于该组的样本在对应维度上的平均值。

作者提出了一个嵌入网络来实现知识融入(图3)。假设di是一个样本,yi是其标签,hi是其嵌入。该网络以hi为输入,通过梯度下降法、联合地使用重建损失和分类损失来更新hi。重建损失用以减少di和重建样本di’之间的差异;分类损失用以减少yi和重建标签yi’之间的差异。分类损失比例(Classification Loss Ratio, CLR)对结果的影响如图4所示。当CLR为0时,产生的投影有助于用户了解原始数据的分布情况。随着CLR的增加,聚类逐渐变得清晰。此外,作者还讨论了错误分配样本产生的影响。虽然知识会使得样本更加接近,但它们不同的数据特征阻碍了紧凑聚类的形成。


模式解释允许用户比较两个选择的视觉结构(图5)。系统通过训练分类器来区分两个视觉结构的样本,为每个维度计算SHAP值。一个高的SHAP值表明该维度在区分两个视觉结构方面很重要。用户还可以点击一个维度来形成对应的直方图。

在案例研究中,作者使用该方法分析顾客行为数据(图6)。数据包含2214名顾客,每名顾客包含两种类型的信息(个人信息和购买行为)。考虑到高收入和低收入人群应该有不同的购买行为,他们根据年收入将顾客分为两类。可以看到这两类顾客形成两个大的聚类(c1和c2)。作者首先比较这两个聚类,发现购物网站的访问次数和购买葡萄酒产品的消费金额是最能区分它们的两个维度。然后作者发现低收入顾客访问购物网站的次数比高收入客户多,但购买的产品却比较少。此外,他们还发现了一个远离大聚类的低收入顾客小聚类(c3),然后将这个小聚类与c2进行比较。它们发现,小聚类中的大多数顾客收入较高,购买更多产品,且没有孩子。

参考文献
1. Jie Li and Chun-qi Zhou. Incorporation of Human Knowledge into Data Embeddings to Improve Pattern Significance and Interpretability. IEEE VIS 2022.
评论关闭。