Clustrophile 2:可视化指导聚类分析

聚类是探索性数据分析中一种流行的无监督学习方法。聚类算法通过基于相似性的度量将数据划分为子集,为分析人员提供了探索数据结构和变化的有力手段。然而,由不同算法、算法参数、数据子集和属性子集所决定的聚类空间是巨大的,如何引导用户高效地探索空间而不是漫无目的地尝试依然是一个巨大的挑战。为解决上述挑战,本文[1]提出了一种用于引导聚类分析的新型交互式工具Chustrophile 2。它指导用户进行基于聚类的探索性分析,适应用户反馈以改进用户指导,促进聚类的解释,并帮助用户快速推理聚类之间的差异。除此之外,Clustrophile 2还提供了一个新颖的功能,the Clustering Tour,根据用户的分析目标和期望选择聚类参数并推断不同聚类结果的质量。

图1:系统界面

Clustrophile 2的界面(图1)主要包括左右两个可折叠的侧边栏以及包含多个模态窗口的中心视图。左侧边栏(图1a)包含一个按钮菜单,用于进行数据相关操作。它还支持用户保存当前的分析状态以进行后续分析,以及与其他的贡献者共享当前分析状态。右侧边栏(图1e)记录用户进行的操作和参数更改,使他能够轻松地将分析恢复到之前的状态。它还包括一个用于显示数据集中具有最高相关性特征对的列表,以便用户快速浏览统计依赖性。主视图可以进一步细分为包含数据表的上部区域(图1b)和显示一个或多个聚类视图的下部区域(图1c1d)。

主视图中的聚类视图(图2)用于可视化聚类结果并且表征它们。它包含两个主要组件,即投影散点图和热力图。前者通过元素之间的距离表示类内和类间元素的变化程度。属于不同聚类的数据点被分配了不同的颜色。热力图中每一行代表一个维度,每一列代表一个聚类。每个单元格的颜色编码了聚类中数据点的平均值,红色表示较高值,蓝色表示较低值。

图2:聚类视图

用户可以通过访问聚类视图中的“Help me decide”面板获取参数选择的指导。此方法可以帮助用户选择以下五种类型的参数。

  • 特征选择。特征选择可以帮助用户了解分析中应包含哪些维度。它根据特征选择算法提供了最相关的数据维度列表,并通过散点图和树状图显示维度的层次聚类,指示如何基于相似性将维度组合在一起。
  • 采样。在面对较大数据集的情况下,用户可以通过控制随机采样率来加速计算。
  • 聚类算法和参数。对于每个可能的参数选择,Clustrophile 2提供了参数理论优缺点的文本描述以及每种方法的用例。它还可以通过测试这些参数并选择能够产生最佳聚类分离的参数来向用户提供建议。该面板还包括指向相关文献的超链接。
  • 聚类数量。聚类的数量通常是用户定义的参数。Clustrophile 2计算一系列聚类方案,并在折线图中对它们进行比较。x轴对应于聚类的数量,y轴表示所使用度量方法的值。根据度量公式,最佳聚类数由折线图的最大值,最小值或拐点值给出。该面板还包括一个轮廓图,用于提供有关哪些聚类应合并以及哪些数据点对于确定最佳聚类数量至关重要。
  • 投影算法。尽管用于可视化散点图的降维方法不会影响聚类结果,但它可能对用户在视觉上如何感知聚类结果带来一定的偏差。Clustrophile 2可以向用户建议产生最佳聚类紧凑性和分离性的降维方法。

选择聚类参数后需要评估聚类结果的质量。 “Is this a good clustering”面板中,Clustrophile 2可以帮助用户推断结果的满意程度。

  • 定量验证。Clustrophile 2试图帮助用户选择更适合数据和分析要求的指标。它将验证度量的表现与五个条件相关联:存在偏斜分布,存在子聚类,存在不同的聚类密度,算法对噪声的鲁棒性,算法成本函数的单调性。
  • 可解释性。Clustrophile 2将决策树与聚类的平均特征值结合起来作为聚类可解释性近似和广义的解决方案。用户可以通过交互式地探索决策树推断用于区分不同聚类中数据点的主要特征。该窗口还提供了对每个已识别聚类的文本描述。
  • 不确定性。作者认为,了解低可信度的聚类分配非常重要。Clustrophile 2使用数据点轮廓分数的分布来确定哪些数据点的聚类分配是不确定的。用户可以为这些点重新分配类,系统可以自动找到产生最接近用户期望的聚类分配参数组合。

即使在存在参数选择指导的情况下,可能的参数组合和聚类方案的空间仍然过大。Clustrophile 2 提出了the Clustering Tour(图3),用于帮助用户快速探索可能的聚类结果空间。它的基本思想是让用户首先探索非常不同的聚类方案,帮助他们快速快速浏览参数空间;如果用户喜欢某种聚类方案并希望对其进行优化,则给用户提供与所选方案类似的聚类方案供他们探索。界面包含先前探索过的聚类方案列表,表示当前聚类方案的散点图和热力图,用户提供反馈的按钮,以及一组限制条件。

图3:the Clustering Tour界面

为了确定向用户推荐哪种聚类方案,the Clustering Tour的算法考虑了三个描述符:参数,标签和分数。每个参数p的组合(包括输入特征,聚类算法,相似性度量和聚类数)可以生成一个聚类结果,其由一组指定的类标签l组成。通过验证度量的线性组合,算法为给定的聚类结果分配分数s。改变聚类参数Δp后将获得第二个聚类方案,其类别分配与先前的类别分配存在Δl的不同并且其得分相差Δs Δl旨在编码两个聚类方案在语义上的不同;Δs是第二个结果较之第一个在紧凑性和分离性上改善程度的指标。

可能的聚类方案空间可以用无向图来表示,每个方案是一个节点,两个节点之间的距离为Δl(图4)。因此,具有类似聚类分配的解决方案在图中彼此接近。The Clustering Tour通过随机采样来挑选每个参数的一组替代值,并且在所生成的解中选择产生最高Δl的方案。用户可以通过按“Show me more”按钮来探索不同的方案。当用户对当前解决方案相对满意时,他可以按我喜欢它按钮来探索当前节点的邻居。在这种情况下,the Clustering Tour会选择邻居中具有最高Δs的方案。如果用户按下非常糟糕按钮,the Clustering Tour会返回到图的前一节点并沿不同的方向继续探索。

图4:用无向图表示可能的聚类空间

总的来说,本文提供了一种用于引导聚类分析的新型交互式工具Chustrophile 2。该工具提供了完善的参数指导和聚类结果验证手段。此外,the Clustering Tour帮助用户快速探索可能的聚类结果空间,能够为用户提供不同的探索视角。

[1] Marco Cavallo and Çagatay Demiralp. Clustrophile 2: Guided Visual Clustering Analysis. IEEE Transactions on Visualization and Computer Graphics, 25(1): 267-276, 2019.

2 条评论。

  1. Chustrophile 2 有链接么