用于比较分析的交互式降维(Interactive Dimensionality Reduction for Comparative Analysis)

比较数据中的两个群组或者多个群组以确定使这些群组彼此相同或不同的因素是一项常见的分析任务。对于高维数据,降维方法经常被用来寻找每个群组的特征。然而,现有的降维方法进行比较分析的能力和灵活性有限。比如,无监督降维方法(如PCA)在计算时不会考虑数据的标签信息,有监督降维方法分析的目标较为狭窄(如LDA只识别最能区分群组的因素)。另外,大多数降维方法都不允许用户进行观察层面的交互,这极大限制了比较的灵活性。为了解决这些问题,作者提出新的降维方法ULCA(unified linear comparative analysis)和交互式降维框架 [1]。

ULCA整合了对比学习和判别分析两种降维方法。对比学习的目的是通过将目标群组与背景群组进行比较来发现目标群组内部突出的特征。对比学习方法cPCA是PCA用于对比学习的变种,它寻找使目标群组具有高方差,而背景群组具有低方差的特征。判别分析方法LDA使用预先设定的群组信息,找到一个能最大限度地分离群组的嵌入。为此,LDA使每组的组内数据差异最小,同时使每组中心点的分离度最大化。通过整合这两种方法,ULCA可以支持只使用其中一种方案时无法实现的比较,从而填补这些方法分析目标之间的空白。比如,与传统的LDA不同,ULCA可以用来发现区分多组的潜在特征,同时对某一组产生更高的方差。这样我们就可以找到一种政治立场,它可以清楚地将每个政党的支持者区分开来,同时还能包含某个政党支持者的不同意见。

ULCA还提供了每个群体对嵌入贡献的详细控制,以允许分析者根据兴趣进行更加灵活的比较。除了给出比较通用的参数选择指导(比如哪些参数与对应群组的方差有关等)外,作者还提出一种反向优化算法来支持用户在观察层面的交互。用户在嵌入结果中改变某个群组置信椭圆的形状或者群组间的距离后,该算法会将用户对嵌入结果的操作转换为ULCA的参数,以产生一个与操作结果类似的新嵌入。

系统界面主要包含三个部分(图1)。左侧是参数视图,其中的条形图显示四个可供调节的参数;中间是嵌入结果视图,散点图描述了嵌入结果与各群组的置信椭圆;右侧是组件视图,条形图显示嵌入结果视图的轴信息。轴信息通过将原始维度线性映射到轴上得到。当条形图的绝对值接近1时,相应的属性对轴的影响就越大。

图1:系统界面。

作者在案例研究中分析了2018年10月的PPIC全州调查。这项调查包含了加州居民的政治意见。首先作者将民主党支持者(Dem)与共和党支持者(Rep)进行比较,以在民主党支持者中寻找一个子群组。ULCA将Dem和Rep分别作为目标群组和背景群组,然后应用与cPCA产生相同结果的参数。可以看到,Dem在图2a中被分成了左右两边,而Rep则大多被放在右边。嵌入的x轴主要由Q30(他们对当前的民主党是否有好印象)构成。这说明既有对民主党有好感的支持者,也有对民主党没有好感的支持者。为了更深入地支持民主党但没有好印象的居民,作者根据Q30的答案将Dem分为Dem(+)(答案是“是”)和Dem(-)(“否”),并从属性中删除Q30。然后他们应用ULCA来突出Dem(-)比Dem(+)和Rep变化更大的意见。如图2b所示,当Dem(-)的方差比其他的高时,许多属性对轴的贡献很大,比如Q1(民主党人杰里-布朗作为加州州长的表现是否合适)。Dem(+)和Rep对布朗的表现有几乎一致的意见(Dem(+):正面意见,Rep:负面意见),而Dem(-)由两种意见组成。通过分析得出,Dem(-)中的人对民主党的一些政策有反对意见,导致对当前党的印象不佳。接下来,作者希望找出能够明确区分Dem(+)和Rep,但在Dem(-)中又是不同的政治观点。他们将Rep和Dem(+)的中心点在界面上相互移开。然后,反向参数选择会自动找到合适的参数来重新确定结果,如图2c所示。此时,Q20和Q21a分别对x轴和y轴贡献最大。这两个问题都与居民对唐纳德-特朗普的看法高度相关。如图2c所示,大多数的Dem(+)不认可特朗普的表现。然而,在Dem(-)地区有相当多的人认可特朗普的工作。

图2:案例分析。

参考文献

1. Takanori Fujiwara, Xinhai Wei, Jian Zhao, and Kwan-Liu Ma. Interactive Dimensionality Reduction for Comparative Analysis. IEEE VIS 2021.

评论关闭。