选择散点图及降维技术的经验式指引 (Empirical Guidance on Scatterplot and Dimension Reduction Technique Choices)

在可视化高维数据的时候,我们常常需要先对数据进行降维,然后将降维后的数据以散点图的形式展现出来。在这个过程中,我们既需要选择合适的降维技术(Dimension Reduction Technique, DR),也需要选择合适的可视展现方式(Visual Encoding, VE),才能较好地通过降维数据来展现原高维数据的结构和特征。哥伦比亚大学的Michael Sedlmair等人[1]开展了一次相关的数据研究,探寻了三种散点图形式对不同降维数据的可视化效果,并基于研究的结果给出了如何选择散点图来表现降维数据的经验式指引。

这次数据研究的主要目的是检验二维散点图(2D Scatterplot)、散点图矩阵(Scatterplot Matrix,SPLOM)、以及交互式三维散点图(Interactive Scatterplot, i3D)在展示降维数据的效果上的差异。在研究之前,Michael等人认为,三维散点图的交互难度大于散点图矩阵,而后者的交互开销和理解难度又大于二维散点图。基于简易性的考虑,他们提出了一个经验式的假说,即二维散点图能满足多数降维数据的展现要求,散点图矩阵的效果偶尔会比前者好,但三维散点图只适合表现特定的数据,且效果并不如前两者。

研究的数据样本是75个不同类型的数据集,包括真实的以及合成的数据,选用的降维方法包括PCA、Robust PCA、Glimmer MDS、t-SNE四种,而散点图形式即以上提及的三种。对不同的数据使用不同的降维方法,并以不同的散点图形式展现,共得到了816张散点图。其中每个数据集都已经过分类处理,不同类别的数据点在图中用颜色来区分。两位有经验的程序员将对这816张散点图中的每一个类进行评分,判定该类数据在图中有多大的辨识度。换言之,他们将评估不同散点图形式在数据分类任务上的效果,而对评分结果的汇总如图1的热图所示。

图1 三种散点图的分类效果比较

图1 三种散点图的分类效果比较

热图中每一行代表一个数据集,每一列代表一种降维技术,每个方格中的颜色代表数据中每个类的可区分度,其中绿色越深表示区分度越高。大致观察下可以发现,2D情形的热图中浅色方格多于其他两个热图,说明三维散点图以及散点图矩阵的效果要好于二维图。为了突出比较的结果,不同视图相减可得到如图2的差异热图。

图2 散点图矩阵与二维散点图的差异热图

图2 散点图矩阵与二维散点图的差异热图

该图为散点图矩阵与二维散点图比较的结果,其中蓝色表示散点图矩阵更优,红色则相反。可以明显看到,热图中多数方格为蓝色,这证明了直接观察得到的结论。而将三维散点图与较优的散点图矩阵比较,可发现前者效果不如后者,但细节在此不赘述。

图3 二维散点图中不同降维技术的比较

图3 二维散点图中不同降维技术的比较

前面的比较是同一种降维技术(DR)之间不同散点图的比较,进一步地可以有不同DR下散点图的比较,如图3所示。其中每一种DR下的差异值,是该DR的分数减去另外三种DR中最优的分数得到的,如果该差异值为正,说明在此类别上该DR即是最优的降维方法。可以看到,图中方格大多呈红色或白色,说明很多情况下并不存在最优DR,不同的降维技术面对不同数据情形时各有优点。其中较明显的蓝色区域对应了t-SNE在合成的缠绕式数据(synthetic entangled data)上的表现,说明t-SNE比其他三种DR更适合处理该类数据,但这只是局部情形。综合所有数据集的显著性分析表明,并不存在唯一一种最优的DR技术。

图4 降维技术间比较的结果

图4 降维技术间比较的结果

在二维散点图后,不同散点图之间的比较结果如图4所示。如图4(b),这里将散点图矩阵每一种DR的分数与二维散点图中最优的分数作比较,如果差异为正数,说明该DR在散点图矩阵中的效果要好于二维中的任何一种DR,否则在二维散点图中转变DR即可改善视图,无需转换散点图形式。在图中可以看到方格极少呈现蓝色,说明最优的分类效果确实可通过改变DR得到,而无需改变散点图形式。值得注意的是,数据中特别包含了适合用三维散点图来展现的合成数据集,但三维散点图并未如假设一样,对此表现出明显的优势。

图5 降维数据可视化流程图

图5 降维数据可视化流程图

总体而言,研究的结果验证了他们的假设,亦即二维散点图在多数情况下足够表现降维数据,散点图矩阵偶尔能增加视图的信息量,但三维散点图一般不适合在降维场合下使用。基于以上结论,Michael Sedlmair等人提出了如图5所示的降维数据可视化流程,他们建议先在二维散点图上观察不同降维技术下数据的分类效果,如果效果不够理想应优先考虑转变降维技术,进一步可考虑用散点图矩阵,但最好不要考虑三维散点图。如果在不同视图中都难以发现数据的聚类信息,很可能该数据集不适合在降维情形下作聚类分析。

事实上,以上结论有着较强的前提假设,且研究的因素也未必客观全面,譬如转换降维技术需要考虑各技术的难度和性能、而交互开销小于视图收益时也可转变视图形式等等。正如我们在前面的DR内比较中看到的,如果用户坚持用同一种降维技术,则散点图矩阵和三维散点图的效果都要好于二维散点图。在实际情况中,更明智的做法可能是基于以上结论,结合各方面因素综合考虑来决定降维方法和视图的选择。最后,研究者们也提出了研究本身的不足,譬如只考虑了少数的降维技术,只限于散点图形式,并未研究除分类以外的数据分析任务等等,这些都需要在后续的研究中作进一步探索。

[1] Michael Sedlmair, Tamara Munzner, and Melanie Tory. Empirical Guidance on Scatterplot and Dimension  Reduction Technique Choices. IEEE Transactions on Visualization and Computer Graphics (TVCG), 19(12): 2634 – 2643, 2013.

评论关闭。