DSPCP:在平行坐标中展现复杂数据关系(DSPCP: A Data Scalable Approach for Identifying Relationships in Parallel Coordinates)

平行坐标是一种高效而常用的、展现高维数据分布的可视化方法。其形式简洁、可扩展性强,有着同类方法难以比拟的优势。然而,平行坐标也存在不少缺点,形式不直观便是其中重要的一项。用户通过观察折线分布,仅能感知两个维度之间的线性相关性,而且往往会高估其中的正相关关系[2]。这篇发表在2017年TVCG上的文章[1],则巧妙地利用了平行坐标的点线对称性,增强了平行坐标表现复杂数据关系的能力与准确性。

 

  • 自底而上的数据关系可视化

人类对数据关系的认识是从数学建模开始的,从最初的简单统计、线性模型,发展到指数、对数等复杂模型,再到后来的机器学习方法。随着建模手段不断复杂化、多样化,我们也愈发认识到,真实世界中的数据关系往往是单一模型难以准确描述的。

图1. 自底而上的数据关系可视化方法[3]

图1. 自底而上的数据关系可视化方法[3]

除了自顶而下的建模,自底向上的数据可视化方法则给出了另一种思路。Chan等人在2013年提出了Generalized Sensitivity Scatterplot (GSS)的方法[3],通过展现每个元数据上的线性趋势,利用格式塔效应(Gestalt Effect)来增强用户对复杂数据关系的感知(如图1)。该方法既充分发挥了视觉感知与用户知识的优势,也能有效地适用于各类复杂的数据关系和模式。我们将要谈到的DSPCP,正是这种思路应用于平行坐标的体现。

 

  • DSPCP:方法与设计

DSPCP方法主要分为三步:提取局部数据趋势,数据聚类,以及最终的视觉映射。

1. 提取局部数据趋势

与GSS方法相似,DSPCP的第一步是对每个二维元数据提取其局部趋势。具体而言,我们需要提取每个数据的邻域,然后求取这个邻域的“主要方向”作为其局部趋势。在这篇文章中,作者们采用了K最近邻(K-Nearest Neighbor, KNN)算法来采集数据邻域,并利用主元分析(Principle Component Analysis, PCA)方法来计算其趋势。这一过程的结果称为“局部趋势图”(可参考图1)。考虑到KNN中、K值的不同可能会对结果产生影响,作者们针对不同的K取值采集了多个局部趋势图,并在后续可视化中对其进行了比较。

2. 基于局部趋势的数据聚类

得到了每个元数据上的趋势后,我们可以基于数据的位置与方向对其进行聚类。作者结合局部趋势图、将单个二维数据点坐标扩展成一个多维向量:

其中 (x, y) 为原二维数据点,多组 (q, r) 则刻画了该点上、不同k值下的多组数据趋势。通过对这些向量进行聚类,我们能够找出既具有相似属性值、也具有相似局部趋势的数据。

3. 视觉映射

3.1 趋势直线

平行坐标中每一对相邻的轴组成一个二维子空间,分别采集其数据趋势后,便可以进行相应的视觉映射。所谓“局部数据趋势”,亦即带有位置与方向信息的二维矢量场。其中每个位置上的矢量唯一地确定了一条直线,由此便能得到一个“趋势直线”的集合。

3.2 点线对称映射

图2. 平行坐标的点线对称性

图2. 平行坐标的点线对称性

另一方面,平行坐标具有“点线对称”性质。如图2所示,散点图上三个点位于同一条直线<u,v>上,映射到平行坐标中的三条直线则相交于一点(q,r)。事实上,直线<u,v>上任意一个点所对应的、平行坐标中的直线,都会经过(q,r)点。因此,我们说点(q,r)代表了直线<u,v>,即所谓“点线对称性”。根据这一性质,我们便能把所有“趋势直线”映射为平行坐标中的“趋势点”。

图3. 正相关趋势点的处理

图3. 正相关趋势点的处理

但这一映射有个问题,在于所有斜率为正的“正相关趋势点”都不在两轴之间(见图3左上)。如果直接映射,会导致各个轴间的趋势点相互混叠、影响观察。为此,作者将所有正相关方向都偏转90度、映射回两轴之间,并以颜色区分正、负相关性(见图3右图)。

3.3 一致性轮廓图

图4. 比较不同K值下的数据趋势

图4. 比较不同K值下的数据趋势

为保证可扩展性,该方法并未将每一个趋势点都画出来,而是利用轮廓图来表现趋势点在相邻轴间的分布(图4左图)。不同K值下的轮廓图重叠显示,能够表现数据趋势的“一致性”和稳定性,因而称为一致性轮廓图(Consistency Map,图4右图)。相比起折线分布,轮廓图能更好地表现各种线性、非线性的数据关系(如图5)。趋势点的离散性,则可以表现数据规律的确定性与噪音程度。在此基础上,将不同聚类的轮廓图分层显示,即可得到最终的DSPCP视图(如图6)。

图5. 不同数据趋势下的轮廓图

图5. 不同数据趋势下的轮廓图

 

  • 案例分析

图6. DSPCP与PCP的比较

图6. DSPCP与PCP的比较

该案例使用粒子物理数据集,包含了41个维度、4000条记录。图6左上为相应的平行坐标视图,其中两个轴间空间 ’ncmass5-mcmass4’、’d8-d31’ 的折线分布混叠较为严重,只能大致看出属于负相关关系。而从DSPCP中(图6左下)可以看出, ’ncmass5-mcmass4’ 子空间存在两个正相关聚类和一个负相关聚类,’d8-d31’中则分别存在两个正相关、两个负相关的聚类 —— 这些观察可以从相应的二维散点图中(图6右图)得到验证。可见相比起传统的平行坐标,DSPCP能够更加细致、准确地表现复杂的数据关系。

 

  • 结语

总的来说,该文章巧妙地结合了自底而上的数据趋势与点线对称性、提出了DSPCP方法,以增强平行坐标表达复杂数据关系的能力与准确性。而事实上,平行坐标除了点线对称以外、还具有诸多良好的几何性质,有待我们去进一步发掘与利用。

 

[1]. Nguyen H, Rosen P. DSPCP: A Data Scalable Approach for Identifying Relationships in Parallel Coordinates. IEEE Transactions on Visualization and Computer Graphics, 2017.

[2]. Harrison L, Yang F, Franconeri S, et al. Ranking visualizations of correlation using weber’s law. IEEE transactions on visualization and computer graphics, 2014, 20(12): 1943-1952.

[3]. Chan Y H, Correa C D, Ma K L. The generalized sensitivity scatterplot. IEEE transactions on visualization and computer graphics, 2013, 19(10): 1768-1781.

评论关闭。