多类散点图的可视化概括与探索(Visual Abstraction and Exploration of Multi-class Scatterplots)

散点图是应用最广泛的可视化图表之一,在展现数据分布、辅助数据分析等方面一直扮演着重要角色。但随着数据量的增长,由数据交叠引起的视图混杂使其不适用于大数据的可视化。针对数据交叠的问题,领域内的研究者提出了许多不同的解决方案,包括改变视图元素、显示密度分布、扭曲放大视图等等,这些方法都试图从提高空间利用率和减小数据规模两方面,来寻求问题的解答。在本文中[1],来自浙江大学可视化小组的研究者们则提出利用层次化的“多类蓝噪声采样”方法[2],通过采样数据集得到模拟原数据分布的低密度分布,以大大减轻视图负担和数据交叠,并辅助多类散点图的可视化探索。

多类散点图,顾名思义,亦即将分类数据集中不同类别的数据以不同的表现形式绘制在散点图中。而最常用、且区分度最高的可视化因素,就是散点的颜色。本文的主要研究对象即是以颜色作区分的多类散点图,如图1所示,其中左右两图分别展示了绘制顺序不同得到的不同视图。由图可见,由于数据密度过高、视图存在严重的数据交叠,先绘制的数据会被后来的数据所覆盖,并对用户不可见。

图 1 绘制顺序不同的多类散点图比较

图 1 绘制顺序不同的多类散点图比较

通过采样解决数据交叠的问题,亦即产生一个与原数据分布有相同特征的、低密度无交叠的分布。一种选择是对原数据进行密度估计,并根据得到的概率密度函数重新采样,生成新的样本数据集。但该方法会产生新的数据,从而掩盖原数据的信息。另一种方法则是直接从原数据集中进行采样,选择其中一个子集以代表整体的分布,这也是本文所采用的方法。进一步地,数据采样的方法至少应该满足以下几个条件:

  1. 生成的分布保留原有各类数据的比例;
  2. 生成的分布没有交叠,可以通过设定数据之间的最小距离来达到;
  3. 保留原分布的密度特征,换言之密度高的区域数据距离较小,密度低的区域数据距离较大;
  4. 在密度不变的区域,数据分布尽可能均匀;
  5. 在每个类内采样均匀,并对数据整体采样均匀。

由这些条件引出的,就是“多类蓝噪声采样”的过程:

  1. 对当前采样率最低的类进行采样,得到数据记为d,其坐标位置为x(保持各个类的采样率一致,满足条件1)。
  2. 根据x处的密度估计,计算距离限制矩阵R(x),其中元素Rij(x)表示第 类中任一点 di 与 类中任一点 dj 都应满足 ||didj||>Rij(x),该限制用以调控类ij之间的关系。
  3. d与当前已生成的数据作比对,以R(x)为约束条件,检验d与其余数据的距离是否符合要求(无数据交叠,保持密度特征,满足条件2、3)。如图2,检验位于x处、属于第一类的d与三类数据的距离,若所有类内、类间距离均满足条件,则数据通过测试。
  4. 如果d通过3中的测试,将其加入到采样结果中,否则丢弃该数据。最后,返回步骤1开始下一次采样,直到采样充分后结束。
图 2 采样过程图示

图 2 采样过程图示

在以上过程中,距离限制矩阵的构造是最重要的步骤,因其一方面保证了采样结果无论在类内还是总体都具有如蓝噪声一样分布均匀的特性,另一方面也保证了生成的分布足够近似于原分布,具有良好的概括性和代表性。关于矩阵构造的细节请参考文献[2]。采样前后的多类散点图如图3所示,可见原本被绿色类数据掩盖的红色数据在采样后已经清晰可辨。另外,采样也较好地保留了原数据的密度分布特征,可见采样结果较理想。

图 3 散点图采样前后对比

图 3 散点图采样前后对比

为了支持多分辨率的交互探索,本文作者还提出了层次化蓝噪声采样的方法。当分辨率提高时,可见范围内的数据密度减小,需要进一步采样以填补局部放大留下的数据空隙。而每一级分辨率的采样都会以上一级的采样结果作为初始数据集,从而保证不同分辨率层级上的数据连续性。在层次化采样方法下,多分辨率的探索如图4所示。

图 4 多分辨率视图探索与层次化采样

图 4 多分辨率视图探索与层次化采样

除了核心的采样算法,本文作者还提出了自动色彩生成算法以提高各类数据颜色之间的辨识度,并辅以不同的交互手段、绘制方式等(如图5所示)以支持全面、灵活的多类数据集分析与探索,在此并不一一详述。

图 5 用户界面展示

图 5 用户界面展示

总的来说,本文针对多类数据散点图的数据交叠问题,提出了一个基于采样的、性质良好的解决方案。利用层次化的多类蓝噪声采样,可以得到忠于原有数据特征、无数据交叠、多分辨率的概括性数据分布散点图,有利于用户了解数据的整体分布情况。但该方法也仍存在一些问题,譬如类数目较大时颜色区分度不足、散点颜色混杂、数据特征不够明显等等。

参考文献:

[1]Haidong Chen, Wei Chen, Honghui Mei, Zhiqi Liu, Kun Zhou, Weifeng Chen, Wentao Gu, and Kwan-Liu Ma. Visual Abstraction and Exploration of Multi-class Scatterplots, IEEE Transactions on Visualization and Computer Graphics, 2014.

[2]Li-Yi Wei. Multi-Class Blue Noise Sampling. ACM Transactions on Graphics, 29(4), 2010.

评论关闭。