利用颜色编码的堆叠直方图增强平行坐标图 (Augmenting Parallel Coordinates Plots with Color-coded Stacked Histograms)

平行坐标图(Parallel Coordinate Plot, PCP)是一个常见的可视化形式, 能够在二维空间中呈现出多维数据。在平行坐标图中,每条折线代表一条数据,折线的形状能够反映数据的特征。然而,如果数据过多,折线之间会产生严重的重叠,从而影响对折线形状的判断和进一步的交互;此外,虽然折线图可以呈现相邻两个轴对应的属性的关系,但在展现不相邻的属性的关系上却又无能为力,只能通过对坐标轴进行重排使两者相邻。

在这篇工作中,作者提出了提出了一种名为平行直方图(Parallel Histogram Plot, PHP)的可视化形式,旨在解决传统的平行坐标图的局限性——一方面,减轻折线重叠带来的混乱;另一方面,要能够更加直观地衡量不相邻的两个属性之间的相关关系。另外,作者又提出了一些交互方法,便于更加方便地观察和操作直方图中较小的条形。

图1:平行直方图

在平行直方图中,每个坐标轴都被加上了一个颜色编码的堆叠直方图。该直方图描述了数据在对应属性上的分布情况。其着色过程如下:首先将数据按照用户选定的属性进行排序,然后将数据分成若干组,分组保证了在尽量平均的情况下,在用户所选属性上相同的数据被分到同一组。之后,按顺序给每个组分配一个颜色(本文采用的是红蓝配色方案),再使用分配的颜色对直方图进行着色。需要留意的是,这里着色要按照统一的顺序进行,即从左到右依次从红到蓝着色。

从该直方图中,我们可以看到数据在坐标轴对应的属性和用户选定的属性之间的相关关系。在左下图的例子中,X属性被用户选择,因此X属性对应的直方图是严格地从上往下逐渐从红色变成蓝色。而对于Positive属性,其直方图也是近似的从上往下逐渐由红变蓝,因此可以推断,X属性和Positive属性之间存在正相关关系。用类似的方法可以判断X属性和Negative属性存在负相关关系。此外,在平行直方图中我们也可以发现数据在两个属性维度上的聚类和离群点。例如,在右下图中,绿色框中的红色区域是一个聚类,而在此区域中的蓝色斑点则属于离群点。 这里需要区分的是,原始的平行坐标图一样可以反映数据的聚类和离群,但仅限于在一个属性维度上(直接观察折线和坐标轴相交的情况即可判断出),而平行直方图则可以观察两个维度上的情况。

图2:平行直方图的作用——反映两个属性间的相关关系(左)和反映在两个属性维度上的聚类和离群点(右)

在交互方面,作者一方面使用了传统的平行坐标和直方图的交互,前者包括筛选数据使得未被选择的数据在直方图中用灰色表示(左下图)、重排坐标轴;后者又包括改变直方图中条形的数量、选择堆叠条形的不同颜色部分显示对应数据的折线等。

图3:传统的平行坐标(左)和直方图(右)的交互方法

另一方面,为了方便观察和操作较小的条形,作者提出了两级的缩放方法、幽灵条(ghost bars)和一个弹出的部件(pop-out widget)。在两级的缩放中,第一级是拉伸坐标轴,从而增大直方图的空间(如图4左上)。这个方法对大多数情况都很有效,但如果条形长短两级分化太大的话,依然很难观察和操作小条形。因此第二级缩放在保证直方图空间不变的情况下,强行拉伸直方图,而那些超过显示宽度的条形会被标记成灰色(如图4右上)。当第二级缩放中最小的条形被拉伸到整个显示宽度时,所有的条形会被归一化,进而转变为一张热力图(如图4左下),这个热力图的优点在于在直方图空间十分狭小的情况下依旧可以显示属性间的相关信息。此外,在当前缩放尺度下无法显示的条形都会使用等大的灰色幽灵条来表示(如图4右下),这样可以提示用户这里存在没有显示的条形。当我们点击条形的右侧时,会弹出一个小部件(如图4右下),用于显示条形中包含哪些颜色。这样通过点击小部件中的颜色就可以方便的实现一些选择操作,特别是当条形太小而使得颜色显示不清晰的时候。

图4:两级缩放方法(左上、右上、左下),幽灵条和弹出部件(右下)

与原始的平行坐标图和角度直方图(Angular Histogram)[2]相比,平行直方图更容易观察到不相邻的两个属性之间的相关性,而且能够观察两个属性维度上的聚类和离群点,这是平行坐标图和角度直方图做不到的;与角度直方图和散点图矩阵相比,由于角度直方图中有冗余的直方图,散点图矩阵需要显示大量的散点图,平行直方图更加节省空间。

在用户研究中,作者探索了在相关关系判断任务上不同可视化形式的表现。具体包含两个小任务:探索不同可视化的表现、探索基于平行坐标的可视化在不相邻的属性上的表现。首先,作者随机生成了属性间存在不同相关程度的数据,然后使用不同的可视化形式呈现出来。在任务二中,需要判断相关性的属性会以不同距离呈现出来,并记录每种距离下用户的反应。最后根据用户对相关性判断的准确度和速度对可视化进行评价。实验结果如下图5和图6所示。可以发现,在任务一中,散点图矩阵在速度和准确度的表现上都优于基于平行坐标的方法;在任务二中,平行直方图几乎不受属性间距的影响。另外,在两个实验中都可以发现,参与者对于较强相关性的模式的识别速度普遍快于较弱相关性的数据。

图5:任务一 (探索不同可视化在相关关系判断上的表现)的实验结果
图6:任务二(探索基于平行坐标的可视化在不相邻的属性上的表现)的实验结果

这篇文章提出的平行直方图通过在每个轴上附加直方图进行数据筛选,降低了折线重叠带来的混乱;又通过颜色编码直方图显示了不相邻的两个属性间的关系。在展示两个属性间关系的能力上,平行直方图介于平行坐标图和散点图矩阵之间:平行坐标图只能显示相邻的两个属性的关系,不相邻的需要重排坐标轴;平行直方图可以同时显示选中的属性和其他所有属性的关系,消除了重排的交互成本;而散点图矩阵同时显示了所有两两属性之间的关系,又消除了选中属性的交互成本。当然,从平行坐标图到平行直方图,再到散点图矩阵,视图的空间占用也逐渐加大。因此实际如何选择存在一个权衡。

参考文献:

[1] J. Bok, B. Kim, and J. Seo. Augmenting Parallel Coordinates Plots with Color-coded Stacked Histograms. IEEE Transactions on Visualization and Computer Graphics, 2021.

[2] Z. Geng, Z. Peng, R. S.Laramee, J. C. Roberts, and R. Walker. Angular Histograms: Frequency-based Visualizations for Large, High Dimensional Data. IEEE Transactions on Visualization and Computer Graphics, 2011.

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>