Common Angle Plots:类型数据关联的知觉正确的可视化 (Common Angle Plots as Perception-True Visualizations of Categorical Associations)

在现实中,人们在观察一幅图像时可能会产生不正确的感觉或知觉,是为视觉错觉。在视觉错觉中,有两个著名的例子:咖啡墙错觉(Cafe Wall Illusion)和Müller-Lyer错觉(Müller-Lyer Illusion)。如下图1(左)所示,当我们左右相错地移动条带时,实际上等高的条带会看起来不等高。而在图1(右)中,当改变了箭头的方向时,实际上等长的线条看起来不等长。由此可见,视觉错觉对于人做出正确的判断,产生了严重的障碍。而本文[1]将重心集中到了消除类型数据的可视化中的视觉错觉上。

illusion

 图1 视觉错觉:(左)咖啡墙错觉;(右)Müller-Lyer错觉

在可视化类型数据之间的关联时,平行集合(Parallel Sets)是一种经典的方法。平行集合用轴来表示一种类型属性,用轴间的条带表示类型属性之间的关联。如下图2所示的是用平行集合来表示Titanic数据中等级属性(class)和存活属性(survived)之间的关系。当提出这样一个问题:第三等级的生存者与船员生存者中,哪个数量大时,有6/7的观察者给出了错误的答案,都认为是第三等级的生存者多于船员生存者。而真实的情况是,第三等级生存者为178,船员生存者为212。由此,反映出了平行集合这种可视化方法存在的一个问题:线宽错觉(Line Width Illusion)。

2

 图2 平行集合: (左)Titanic平行集合可视化; (右)数据

人们在判断条带宽度时,习惯性地将条带的垂直距离(Orthogonal Distance)作为它的宽度,而非它的水平距离(Horizontal Distance)如图3所示。而在平行集合中,恰恰是使用条带的水平距离来编码两属性之间的关联,由此产生了线宽错觉。本文使用公式(图3)量化了线宽错觉。当平行集合可视化的长宽比改变时,公式中的角度就发生了改变,由此引起了不同程度的线宽错觉。

ill

图3 线宽错觉示意图及其量化公式

其实,早在2003年,线宽错误就在设计一种Hammock可视化形式时有被注意到,并做出相对应改变:如图4所示,在Hammock可视化中,与平行集合相似,也是将类型属性水平或竖直地排列起来,但在使用条带编码关联时,使用条带的垂直距离(Orthogonal Distance)表示关联的数值,而非如平行集合中的水平距离(Horizontal Distance)。这样做,很好地避免了线宽错误。但由于改变后,各条带的水平距离之和大于条形总宽度。因此,Hammock可视化将水平条带的中心对齐到同一点。而这样做,潜在地鼓励了用户在中心处对不同的条带宽度进行对比从而得到背后的关联数值关系。而由于条带的水平距离与条带的倾斜度有关,并不是真实的数值关系,因此,引入了另一个错觉:逆线宽错觉(Reverse Line Width Illusion)。

3

图4 Hammock 可视化: (左)Titanic数据的Hammock可视化; (右上)条带中心重叠; (右下)数据

针对这两种错觉,本文从平行集合的设计出发,提出了一种能够保证知觉正确的类型数据可视化方法:Common Angle Plots(以下简化为CA),如图5所示。在CA中,舍弃了直条带,而采用弯曲的条带。在弯曲的条带中,使用竖直条带的水平宽度来表示关联的数值,这样避开了逆线宽错觉。而对于上下的竖直条带,统一采用同一角度的斜条带进行连接,因此避开了线宽错觉。

本文这对这三种不同的类型数据可视化,设计了一组交叉测试实验。实验中包含两个数据集:Titanic和基因数据。设置了三个任务:1)简单的比较任务:例如,女性生存者大于男性生存者。2)简单的排序任务:例如,对第一等级生存者、第二生存者以及第三生存者进行排序。3)更为复杂的排序任务:例如,第一等级生存者、第二生存者、第三生存者和船员生存者进行排序。在测试结束后,对实验结构从四个方面进行了分析。

3

图5 Titanic数据的Common Angle Plots可视化方法

(1)正确性
对于任务一,由于较为简单,因此在结果上,三种方法相当。在任务二、三中,CA方法比较其他两种可视化方法,在正确性上有显著的优势。在任务三中,对于不涉及到逆线性错觉的问题,Hammock方法与CA正确性相当。
(2)用户技巧
通过预估模型中的用户技巧分布,用户技巧上没有重要的差别。
(3)线宽错觉的证据
对测试后的答案空间进行探索。如下图6所示,在平行集合中,有大量受试者集中在由于线宽错觉引起的答案上。同样,对于Hammock可视化形式中,有大量受试者的答案集中在逆线宽错觉引起的答案上。

3

图6 三种不同可视化的答案空间

(4)评价
在测试结束后,本文收集了受试者对于三种可视化形式的综合评价。如下表1所示,在两两对比中,CA方法得到了受试者较多的票数。

2

表1 三种可视化形式的综合投票

综上,本文提出的一种能够避免两种视觉错觉的,类型数据的可视化形式——Common Angle Plots。

[1]Hofmann, H. & Vendettuoli, M.. Common Angle Plots as Perception-True Visualizations of Categorical Associations. IEEE Transactions on Visualization and Computer Graphics, IEEE Computer Society, 2013, 19, 2297-2305

评论关闭。