利用任务以及数据分布评价视觉编码的有效性(Assessing Effects of Task and Data Distribution on the Effectiveness of Visual Encodings)

可视化将数据映射到视觉元素中,将数据的属性映射到元素的视觉通道中,比如位置,长度,颜色等属性。视觉通道的编码效率是非常重要的一个方面,无论是对于用户设计可视化系统,或者自动的可视化设计;对于可视化形式的自动设计,通常需要用户按照编码效率对于视觉通道进行排序,同时按照重要性对于数据属性进行排序。自动可视化设计的准则是按照贪心的准则将属性按照重要性依次赋予到最高效的视觉通道中,但是按照这种方法获得的可视化却无法保证是最优的可视化设计,主要的原因有三点:1. 在不同的视觉通道之间存在相互影响;2. 原始数据的分布会影响用户对于可视化的感知;3. 用户所针对分析任务的不同也会影响视觉通道的效率;本文主要针对目前的视觉通道效率排序所存在的问题,通过评估数据分布以及分析任务的影响对于视觉通道的效率排序进行修正。

修正当前的视觉通道排序的方面主要有两个,一个是可视化的分析任务,将任务解构为单独的数值相关的任务与总结相关的分析任务两类;另外一个方面是数据的分布,不同的数据分布主要包括如下几个方面:针对全集的数据,考虑不同的数据量;针对类别型数据,考虑数据中的数据类别的不同以及每一类的数据量的差异;针对数值型数据,考虑数据的不同的熵值),为了获得具体的效率的排序准则,本文采用众包实验的方法进行1920次实验,主要衡量了用户完成任务的时间以及错误率,实验所针对的数据是三变量的数据,包括一个类别型数据以及两个数值型数据,针对的视觉通道包括横坐标,纵坐标,颜色,以及纵向的行,将数据映射到视觉通道中组合得到12种视觉编码方式,接下来会针对实验设计,实验结果分析进行具体的介绍。

实验设计

本文所设计的实验主要是衡量不同的视觉编码,分析任务以及数据类型,通过用户实验的指标主要包括任务完成的准确率以及用户完成任务所需要的时间,从而对于现有的视觉编码排序进行调整。

数据集

本文的实验所针对的数据集是一个三变量数据,该数据包含三个属性:一个类别型数据以及两个数值型数据。在高维数据可视化中,不同的类型的数据组合非常常见的情况,本文采用简单的数据类型的组合是作为测试映射不同类型数据的视觉通道之间的相互影响的问题的简化。

所采用的数据集是2016年美国每天天气测量的数据集,数据集包括的两个类别型属性包括州以及月份,八个数值型属性,包括最高温度,最低温度,平均风速等。本文通过采样的方式得到符合不同分布的数据子集。本文采用数据的统计属性描述数据,具体的统计指标如下表1所示,对于连续的统计值进行离散化得到,比如将数据的熵值分为三类,分别是high(高), mdeium(中), 以及low(低),high(高)所代表的即为在数据分布中最高的33%的熵值。按照所有的数据的数据特性组合获得不同的数据会得到大量的数据组合,因此本文对于数据组合进行了限制,共得到24中不同的数据集合的类型。

数据属性的特征

视觉映射

本文针对散点图的可视化形式进行实验测试,针对的视觉通道包括可视化的横向位置,纵向位置,颜色,形状以及大小。除此之外,每一个散点图的行与列可以进行分割对于数据属性进行映射。然后与数据集的问题相同,任意属性之间的组合可以得到大量可能的的可视化形式。同样本文对于数据可视化形式进行限制:如果将散点图作为small multiple的可视化形式,那么将散点图进行纵向排列的方式进行排布,因为纵向排布更加符合用户在网页端的交互行为;本文没有使用shape对于数据属性进行映射,而仅仅采用了圆型进行编码;通过对于可视化形式的限制,本文主要得到了12种不同的散点图可视化形式,如下图1所示。

本文实验针对的12种不同的散点图可视化形式的视觉编码

分析任务

细粒度的数据分析任务主要包括获取数据属性,计算衍生数据属性,计算极值数据属性;根据细粒度的基本属性,我们获取三个具体的任务读数据属性值,寻找最大的数据属性值,比较单一属性值,比较平均数据属性值。进一步,本文将四个任务分为两类,数值比较的任务以及总结比较的任务,对于每一类任务,存在针对类别型数据属性N以及数值型数据属性Q1两个具体的问题,如下图2所示。

实验设计中的具体任务

实验设计

本文根据不同的数据类型以及任务类型评估了错误率以及响应事件的对数两个指标,本文设计的实验首先考虑任务对于评估结果产生的影响,其次是对于每一个任务不同的数据属性的具体指标,不考虑不同的数据类型之间的相互影响。本文假定数值型属性的视觉通道的效率排序为 x=y>size>color, 类别型属性的视觉通道的效率排序为 x=y>row>color; 对于数据的属性的重要性排序为 Q1 > N > Q2:所有的任务都是与Q1的数值相关,对于寻找最大值与比较平均值两个任务主要与N的数值相关。

实验结果

本文的实验结果如下图所示,下图反映的是根据实验得到的整体的视觉通道效率值排序与当前视觉通道效率值排序之间的关系。其中每一个点代表一种视觉编码,每两个相近的颜色所代表的视觉编码之间的关系是将横向位置与纵向位置的映射互换。从整体来看,即使当前的视觉通道的效率值排序结果是依据贪心算法计算得到的,同时所使用的是单个数值比较的任务,但是当前视觉通道的效率值的顺序与实验得到的顺序基本一致。

针对不同类型的任务,不同视觉通道的效率排序与现有的视觉通道效率排序的比较

视觉通道整体效率值排序

利用分行图表的映射方法需要更多时间;利用分行的图表映射方法在执行任务时需要用户的注意在不同的视图之间进行切换,同时对于类别数量较多的数据,用户需要拖动滚动条,从而注意不同的视图,因此会导致用户完成任务的时间大大增加。次要变量可能会影响对于可视化的解码;效率最高的可视化形式通常使用位置映射最重要的数据属性,包括Q1和N,将Q2映射到颜色的视觉通道中。然后对于现有的视觉通道效率排序结果,将Q2的属性映射到散点图的节点大小中,在实验得到的视觉通道效率排序结果中,使用带下会影响用户对于散点图中点的位置的感知。

任务的影响

针对不同数据类型,不同视觉通道的效率排序与现有的视觉通道效率排序的比较

从上图中可以得出,执行不同任务的效率值存在明显的区别,比如位置属性更容易传递Q1的数值型属性,但是对于总结型的任务,使用节点的大小进行映射通常具有较好的结果,正如上文所说,采用大小映射节点的属性值会影响用户对于节点的位置的感知。具体对于所执行的任务,我们发现,散点图中点的位置属性能够较好的映射基础的数值型变量;节点的大小更适合与对于总结型的任务节点的颜色适合比较节点的平均值大小和颜色表现出对于Q1和Q2的不对称的特点;使用分行图表表现出不对称性的特点。

数据分布的影响

对于数据类型的效果,我们将按照数据特点的不同分别考虑数值型的任务以及总结型的任务,对于数值型的任务,按照数据类型的不同分别考虑视觉编码的效率,结果如下图所示。从图示我们可以得出,数值型的任务得到的效率编码较为稳定,只是在编码效率较低的编码部分的效率变化明显;然而对于总结型的任务,编码效率最高的视觉映射在不同的数据类型下一致,但是其余的部分变化非常明显;视觉元素之间的相互遮挡会降低效率;编码效率在响应时间以及准确率中存在权衡;

本文基于众包的方法测量不同的视觉编码的效率值,主要针对的是三变量的数据,包括两个数值型数据和一个类别型数据;在实验验证的过程中,基于四个任务进行比较,包括获取数据,比较数据,寻找数据集中最大值,以及比较整个数据集的平均值。本文得到修正的视觉编码效率排序考虑到视觉通道之间相互影响的情况,可视化的数据分布的特点以及可视化所针对的任务的不同。最终得到的数据属性的效率值排序能够有效的应用在可视化自动设计中,将更多的信息考虑考虑在内,从而推荐更优的可视化形式。

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>