一个可视分析系统可以分成视觉表示和交互两个部分。有很多用户调研的相关工作对不同的视觉表示进行比较,但是少有相关工作对不同的交互设计进行比较。因此,这篇工作首要关心的是对于不同交互的比较。此外,在相关工作中,对于不同的视觉编码之间的比较仅限于位置编码和颜色编码效果的比较,没有人比较过面积编码与前两种编码的效果差别。也很少有人(但确实有)比较过笛卡尔坐标系和极坐标系的差别。综上,这篇工作就是要对不同的交互、视觉编码、坐标系下的时间序列可视化通过实验进行比较。
下面介绍这篇工作中的实验。

图1. 实验中视觉编码以及坐标系统两个自变量组合成的6种布局
首先,考虑实验中的自变量以及自变量的实验水平。
待比较的对象是交互、视觉编码、坐标系,实验中的自变量自然也是交互、视觉编码、坐标系。
对于视觉编码以及坐标系这两个自变量,都比较容易定义不同的实验水平。实验中考虑的视觉编码的3种水平包括位置、颜色、面积,坐标系的2种水平包括笛卡尔坐标系和极坐标系。
对于交互,为了简单起见,这篇工作中考虑的交互只包括高亮和提示框两种最常见的交互。
由此,根据高亮功能的有无,以及提示框功能的有无,定义交互的4种实验水平为无交互、只有highlight、只有tip、同时有highlight和tip。
接下来,考虑要用哪些任务来做比较。
选任务的时候考虑两个准则:1. 生态学效度 2. 不同任务对应的基础的知觉任务是异质的
为了满足第一个准则,作者通过和network security的domain export讨论在网络安全的语境中有哪些重要的time series的任务。
最后选出来的4个任务分别是:
1. Maxima (identify the highest absolute value)
2. Minima (identify the lowest absolute value)
3. Comparison (compare the sum of two set of data points, e.g. compare the aggregated sales in week 1 and week 2)
4. Trend detection (identify a subset of data with the lowest value increase, e.g. which week has the smallest difference between the sales in the first and last day)
需要注意的是,之前的相关工作发现Max和Min这两个任务尽管看上去相似,但是实际上用户的performance可能非常不同,有的layout更有利于Max,有的任务更有利于Min。因此实际上,这两个任务是异质的。
然后,考虑实验中要测量哪些因变量来量化评定任务的完成情况。
4个因变量包括任务完成时间、准确率、被试对自己的回答的确信度、系统使用的便捷度。
其中前两个是可以精确计算的,后两个通过5点量表问被试得到。
在实验中,为了便于控制,选择使用人造数据集。
为了避免被试在测试过程中被试对于数据集逐渐熟悉,所以对于每种实验水平以及任务组合,都生成一个数据集。4(交互)*3(encoding)*2(coordinate)*4(task)=96,所以需要造96个time series dataset。
为了便于被试理解,使用的人造数据的语境是一个公司的销售数据。数据一共有16周,每天一个数据点。
下面考虑具体的数据生成方法。
数据生成的,总的来说,是希望在这个数据集上,比起完全随机生成的数据集更好找答案。
所有数据值都确保在(0,100]内
对于Maxima任务的数据集:[65,100]里随机取一个数p作为最大值,然后在[1,p-20]间随机取若干个数字。
对于Minima任务的数据集:[1,35]里随机取一个数p作为最小值,然后在[p+20,100]间随机取若干个数字。
对于Comparison任务的数据集:随机选待比较的两周w1与w2,其中w1的数据在[20,80]间随机取。之后随机决定w2的总和s2需要比w1的总和s1大或是小。如果需要大,则在s2 = 1.2s1的约束下在[1,100]中随机抽取;如果需要小,则在s2 = 0.8s1的约束下在[1,100]中随机抽取。剩下的所有数据在[1,100]中随机抽取。
对于Trend Detection任务的数据集:先生成15个星期的数据作为错误选项。这15周的第1天在[1,20]间随机取值,第7天在[70,100]间随机取值。设sDif是这15周中第1天与第7天之差的绝对值的最小值。然后生成1星期的数据作为最终的答案。这周的第1天在[1,50]间随机取值为p1,然后第7天的值取为p1+sDif-20。所有星期尚未生成的5天,都由对应星期的首末两天插值以后随机加入[1,5]的扰动生成。
实验设计:
within-subject,也即一个被试要完成所有自变量的所有水平下的所有任务
4个任务
4*3*2*4=96,所以至少需要96个experimental condition
实验中的任务没有counterbalance(Latin square design)进行多种排序,而是一律按照任务从简单到难进行。具体而言,是按照maxima, minima, comparison, trend detection的顺序来的。
不同的visual encoding, coordinate system, interaction的水平用拉丁方进行了contourbalance
做的时候是先在24种组合下完成一个任务,再在24种组合下完成下一个任务
实验结果:
1. 交互的影响
a. 在用户的确信度和使用的便利性上:
tooltip > highlighting + tooltip >> highlighting >> no interaction
b. 交互对于用户完成任务的速度和准确度没有显著影响(possibly because the task is easy)
这个实验结果说明:
a. 交互能显著改善用户体验
b. 文本提示比高亮更好
2. Visual encoding的影响
最大值、最小值、trend的任务,使用颜色映射或者位置映射都比用面积映射好;
comparison任务,使用面积映射比用颜色映射和位置映射都好。
这个实验结果说明:
不同的任务有不同的最佳的视觉映射方法,位置映射不总是最好的。
3. 坐标系统的影响
a. 绝大多数情况下,直角坐标系比极坐标系好,除了使用面积进行编码时对于找最小值的任务,用极坐标系更好。
此外,对于颜色映射,发现
a. 对于颜色映射的情况,有没有交互没有显著的影响
b. 对于颜色映射的,使用的坐标系统没有显著的影响
总结一下,实验表明有交互比没有交互好,但是交互功能未必是越多越好;最佳的视觉映射与具体任务有关,通常我们认为最优的位置映射实际上不一定总是最优的;直角坐标系明显优于用极坐标系布局。
Reference
[1] Muhammad Adnan, Mike Just, and Lynne Baillie. 2016. Investigating Time Series Visualisations to Improve the User Experience. In Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems (CHI ’16). ACM, New York, NY, USA, 5444-5455. DOI: https://doi.org/10.1145/2858036.2858300
评论关闭。