基于采样数据的任务驱动可视化:让用户做出更正确且确定的决策 Sample-Oriented Task-Driven Visualizations: Allowing Users to Make Better, More Confident Decisions

随着数据的爆炸式增长,各行各业对数据分析的需求日益增大。但人们往往忽略了一个问题 — 他们正在分析的数据其实只是其数据全集中的一个采样。这样的忽略直接导致的结果就是:人们默认把采样数据当做全集数据进行分析,这样会导致几个问题,即采样的数据只是全集的子集,并不能完全代表全集的特征,这里具有一定的不确定性。尤其是在动态分析的数据集而言,这里的不确定性会增大。现有的可视化方法,例如boxplot盒图,它虽然可以展示出不确定性的分布,但是它仅仅是展示而已,对用户进一步的分析与决策判断的辅助效果并不明显。

举一个简单的例子,在一般的分析任务中,我们会问A与B谁的数值更大,但在基于采样的数据分析中,我们的问法就应该是,在多大概率下A比B大?问法不同,数据分析的方式亦不相同。

因此这次介绍的这篇文章从对于采样数据的任务驱动可视化为切入点进行研究,主要提出了基于较为普遍意义的柱状图与排序列表这两种可视化形式的不确定性表征与交互方法,可以辅助回答以下五个问题。

屏幕快照 2015-05-29 下午11.18.14

图1:针对采样不确定性的柱状图可视化

对于柱状图,任务包括:1)比较不同的bar;2)找到最值;3)与定值比较;4)与一个范围比较,判断每个bar的值落在该区间的概率。对于排序列表,还有两个额外的任务,5)判断某个类是第几名;6)判断某个类在一个排名范围类的概率。根据这些任务,作者提出了基于采样数据不确定性的可视化,如图1、2所示。

 

屏幕快照 2015-05-29 下午11.23.04

图2:针对采样的不确定性排序列表可视化

 通过在基于原有的error bar进行再设计,用户可以观察不同任务中不同的颜色编码,以辅助对数据分布的判断。例如图1c中,任务是比较每年的数据与一个常数值的大小,系统自动给出了大于、小于该值的概率分布,辅助用户进行判断。其他的任务大体也类似。值得注意的是作者设计了一个反映排序概率的可视化形式(图2),与以往的一个排序对应一个类目不同,每个排名中可能对应多个不同的类目,它们作为第k名的可能性用高度、颜色与宽度同时编码。同时它们也支持合并与分裂操作,可以满足对于判断前3名或者第5-10名的分布的可能性(如图2d)。

对于他们的针对采样数据的基于任务的可视化设计,作者设计了用户研究,来证明其工作的有效性。他们提出了两点假设,第一使用该可视化形式可以增加正确率,第二可以增加用户做判断时的信心。他们的研究表明第一个假设并不成立,但第二个假设成立,用户虽然正确率上与原来的形式判断没有显著的区别,但用户做出正确决定时的信心更加增加。这也呼应了他们的可视化形式能够帮助用户更好地进行决策的论断。

综上所述,将数据的子集特征考虑在数据分析中,并且基于任务进行可视化设计,这两点值得学习,具体的可视化形式可能并不够新颖,但其思路与角度十分有说服力,并且基于不确定性的判断是数据分析中重要的一环,在许多情况例如没有全局数据,或者在增进式分析(increamental analysis)时,我们可以考虑使用这样的可视化形式,会对复杂问题的分析有较大的帮助。

 

引用文献

[1] Nivan Ferreira, Danyel Fisher, Arnd Christian Konig. Sample-Oriented Task-Driven Visualizations: Allowing Users to Make Better, More Confident Decisions. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (pp. 571-580), CHI 2014, ACM, Toronto, Canada, April 2014.

 

评论关闭。