基于任务的基本可视化效果(Task-Based Effectiveness of Basic Visualizations)

大量先前的研究评估了不同可视化类型的有效性。然而,这些研究是在不一致的条件下进行的,样本大小不同,任务数量有限,使用的数据集不同。研究表明,可视化的有效性取决于几个因素,包括手头的任务,以及可视化的数据属性和数据集。例如,虽然一个图表可能适合回答特定类型的问题(例如,检查两个数据属性之间是否存在相关性),但它可能不适合其他类型(例如,查找具有最大值的数据点)。

本文对5-34个小尺度(5-34个数据点)二维可视化类型(表格、折线图、条形图、散点图和饼图)在10个不同的视觉分析任务和两个不同的数据集(汽车和电影)中的效果进行了众包研究。结果表明,这些可视化类型的有效性通常在不同的任务中存在显著差异。例如,虽然饼图是查找极值最有效的可视化工具之一,但它在查找两个数据属性之间的相关性时效果较差。本文还要求参与者按照执行每个任务的偏好对五种不同的可视化类型进行排序。研究发现准确性和用户偏好之间存在正相关,这表明人们对可视化的偏好使他们能够准确地完成任务。

人们对于可视化推荐系统的兴趣越来越大,它旨在将可视化设计和探索决策的一些负担从用户转移到算法上。本文的结果可用于改进未来的可视化推荐系统。设想创建一个推荐引擎,根据用户指定的任务建议可视化。为此,本文开发了原型可视化推荐工具Kopol1。对用户数据进行决策树模型培训,然后由Kopol为给定的任务和数据类型提供排名建议。该模型考虑了性能时间、准确性和用户偏好。

两个数据集都包括类别、序数和数量类型的数据属性。类别属性是离散的,例如汽车类型(例如轿车、SUV、货车)。序数是指在特定范围内具有自然排序的数量,如电影分级。数量为连续的数值数据,例如电影的利润值。我们使用数据集中可用的所有三种数据属性的成对组合生成可视化(例如,类别*数量或序数*数量)。

之前,Amar等人提出了一组10个低级分析任务,描述用户的活动,同时使用可视化工具了解他们的数据。首先,这些任务是现实世界中的任务,因为用户在使用不同的可视化工具浏览五个不同的数据集时会想到这些任务。第二,不同的研究使用这些任务来评估可视化效果。任务如下所述。

  • 发现异常。本文要求参与者根据给定的关系或期望确定给定数据点集合中的任何异常。我们手工制作这些异常,以便一旦发现,可以直接验证观察到的值是否与数据中通常存在的值不一致(例如,长度为零或负的电影将被视为异常)。例如,哪种类型的电影长度异常?
  • 查找群集。对于一组给定的数据点,要求参与者计算具有相似数据属性值的组的数量。
  • 计算派生值。对于一组给定的数据点,要求参与者计算这些数据点的聚合值。例如,动作片和科幻片的预算总额是多少?
  • 描述分布。对于一组给定的数据点和感兴趣的属性,要求参与者确定该属性值在集合上的分布。例如,在电影类型中,平均总价值高于1000万的比例是多少?
  • 求极值。对于这个任务,要求参与者找到具有数据属性极值的数据点。例如,最高气缸的汽车是什么?
  • 过滤器。对于给定的数据属性值的具体条件,要求参与者找到满足这些条件的数据点。例如,哪种车型的城市英里/加仑在25到56之间?
  • 秩序。对于一组给定的数据点,要求参与者根据特定的顺序度量对它们进行排名。例如,如果要按从最大平均总值到最小值的顺序排列,那么以下哪个选项包含正确的电影类型序列?
  • 确定范围。对于一组给定的数据点和感兴趣的属性,要求参与者在集合中找到值的范围。例如,汽车价格的范围是什么?
  • 检索值。对于这个任务,要求参与者确定给定数据点的属性值。例如,汽车的马力值是多少?

为了生成可视化效果,本文使用了数据集中可用的三种不同数据属性类型的三对组合:类别*数量,序数*数字,数量*数量。不包括类别*类别,因为不可能使用本研究中考虑的所有五种可视化来表示这种组合(例如,折线图)。

图1. 可视化形式

对任务和数据集进行汇总后的结果显示,条形图是最快和最准确的可视化类型。这一结果与之前关于图形感知的研究一致,显示人们可以比其他编码更快地解码编码的值。相反,折线图具有最低的汇总精度和速度。然而,对于相关和分布任务,折线图比其他图表更精确。这一发现与早期报告趋势发现任务折线图有效性的研究一致。尽管如此,折线图的整体低性能令人惊讶,对于某些任务,可以归因于轴值(“刻度”)是按间隔绘制的。这使得精确识别特定数据点的值变得困难。

饼图在检索、范围、顺序、过滤、极值、派生和群集任务方面与条形图和表一样准确和快速,但在相关性、异常和分布任务方面则不太准确。饼图是执行群集任务的最快可视化。这些任务的饼图的高性能可以归因于它在传递部分-整体关系和促进比例判断方面的相对有效性。

总的来说,散点图在准确性和时间方面都表现得相当好。对于大多数任务来说,散点图是最有效的前三种可视化效果之一,对于任何任务来说,它都不是最不精确或最慢的可视化效果。

在大多数任务中,条形图和表格是参与者最喜欢的两种可视化类型。对于几乎所有的任务,条形图都是两个表现最佳的可视化工具之一,因此人们更喜欢使用条形图而不是其他可视化工具。令人惊讶的是,虽然使用表执行某些任务(如分布、异常)的速度相对较慢且不太准确,但参与者仍然更喜欢使用表执行这些任务。人们对表格的熟悉程度和对表格的理解程度可能导致人们更喜欢使用表格而不是其他的可视化。为了确定性能时间和准确性是否与用户偏好相关,我们计算了性能时间、准确性和用户偏好之间的相关性。我们发现准确度与用户偏好呈正相关,这表明人们倾向于能够准确完成任务的可视化形式。我们还发现性能时间和用户偏好之间存在弱负相关。

图2. 可视化有效性

在这项工作中,报告了一项研究的结果,该研究收集了用户使用五个小规模(5-34个数据点)二维可视化类型(表格、折线图、条形图、散点图和饼图)执行十个常见数据分析任务的性能和偏好。本文使用两个不同的数据集来进一步支持结果的有效性。本文发现可视化类型的有效性在任务之间显著的不同。将发现汇编成一组建议,以便在实践中为数据可视化提供信息。

评论关闭。