Data Hunches: 将个人知识融入可视化 (Incorporating Personal Knowledge into Visualizations)

可视化中展现的数据不一定是完美的,可能存在一些错误。而对于数据质量的问题,往往只有领域专家才能觉察到。 在发现可视化中存在数据质量问题后,专家可以通过书面告知、交谈等方式进行反馈,但是这样的反馈方式非常低效。本文介绍的工作首先对于数据质量问题进行了分类,然后对于不同类型的数据质量问题,采用了基于手绘风格的形式进行可视化,让专家在原有可视化中融入自己的个人知识。

作者首先提出了数据直觉(data hunch)的概念:专家对数据如何以及为什么是不完美的、部分感兴趣对象描述的知识(An analyst’s knowledge about how and why the data is an imperfect and partial representation of the phenomena of interest)。为了帮助专家更好的具化数据直觉,作者进一步对于数据直觉进行了分类。

  • 数值直觉(value hunch):表示特定数据值与数据集中记录的值之间的差异。数值直觉适用于数字、分类和文本/标签数据。例如,认为一个数据项应该属于类别A而不是类别B。
  • 结构直觉(structural hunch):表示某些数据点或关系不应包含在数据集中,或数据项、关系缺失。例如,在网络数据集中有些边缺失。
  • 评估直觉(assessment hunch):表示对于数据集或单个数据项的可信度或质量,或者提供关于数据集上下文。例如,评估数据集的可信度。

在以上分类的基础上,作者对于不同的数据直觉设计了不同的可视化形式。

图1:可视化专家数据直觉的原型系统。其中手绘风格的可视化是专家的数据直觉,红色注释是对于数据直觉的解释。

如图1所示,在该原型系统中,原有的可视化是关于各个国家一周内因为COVID-19死亡人物的预测。每一行代表一个国家,颜色表示该国采取的管控政策。在原有可视化上覆盖的手绘风格的标注,表示专家的数据直觉,即专家对于该可视化中的数据评价,包括数值的大小的修改,国家类别的修改,国家的增加与删除,对于整体可视化的评论等信息。

图2:帮助专家记录数据直觉的方法。

如图2列出了专家将知识融入原有可视化的三种方法。专家可以通过数据表格或者公式对于原有数据进行修改,或者直接拖拽原有的数据项,还可以对数据项的可信度进行打分或者评论。

最后作者总结了在设计数据直觉可视化一些准则,其中重要的包括:

  • 不能改变原始数据。数据直觉是关于可视化本身的一些认知,不同于原始的数据。所以数据直觉总是显示在原有可视化之上,原有可视化没有改变。
  • 与原有的可视化进行区分。作者通过手绘的可视化形式,从而将数据直觉与原有的可视化明显区分开。
  • 数据直觉的可视化与原有可视化保持相似性。保持相似性,可以让数据直觉与原有的可视化在数值上更容易进行对比。
  • 提供数据直觉的缘由和可信度。数据直觉是对于原有数据的一种评估,为了提高评估的可信度,需要提供具体的解释。

该工作提出了针对不同数据直觉的可视化,然而对于不同的可视化形式,相应的数据直觉需要不同的设计。另外,如何在提高数据直觉的可信度与保护用户的隐私之间也存在挑战。

参考文献:

Haihan Lin, Derya Akbaba, Miriah Meyer, and Alexander Lex. Data Hunches: Incorporating Personal Knowledge into Visualizations. IEEE VIS 2022.

评论关闭。