非整洁数据:表格未知原因的有效性 (Untidy Data: The Unreasonable Effectiveness of Tables)

数据表格是一种人们熟悉的、原始的数据表现方式。在商业产品与数据统计分析工具繁多的当下,数据表格仍然在意义构建中扮演着重要的角色,并且绝大多数的数据工作者会选择使用数据表格作为他们的主要工具。本文通过一个全面的、定性的用户调研与实验探索了数据表格的优势以及在意义构建中是如何发挥作用的。

数据表格作为一种已经被人们广泛熟知的数据表现形式,已有大量的相关的研究工作。一方面在可视化领域内,通常而言,我们定义一个数据表格,它的列集合代表一个个维度的不同层级,它的每一行是在各个维度下观测值的集合[1]。数据表格可以被看作一个完全可交换的矩阵[2],它可以支持排序、重排、过滤等交互操作。表格的网格结构也常被用作一种隐喻来组织可视化,例如在The Table Lens[3]的工作中,通过将可视化嵌入在表格中来加强对于数据的理解。另一方面在数据分析领域内,过往的大多数研究将对象集中在少数的专业数据分析师上,以及他们使用传统的意义构建循环[4]来定位数据表格的作用。另外一些专门的研究,表明表格的网格结构可以更好的支持一些数据操作[5]。本文在此基础上,希望讨论对于更广泛的数据工作者群体,了解数据表格在意义构建中的角色,以及数据表格的好处。

图1:常见的数据表格

首先,作者定义了本文中实验讨论的数据表格,特指用于意义构建的数据表格。它应当具备以下特点:它的布局是易于人阅读理解的,而非为机器准备的,通常会是压缩的、以个体为主的视图;由于原始数据的不整洁性,表格包含不同类型、不同来源、不同粒度以及空缺或错误的数据;表格中还会有附加的标注文本。数据表格应当支持的交互,包括有表格的布局重排、表格内容的修改、增删标注等操作。

其次,作者进行了一场用户实验,一共有12名数据工作者,没有一人曾受过正式的专业培训。实验总共有三个阶段,第一个阶段是采访环节,实验对象回答关于他们的数据、任务、方法、困难等问题。第二个阶段是草图环节,实验对象可以通过花草图的方式介绍他们通过哪些模型或方法完成他们的任务。第三个阶段是演练阶段,实验对象从头至尾地完成一次对于他们自己的数据分析任务。整个实验阶段都是全程录音与录像的,而作者最关心的在于实验对象会如何布置数据来构建语义、从原始数据到最终结果的流程、面对的挑战以及如何处理空缺错误的数据。

在三位作者分别分析了实验对象的录像后,总结了三方面的发现,针对构建数据表格、使用数据表格和使用表格的障碍。虽然在实验申明时,不限制他们使用的工具,但所有的实验者都使用了数据表格作为他们的工具之一,并且基本遵从相同的工作流程。通过结合不同来源的数据、手动添加数据和属性、提取单一数据集的部分子集,数据工作者从原始数据中生成一份基数据,随后将基数据转为数据表格的形式,称为“主表”。一般主表将被完好得保存,而全部的工作将在主表的备份中完成,此时数据工作者们面临的主要挑战是:在备份与主表间很难进行数据的比对,需要反复的来回切换。在主表备份中完成他们需要的工作后,最终会将结论以其他的形式来呈现,工作者们表示在数据凝练为结论的过程有一种强烈的对于数据的控制感和拥有感。

在构建主表时,工作者们遵循一些规则,他们使用行来代表个体,空间上的相近来表示聚类关系,多层的列集合来表示层次结构关系。在聚集的行或列上,会使用更粗粒度的数据。标注在表格的外围往往以附加的列或者文本信息呈现,而在表格内部往往通过高亮或背景色的方式,因为工作者希望标注不破坏表格整体的可读性,也希望可以在转化时尽可能保留标注信息,因此极少会将标注隐藏在对应的单元格内,或是直接插入文本。当使用数据表格时,工作者们会直接操作行与列来构建语义,主要通过重排和隐藏列的方式来逐渐深入细节。作者发现工作者们在使用表格时会花费大量时间通过注视观察的方式来检查数据的正确与否,这体现了工作者们对于他们的数据操作和得到结果的不自信,哪怕这些结果是直接有工具直接获得的。实验中的对象们,也反馈到他们工作中面对的最大困境就是,使用表格时需要花费人力来完成许多重复性的工作,然而使用其他的工具又有太高的门槛。

最终,作者总结了他们的发现。在数据工作者眼中,数据表格是一个可信的平台可以直接操作数据,同时又可以作为工作平台来测试和验证数据操作的结果。表格需要支持工作者可以不计后果地、透明地对数据进行反复的测验,同时也需要一些增强可视化来帮助他们理解一些操作在如何改变数据以及数据的变化过程。同时,相比于数据表格,大部分的数据分析工具需要更友好的使用方式,来降低工作者使用的门槛,并且需要支持更多基础交互和提供对于数据的直接操作。作者希望在将来,可以用一个交互强化的数据表格来帮助工作者们更好的利用表格这种形式,
以及可以有嵌入式的可视化来帮助理解分析的过程。

参考文献:
[1] H. Wickham. Tidy Data. J. Statistical Software, 59(1):1–23, Sept. 2014. Number: 1.
[2] J. Bertin. Graphics and graphic information processing. Walter de Gruyter, 2011.
[3] R. Rao and S. K. Card. The table lens: Merging graphical and symbolic representations in an interactive focus + context visualization for tabular information. In Proc. ACM Conf. Human Factors in Computing Systems, p. 318–322. New York, NY, USA, 1994.
[4] Russell, Daniel M., et al. The cost structure of sensemaking. Proceedings of the INTERACT’93 and CHI’93 conference on Human factors in computing systems. pp. 269-276. 1993.
[5] P. Dourish. Spreadsheets and Spreadsheet Events in Organizational Life. In The Stuff of Bits. The MIT Press, 2017.

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>