Keshif: 提供可视化初学者快速有表现力的表格数据探索 (Keshif: Rapid and Expressive Tabular Data Exploration for Novices)

现有的一些交互式可视化设计环境,一般针对的是通用的可视化环境,强调强大的表达能力。用户需要手动定义可视化和交互。这样就造成用户学习这类工具的开销较大,探索数据的速度减缓等问题并且可视化初学者容易选择低效甚至错误的可视化映射。

该论文专注于提供初学者快速探索表格型数据、获得数据驱动的洞察的能力。该工作使用自动的、规则式的设计方法,自动提供数据属性聚集的可视化。同时,通过自动生成的对单个元素的可视化和所有视图都可同步的交互,实现从总览到细节的探索流程。

设计目标

该工作的主要目标是减少用户探索表格型数据的障碍,使用户短时间内获得大量数据洞察。作者共提出了6个设计目标:

  • 支持初学者。该系统应该能够使得数据分析初学者快速学习系统,快速发现数据洞察。因此,这一系统关注已有的技术,而非新设计。这些已有技术包括多属性浏览(faceted browsing)和联动多视图(coordinated multiple views)。
  • 专注于探索任务。该系统的关注点不在于可视化的展示、定制、标注或者故事讲述。系统应该提供从全局到细节的探索流程的支持。
  • 最小化的自动的设计。维持一个核心的可视化形式集合和视图之间的一致性,使用户只需要掌握更少的可视化形式和交互,减少用户所需的努力和可能的错误。
  • 增加表现力。系统通过补充的分析模式来加强数据分析和洞察,同时不能牺牲原本的易用性。如提供对数据的转换。
  • 支持简单的构建。探索环境的构建简单,包括查询、观察关系和增加或修改数据特征。
  • 支持原始表格数据。表格数据非常普遍,每一行代表一个记录,每一列则是这个记录的属性。作者们扩展表格型数据模型,以支持多类别型数据的集合型数据、空间数据和连接型记录(用于创建图可视化)。

为便于在网络端部署、分享和维护,该工作使用了瘦的技术栈,避免复杂的框架和服务器/后端。

Keshif: 设计、模型和特征

Keshif采用的聚集总结和联动选择模型提供了简单但是灵活的基础。系统聚集记录,对每个聚集的集合按照指定的度量计算值,作为对属性的总结。这些可视化和总结根据数据的属性和语义进行自动选取。联动选取使用户能够查询和可视化记录的分布特征。为了进一步加强表现力,而非仅仅是联动属性浏览(linked faceted browsing),Keshif允许不同的聚集测量(计数、求和、平均)、坐标轴模式(绝对值、部分值)、测量刻度模式(绝对值,部分值)、计算属性(数据转换)、保存的选取(灵活的查询)和高亮与比较选取集合以及对数组、地图、网络数据的可选可视化形式的任意组合。

图1. 聚集总结和联动选取模型

聚集总结模型 (Aggregate Summary Model)

Keshif的总结是提取所有记录在一个属性上的值,按照值进行自动聚集,并对聚集的集合计算测量值。

如图是Keshif对不同数据类型的聚集方式,比如,对类别型数据,使用柱形图进行编码,长度对应测量值,位置对应类别。

图2. 数据聚集总结模型

同时,Keshif还会额外考虑数据的语义,例如,对于含有空间语义信息的类别型数据,可以采用列表的形式来强调排序,也可以选用地图的形式来强调空间分布;对区间型数据,当编码时间时,可以选用折线图,而当仅表示数值时,采用柱状图;总结集合对时,采用矩阵;总结数值型数据时,还可以采用分位数的方式进行聚集。

图3. 数据聚集总结模型——根据语义选取可选可视化形式

Keshif将记录数作为一种聚集测量,其它测量方式包括求和、求均值等。为达到更强的表现力,Keshif提供中位数、分位数的统计。

联动的聚集选择模型 (Linked Aggregate Selection Model)

Keshif包含三种聚集选择交互:高亮、过滤、比较。

  • 高亮由鼠标悬浮触发,允许快速预览所选择数据子集在不同聚集视图中的分布;
  • 过滤将不属于所选集合的数据排除在外,用户可通过点击实现过滤。不同的过滤默认按照逻辑与连接,但是为提供更强的表现力,Keshif提供逻辑或、逻辑非等逻辑操作,以达到复杂查询的目的;
  • 用户悬浮在数据子集上时,会出现锁的记号,当用户点击锁的记号,该数据子集的选择就被固定下来,以一种不同于原始聚集总结的颜色,嵌入进原始的总结视图中。多个比较操作可以允许用户比较并列的不同数据子集以及全部数据的分布图。

图4. 联动选取模型

聚集的映射方式

根据选择的类型,聚集由不同颜色编码:数据总体为浅灰色,过滤子集为深灰色,高亮子集为橙色,比较(最多支持三个比较)为蓝、绿、白色。

对于数量型测量,系统提供绝对刻度表现绝对数值和相对刻度,表现高亮或比较的数据子集相对该聚集在全部数据上的百分比。用户只需点击总结图的坐标即可实现转换,以避免额外的用户界面。比例尺的范围由过滤的数据子集确定,当使用数量或求和度量时,高亮或比较的值在比例尺范围之内,但是对于平均值度量,系统只会根据比较来改变坐标范围,对于高亮交互,则不会。目的是避免切换高亮数据子集过程,造成频繁的范围变化。

使用数量或求和度量时,坐标轴标签也可以选取绝对值或相对值。

用户通过比较操作选取的数据子集通过并列而非堆叠的方式进行展现,因为Keshif中。进行比较的数据子集可以重叠,而且,统一的基线提供了更准确的比较。

记录展示、编码和选取

记录展示视图展现了每一个单独的记录。记录可以被编码为列表中的一项,地图中的一个区域(对有空间语义信息的记录),点边图中一个节点(对图数据),或者散点图中的一个点(选取记录的两个数值型属性作为坐标轴)。

图5. 数据记录可视化形式

鼠标悬浮在一个记录上时,每一个聚集视图会显示记录在这个属性上的取值。点边图中,节点的邻居也会被高亮。用户还可以选取记录,在弹出的表盘中查看它的详细信息。

数据转换

为了灵活和有效的数据表示和分析,Keshif允许用户自定义计算属性函数,返回记录的计算后的数据特征值。如:

  • 对于文本数据的解析和符号化,如将文本分割为数组;
  • 将数据简写转换为原始数据,如将”10k”转换为”10000”;
  • 将多个记录聚合成多值类别型数据;
  • 合并外部数据源,如合并文章-作者表格和作者-地点表格,以得到每篇文章的地理位置;
  • 对每个记录,定义HTML标记。

对通用的计算属性,Keshif提供图形化的快捷键,如

  • 时间成分提取
  • 集合的度的计算
  • 符号化得到多个类别

构建Keshif仪表板

构建既包括从原始数据到可探索的可视化形式的过程,也包括对已有仪表板的修改。

Keshif的可视化仪表板分为左右中下四个部分。这样的设计减少用户放置可视化时的布局决策。

在图形化构建模式中,左侧的维度表盘展示了未被插入仪表板的属性,每个属性对应一个压缩的可视化,展现数据分布。通过拖拽,属性可以被加入或移除出仪表板。双击属性则自动插入该属性。插入的策略可以是,将记录展示视图放置于中间,类别型属性置于左侧,数值型置于右侧,时间型置于底部。

仪表板配置

一个仪表板配置设定了数据源,描述了不同的总结和记录展示,由JSON格式保存。Keshif检测数据类型,自动进行可视化。一些元属性需要用户通过文本进行定义,如,空间区域、点边图中的外键、顺序型数据的类别顺序等。记录的风格也可以通过CSS进行定义。

通过集成第三方提供的API,如GitHub,Keshif的配置可以保存和分享。

评估

该论文作者使用基于数据洞察的评估方式,研究可视分析新手短时间内开放式的数据探索。目的是理解用户获得的洞察的特征、探索过程和这些结果与论文提出的模型的关系。

研究设计

用户调研包含6名被试,4名男性,2名女性,5人年龄在18~24岁,1人年龄在40~49岁。参与者都没有数据可视分析的熟练技能,并且都没有接受过可视化的正规训练。5个年轻人使用过Excel进行作图。被试还使用过一些统计工具,如SPSS(3人),Stata(2人)和Graphpad(1人)。参与者没有分析过实验过程中的数据,不是领域专家也没有使用过Keshif。

实验中被试需要探索2个数据集:电影和鸟类撞击,这些也是Voyager的实验中使用的数据集。

实验中定义洞察为和数据有关的陈述。对于仅仅和视觉信息有关的陈述,如“图中有一个峰点”,则不计算为洞察。

作者们根据洞察的特征和获得特征的时间时的界面状态进行编码:

  • 文本:洞察的内容
  • 时间:说出洞察的时间
  • 正确性:这个洞察是否正确
  • 特征:事实、最大最小值、分布、比较还是相关?
  • 和洞察直接相关的数据类型:总结的数据类型(类别型、数值型、时间型、地图型)或者单个记录
  • 选取状态:被过滤、高亮或者比较的总结的数量
  • 度量函数:数量、求和或者平均
  • 度量刻度:绝对或者百分比
  • 坐标轴模式:绝对或者相对
  • 数据集:电影还是鸟类撞击数据集
  • 数据集顺序:第一个或者第二个数据集

实验结果

被试获得洞察的时间图如图所示:

图6. 实验结果:洞察时间分布图

用户获得的洞察数在35到90之间,平均每分钟得到2个洞察。洞察可能与多个类型有关,34%的洞察和属性的最大最小值有关,其中79%是关于类别型数据,表明类别型数据的自动排序影响了用户的探索。24%的洞察包含简单事实,其中38%是关于单个记录。22%的洞察和相关有关,即先选定一个维度的聚集总结,观察子集在其它维度上的趋势。关于比较的洞察最少,只占14%。

作者们还观察到默认的设置下获得的洞察最多,绝对的坐标轴模式、绝对的度量刻度、数量聚集度量下的洞察均达到甚至超过90%。

78%的洞察需要被试主动的数据选取操作。需要比较操作的洞察很少,只占18%,与之相对,需要高亮和过滤的洞察分别占34%和55%。

总结

本工作提供了自动化的系统的关于表格数据快速探索的设计。作者们限制了可视化(总结模型)和交互的设计空间(联动选取模型)。该系统可以使得用户简单地创建可视化数据探索仪表板。

参考文献

[1] Yalçın, M. A., Elmqvist, N., and Bederson B. B., Keshif: Rapid and Expressive Tabular Data Exploration for Novices, IEEE Transactions on Visualization and Computer Graphics, 2017

评论关闭。