用交互式数据事实增强可视化图表(Augmenting Visualizations with Interactive Data Facts to Facilitate Interpretation and Communication)

恰当的图表注解可辅助用户理解,如排除视觉元素的干扰,突出图表的重点特征,帮助初学者快速上手等。近期,不少的可视化工具引入了自然语言生成 (Natural Language Generation, NLG) 技术来自动生成对可视化的描述性文字,丰富界面。例如Narrative Science的QuillArria的相关产品就是常见的商业例子。然而,静态的文字与对应的图表缺乏直接的关联性,也难以适应人们分享交流的实际需求。面对以上问题,本文[1]在详尽的用户研究的基础上提出了Voder:一个将可视化与交互式自动生成描述关联的原型系统。

Voder的设计主要出于以下考虑:

  1. 为原始图表和描述文字形成关联。
  2. 为探索数据提供或详细或精炼的描述。
  3. 为数据特征描述 (data facts) 的交流提供多样化的形式。
    1. 其他可能的可视化形式;
    2. 其他可能的高亮 (embellishment) 方式。
  4. 便利数据特征描述的搜索。

图2 – Voder交互式用户界面, 鼠标悬浮在(D)的句子中时,相应的高亮会显示在(B)。(A) 指定可视化类型和相应参数;(B) 当前查看的图表;(C) 系统为当前查看的图表所自动生成的描述;(D) 用户通过点击★而选中的描述;(E) 系统根据A的参数所提供的其他可视化形式;(F) 数据描述搜索窗口;(G) 其他可视化形式的展示。

由此出发,研究者开发了原型系统Voder,其界面如图2所示。它主要支持用户的三种行为模式:数据内涵 (insight) 探索,可替代的可视化探索以及整体数据内涵呈现。具体演示可查看论文视频[链接]。大体而言,用户在选择好需要绘制的数据属性以及可视化类型之后,在系统产生的描述中标★收藏认可的句子,并在默认高亮的基础上添加个人需要的其他修饰,最后以仪表盘或幻灯片的形式保存所有文字与图表的动态搭配。

值得指出的是,这里的描述性文字是在[2]小结的可视化任务的基础上加以一定改进,根据启发式算法生成的(见图3)。先验调查表明,用户更偏爱于手动添加高亮的其他修饰,因此系统只提供默认的基础关联高亮如透明度变化以及回归线。为了缓解描述的冗余,系统引入了一个分组的策略,只展示最为显著的特征,其他需要用户下拉查阅。而为了方便具有针对性的数据探索或数据描述,系统还提供了搜索功能。用户可根据数据编号,属性名称,值或一些常见的描述性词汇如“低”“相关”等来在结果集中迅速定位想要的描述。此外,用户可手动添加自己的描述以及相应高亮,作为对机器识别的补充。

图3 – Voder中可视化类型,高亮元素以及数据特征描述之间的映射表。N:连续型数据;C:离散型数据;O:透明度;S:描线;IL:标签;TH:文本高亮;RL:回归线;CH:凸包;QL:四分线;

这份工作的合理性及有效性在用户研究中得到肯定。12名参与者中年龄分布在23至40岁,有从未接触相关工作的新手,也有中级可视化用户以及熟练的专家。专家中有两人曾有使用NLG图表插件的经历。整个过程将持续50到70分钟,参与者被要求对一个全新的数据进行探索,由此制作数据报表并进行口头报告。参与者可随时与实验者进行交流,之后需要完成问卷和采访。反馈总体而言都较为积极:Voder对于发现异常值颇为有效,而一些简单事实的罗列在一定程度上缩短了人为概括的时间;文字和图形之间的关联甚至使新手得到了分析可视化的训练等等。

最后小结,这篇工作的主要贡献在于以下两点:

  1. 提出了一种便于数据探索的交互式图标描述应用。这里的交互性还能为图表的修饰及其他形态提供一些参照。
  2. 对经验、年龄不同的用户进行了定性的调研,验证了此类系统对于帮助用户理解图表,增进交流表达的灵活度均有一定作用。

当前,自然语言生成在数据可视化的应用总体还处于起步阶段 (infancy),但它有望在人们日常分析数据以及交流合作,汇报展示中起到不容小觑的促进性作用,值得各界为其添砖加瓦。作者列举了几个后续工作潜在的发展方向:根据用户的兴趣或其他需求来定制数据特征描述;整合自然语言理解 (Natural Language Understanding, NLU) 和自然语言生成 (NLG);自动生成成段的数据描述而非孤立句子,简化可交互数据叙事  (interactive storytelling) 的过程。

 

参考文献:

[1] Arjun Srinivasan, Steven M. Drucker, Alex Endert, and John Stasko. “Augmenting Visualizations with Interactive Data Facts to Facilitate Interpretation and Communication.” IEEE transactions on visualization and computer graphics (2018).
[2] Amar, Robert, James Eagan, and John Stasko. “Low-level components of analytic activity in information visualization.” In Information Visualization, 2005. INFOVIS 2005. IEEE Symposium on, pp. 111-117. IEEE, 2005.

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>