自然语言 (natural language, NL) 作为数据可视化工具的输入模式越来越受到关注。 许多商业可视化系统工具(例如 Microsoft Power BI 、Tableau 等)和研究方法都展示了自然语言接口支持更广泛的受众进行可视分析的潜力。对自然语句的分析理解对这些工具而言非常重要,然而已有的工作通常缺乏对用户如何使用自然语言指定生成可视化的过程缺乏足够的理解。
为弥补这一空白,来自Tableau, 佐治亚理工,和微软的研究者们收集分析了用户指定可视化的自然语言并对它们进行分析[1]。该工作发表于ACM CHI 2021。该工作在网上发布了一个研究问卷,并定向投放给数据可视化相关领域的从业者。经过约60天时间,共有202人访问了该网址,有102人参与了这项研究,最终有76人完成了整个研究。
该工作准备了3个表格,分别是汽车(Cars),电影(Movies),和超市(Superstore)的表格。它们都涵盖了定类、定量、和时间属性,并且有数百至数千个数据项。针对每个表格,该论文准备了10种不同的可视化,涵盖了基本的可视化种类,如散点图、柱状图、线图等,同时也涵盖了1至3种属性的可视化。如图1所示。

每个用户可以看到其中一个表格数据的10种可视化。经过简短的对数据表格的介绍,用户需要针对每种可视化,给出一个或者多个自然语句。如图2所示为用户输入语句的界面。

最终,该论文共收集到893个语句,其中814个为有效的语句。大部分(约755)为单一语句,小部分(59)为序列语句。根据分类而言,有命令式(368)、查询式(260)、和问题式(114)和其他(72)。其中命令式类似于一个人类用户对另一个人的关于可视化的命令,如“给我一个GDP随着年份变化的线图”;查询式则通过一些关键词来匹配,比如“柱状图不同省份GDP年份”;而问题式则是用户期待该可视化可以回答某个自然语言问题。
该论文收集的集合可以用于对已有自然语言接口的工具评估和用于发展新的模型方法。
【参考文献】
[1] Srinivasan, A., Nyapathy, N., Lee, B., Drucker, S. M., & Stasko, J. (2021, May). Collecting and Characterizing Natural Language Utterances for Specifying Data Visualizations. In Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems.
评论关闭。