ADVISOR: 表格数据自然语言问询的自动可视化回答(ADVISor: Automatic Visualization Answer for Natural-Language Question on Tabular Data)

近年来,人们对数据分析的需求不断增长。而生成可视化是展示、分析数据特征的重要手段。无论是学术论文还是数据新闻,可视化在对数据的分析中都扮演着重要角色。由于其广泛的需求,一些商业工具如PowerBI 等可以根据用户在数据表格中指定特定的行或者列以生成可视化结果。然而,构造相应的可视化需要用户在数据和可视化方面具有一定的专业知识以决定选择相应的数据和可视化的类型。

这些工具依赖于用户具有的数据或者可视化的一定门槛。不同于编程或者使用特定可视化构建工具固有的学习成本,人类用户天然掌握一种低门槛的交流方式——自然语言。利用自然语言来表述用户的数据分析需求天然地降低了用户的使用门槛。基于此,北京大学可视化与可视分析研究组刘灿、韩云等 [1] 提出了一种从自然语言问题和表格出发,构建可视化及附加高亮为结果的方法。该方法全文发表于2021 IEEE 太平洋可视化会议(IEEE Pacific Visualization Symposium)。

一些工作也致力于利用自然语言为界面构建可视化或者与可视化进行交互,大大降低了用户和可视化的壁垒。然而,这些对于自然语言处理解析步骤基于词的匹配或者近义,而自然语言中又存在模糊性。具体而言,一个表格数据具有多个属性(表格列),用户的问询需匹配对应合适的数据中的属性,同时,并非整个表格都是用户关心的内容,过滤出合适的数据项也是重要挑战。过滤条件也需要在用户问询中获得。传统的可视化构建/交互的自然语言界面借助于预先定义的模板以决定操作类型和数据属性。一些用户问询并不直接地指定数据属性或者指定可视化方式。此时,一种更为通用的解析自然语言并匹配表格数据属性的方法能够更有效地支持此任务。

受到深度学习支持的自然语言处理技术的启发,北大可视化研究组提出一种基于深度学习的方法,ADVISor以弥合自然语言和可视化的鸿沟。该方法生成带有高亮的可视化结果以回答表格数据上的自然语言问题。如图1所示给定表格数据和自然语言问题作为输入,通过使用预先训练的语言表示模型,BERT [4],将数据属性和问题解析为通用的向量。同时构建多个深度学习模块根据问题和数据属性向量确定数据区域(数据项和属性)和聚合类型(包括求和,平均值,极限值)。以数据区域和聚合类型作为输入,ADVISOR也构建一套规则以选择可视化类型和高亮类型。

图 1:ADVISor 的工作流程

为使模型具有足够通用性,ADVISOR使用具有覆盖广泛的真实数据和问题的数据集,WikiSQL [5],来训练模型。然后,将训练后模型部署到交互系统中,以显示表格数据和相应问题的可视化结果。用户可以直接与系统上的表格数据进行“对话”,如图2所示。

图2:用户可与表格数据进行直接对得到可视化结果

研究组也将ADVISor与相关前沿工作NL4DV [6] 进行了比较。 比较结果表明,ADVISor可以处理更为灵活的问询,因此更为通用。

该工作是北大可视化研究组自然语言与可视化的系列工作的一部分。此前,研究组赖楚凡等人 [2] 提出自然语言描述和可视化的自动匹配及动态标注的工作长文发表于ACM CHI 2020,刘灿等人 [3] 可视化的自动自然语言生成工作发表于Pacific Vis 2020会议。

参考文献

[1] Can Liu, Yun Han, Ruike Jiang, and Xiaoru Yuan. ADVISor: Automatic Visualization Answer for Natural-Language Question on Tabular Data. In Proceedings of IEEE Pacific Visualization Symposium. pages 6-15, Tianjin, China, April 19-21, 2021.

[2] Chufan Lai, Zhixian Lin, Ruike Jiang, Yun Han, Can Liu, and Xiaoru Yuan. Automatic Annotation Synchronizing with Textual Description for Visualization. In Proceedings of ACM Conference on Human Factors in Computing Systems (CHI 2020). Honolulu, Hawai’i, USA, April 25-30, 2020.

[3] Can Liu, Liwenhan Xie, Yun Han, Datong Wei, and Xiaoru Yuan. AutoCaption: An Approach to Generate Natural Language Description from Visualization Automatically. In Proceedings of IEEE Pacific Visualization Symposium. pages 191-195, Tianjin, China, June 3-5, Notes, 2020.

[4] Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.

[5] Victor Zhong, Caiming Xiong, and Richard Socher. Seq2sql: Generating structured queries from natural language using reinforcement learning. arXiv preprint arXiv:1709.00103, abs/1709.00103, 2017.

[6] Arpit Narechania, Arjun Srinivasan, and John Stasko. NL4DV: A toolkit for generating analytic specifications for data visualization from natural language queries. IEEE Transactions on Visualization and Computer Graphics, 27(2):369–379, 2021.

评论关闭。