为可视化集合中的可视化生成具有代表性的缩略视图(VizSnippets: Compressing Visualization Bundles Into Representative Previews for Browsing Visualization Collections)

当用户需要在一个包含许多个可视化的可视化集合中(例如Observable或Tableau)进行检索时,好的缩略图能够帮助用户快速地判断一个可视化和他的实际检索目标的关联,从而快速筛查候选结果,较大地提升用户检索的效率。然而在当前的许多可视化创作与分享网站上,可视化的缩略图生成方法是存在较大缺陷的。本次我们将要介绍的工作VizSnippets就针对这些问题从图片选择和文本关键字选择两个方面提出了一个自动化的可视化缩略视图生成方法。

图片1. VizSnippet的效果展示,其中(1)(3)(4)(5)(6)为论文提出的方法在不同配置下生成的缩略图结果,(2)是当前现存方法产生的结果。

现存的为可视化生成缩略图的方法中存在的问题主要在于对缩略图上要展示的图片和文字的选择上。首先当前方法生成的缩略视图(图片2)一般只包含一张图片,且当一个可视化中包含多个视图或多张图片时,当前的方法往往无法选择最具代表性的最重要的视图进行展示,其次,现存方法生成的缩略视图中的文本信息一般只包含需要作者手动指定的标题,许多作者并不会为精心设计一个具有代表性的标题,以至于很多标题是last version/untitled/test这种不包含实际信息的词句。所以在本论文中,作者提出了缩略视图生成方法也是从图片排序和文本关键字提取两个角度入手。


图片2. 几个当下流行的可视化创作分享网站中的缩略图的例子

本工作使用的数据包括Tableau提供的具有良好格式的数据,许多信息都被包含在了原始数据中,所以本工作提出的方法并不包括将视图转化为图片,识别视图中的图表类型,以及获取视图中的文本等步骤。同时作者也尝试了从Observable上爬取的数据,在这一部分数据中,许多信息因为难以获取,所以被设置为缺省值或忽视。

本工作中提出的可视化缩略图生成方法分为图片排序和关键字提取两个模块,对于一个可视化,方法最后会生成具有优先级顺序关系的一个图片队列和一个文字队列,然后根据配置信息中的需求(图片3),将前几重要的图片和关键字组织成为一个缩略视图。

图片3. VizSnippet总结的几种可调整的缩略图布局方式

在图片排序的过程中(图片4),秉承着使得展示的图片中的总信息最多的目标,作者首先去除了接近空白的低密度信息视图和被包含在其他视图中的视图,然后根据颜色的多样性和图表类型进行了排序,之后作者使用HoG特征对图片之间的相似度进行了计算,去除具有较高相似度的图片,并重新调整排序顺序,使得相似度较大的两张图片在顺序队列中距离较远。

在文本关键词的提取过程中(图片4),作者首先使用TF-IDF方法对关键字进行了提取,然后通过编辑距离对关键字进行了去重,并进行了拼写检查与纠正,最后结合其TF-IDF权重和关键字出现的位置(可视化视图/数据表格)对关键字进行了排序。

图片4. VizSnippets的工作流程

在本工作中,作者并没有采用大规模的用户调研等方法来定量地验证方法的有效性,而是使用了许多个轻量级的检视器(inspector)来分布验证方法中每个步骤的有效性,同时这样的检视器也能够帮助作者快速地迭代地调整算法与参数(图片5)。


图片5. 在本工作中使用了8个轻量级的检视器(inspector)用来调整参数以及验证方法有效性

本文通过设计图片排序与文本提取的方法,将可视化中重要的视图和关键字组织为缩略图,相较于之前直接的缩略图生成方法,较大地丰富了缩略视图中的语义信息,能够为用户的浏览与检索提供更大的帮助。

可以发现本文中解决的问题是一个非常常见的问题,这样的问题在例如可视化课程作业展示的网页上,COVID-19相关可视化收集项目中我们都是有遇见的,但是遗憾的是,我们当时并没有重视并认真思考如何解决这个问题,这是值得我们在今后进行反思的。

[1] M. Oppermann and T. Munzner. VizSnippets: Compressing Visualization Bundles Into Representative Previews for Browsing Visualization Collections. To appear in IEEE VIS 2021.

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>