IEEE PacificVis 2021 机器学习和自动可视化专题(Machine Learning and Automated Visualization)

IEEE PacificVis 2021 机器学习和自动可视化专题(Machine Learning and Automated Visualization)以及可视化遇到AI专题(Visualization Meets AI)共报告五个工作,分别是关于将机器学习运用到图布局偏好预测、自动可视化问答、单元可视化的滚动叙述生成、基于图标检测训练对信息图进行解析和总结,以及使用文档嵌入和降维展示主题演变。其中,来自北京大学可视化与可视分析实验室的自动可视化工作ADVISor的具体介绍在http://vis.pku.edu.cn/blog/advisor/

一种预测人对图布局偏好的机器学习方法 (A Machine Learning Approach for Predicting Human Preference for Graph Layouts)

众所周知,图的布局会影响其可读性。给定一个图和它的两个不同布局,人可以根据视觉感知和认知系统来判断哪一个图布局更好。在本文中,作者提出了一种基于卷积神经网络的方法来预测人对图布局的偏好。对于两个输入的图布局图片,模型首先使用卷积神经网络来提取两张图片的特征,然后相减之后传入一个以Sigmoid为激活函数的全连接层,输出一个0到1之间的值,作为预测结果。

为了训练这样的一个深度神经网络,需要大量的训练数据,但是人对两个图布局的偏好的数据集非常有限的。因此本文使用了迁移学习的方法,利用评价图布局质量的指标,如边交叉的数量、能量函数以及基于形状的指标等,通过多数投票法生成对于两个图布局的偏好的数据集,其数量是原有的人的偏好数据集数量的三倍。本文首先在这个生成的数据集上进行预训练,然后在真实数据集上进行微调,使用这个训练方法得到的模型在准确率上相比只在真实数据集上训练的模型有很大提高。

综上所述,本文利用了人工生成的数据集,解决了预测人对图布局的偏好这个任务数据不足的困难,使用基于卷积神经网络的深度学习模型来预测人对图布局偏好,在规模较大的图布局上取得了较好的效果。

基于单元可视化的滚动页面叙事自动生成 (Automatic Generation of Unit Visualization-Based Scrollytelling for Impromptu Data Facts Delivery)

滚动页面的叙事(Scrollytelling)近年来成为一种流行的数据驱动的叙事可视化方案,当网页读者滚动页面时,Scrollytelling 可以动态地更新页面的内容。通常包括图片、可视化、以及文本。一个典型的例子是 Who Runs China 将几千个全国人大代表表现为小圆圈,通过不同的排布方式展示了不同的属性分布。并通过清晰和互动的方式传递数据中的信息。

案例展示

Lu 等人提出一种支持用户简单地生成滚动叙事的方法。该工作将整个设计空间简化为基于单元可视化传达数据中的事实(fact)。整个流程以表格数据为输入。表格数据是具有多个属性、多个数据项的数据。而事实则是数据中存在的特征,包括趋势、最值、等分类。该工作首先从数据提取事实,并将它们组织成相互关联的层次结构。在事实之上,具有主题(topic)、方面(facet)两个层面。主题内的事实具有关联,方面之内的主题也有联系。该工作设定了评分规则来判定不同事实的重要性并据此决策选用的事实。然后根据事实之间的关系构建叙事序列。同时该工作也包含了由模版生成的内容来描述事实。最后,事实序列选用合适的视觉设计和过渡来合成一个视觉故事。

该工作通过使用案例和用户研究来评估方法的有效性。评估结果证明,我们的方法能够支持用户有效地生成合理的滚动叙事结果。

使用合成数据训练的图标检测模型进行信息图解析和总结 (Parsing and Summarizing Infographics with Synthetically Trained Icon Detection)

信息图借助视觉元素,传达了复杂和抽象的主题。然而创建信息图的过程困难且耗时,于是支持设计师快速设计信息图的工具越来越重要,本文关注于自动提取信息图中的独立的视觉元素(图标)。

该工作首先从信息图分享网站visual.ly收集了约6万3千个信息图的数据集,Visually63K。这些信息图可能包含类别、标签、标题、描述等元信息。论文作者们通过文本处理清洗出391个标签,并选取有代表性的约2万9千信息图数据集Visually29K。

训练图标检测模型需要有标注了图标位置的数据集,而手动标注的方式时间和人力开销大。又考虑到信息图本身的电脑生成的特性,作者们选择合成式的训练数据生成方法。具体地,他们以391个标签为关键词搜索和爬取了图标数据集,然后从信息图中采样600*600的区域,检测其中的背景位置和大小,并粘贴透明背景的图标,得到了训练的图片和位置信息。他们调整了Faster R-CNN模型,用于训练图标检测模型。在人工标注的测试集上,精确度达到38%,召回率为34%,各项指标显著优于自然图片上训练的物体检测等领域的模型。考虑到人理解的差异性,作者们还挑选了55张信息图,每张都由5位学生标注,计算人标注的一致性,作为标注结果的上限,发现论文的检测模型大约达到了上限的60%。作者们还训练了图标分类器,用于预测图标最符合的主题。

训练数据合成

结合信息图的文本检测和主题预测,该工作提出了可能的应用场景:多模态信息图总结和多模态信息图搜索。多模态总结首先提取信息图文本并预测标签,针对每个标签,选择关联最强的图标,组成文本和图标标签来总结信息图。在多模态搜索中,作者提取图标并预测语义,对于用户查询,结合文本和图标语义对信息图进行排序。

信息图多通道总结

总之,针对信息图理解,该工作提出了信息图数据集Visually29K,使用合成训练数据方式训练图标检测模型,并演示了图标检测的实际应用场景。

使用文本向量和降维可视化社会性网络服务的话题演变 (Visualization of Topic Transitions in SNSs Using Document Embedding and Dimensionality Reduction)

社会性网络服务(SNS)允许用户在任何时间、任何地点生成并共享信息,这使得分析其中的大量信息是有挑战的,但同时也是重要的机会。本文分析的目标是SNS上话题的演变。如2020年的新冠病毒疫情,人们在SNS上的反应是会随着疫情的演变而变化的。本文通过对文章进行embedding并投影的方法去展示话题的演变,同时提出了新的文本可视化方法SPWB,以及一个可视分析系统。

系统界面

在左边的投影视图中,作者将指定时间窗口内用户发表的内容(如推特中的推文)使用文章embedding的方法向量化,将这些向量用t-SNE投影到二维平面上,并用直线将这些节点按时间顺序连接起来,来展示话题的演变。在右边的关键词视图,作者指出,使用传统词云的方法无法展示词语之间语义的信息,且较难展示关键词的数量。本文提出了一个新颖的可视化方法SPWB(semantic preserving word bubbles)。类似于图的力导向布局算法,SPWB将每一个词用一个气泡表示,并在上面施加不同的力来生成气泡图,包括词语之间相似性的力、斥力以及向心力。这样气泡大小可以很容易地表示数量信息,而气泡的位置也可以很好地展示词语的语义信息。

最后,作者以日本本土的新冠病毒疫情为例,来验证这个系统在处理这类问题时地有效性。

参考文献

  1. Shijun Cai, Seok-Hee Hong, Jialiang Shen, Tongliang Liu. A Machine Learning Approach for Predicting Human Preference for Graph Layouts. In Proceedings of IEEE PacificVis, 1-5, 2021.
  2. Junhua Lu, Wei Chen, Hui Ye, Jie Wang, Honghui Mei, Yuhui Gu, Yingcai Wu, Xiaolong (Luke) Zhang, Kwan-Liu Ma. Automatic Generation of Unit Visualization-Based Scrollytelling for Impromptu Data Facts Delivery. In Proceedings of IEEE PacificVis, 16-25, 2021.
  3. Spandan Madan, Zoya Bylinskii, Carolina Nobre, Matthew Tancik, Adria Recasens, Kimberli Zhong, Sami Alsheikh, Aude Oliva, Fredo Durand, Hanspeter Pfister. Parsing and Summarizing Infographics with Synthetically Trained Icon Detection. In Proceedings of IEEE PacificVis, 26-35, 2021.
  4. Tiandong Xiao, Yosuke Onoue. Visualization of Topic Transitions in SNSs Using Document Embedding and Dimensionality Reduction. In Proceedings of IEEE PacificVis, 206-210, 2021.

评论关闭。