可视化是一个依赖于图像和视频来展示和解释研究工作的学科。在可视化论文中,图像是必要的部分,能够帮助我们理解复杂的科学概念。而浏览一个领域的图像可以很好地揭示时间趋势和常见的实践,且可以对子学科进行比较。该工作是俄亥俄州立大学交互视觉计算实验室和斯图尔特大学可视化研究所等的合作研究,从可视化领域的顶级会议IEEE国际可视化大会 (IEEE VIS)收集了近三十年的接近三万张图表,并开发了一个图片浏览工具。
该工作[1]主要关注的是可视化顶级会议论文中的图表和表格。图表包括可视化、技术和用户界面的截图、照片、图像以及图解。算法、伪代码和等式被排除在图表之外,因为它们可以被视为是文本信息。表格可以作为一种结构化的可视化形式,存在着一些有趣的研究问题,比如分析表格的使用频率和占用的空间,同时表格内的信息可以帮助寻找相关工作。在1990年至2019年间,国际可视化大会(IEEE VIS)一共有2916篇长文,包含29689张图表,其中26776张是图表,2913张是表格。下图展示的是图表的时间分布。

从论文中提取图表数据是一件具有挑战性的事情。论文大部分都是PDF格式,且能够使用PDFFigure2.0解析。但是早期的论文是影印版等格式,不能够被解析。为了从论文中抽取出图表数据,作者合成了论文数据集,并采用基于卷积神经网络的目标检测模型进行训练和预测。
首先是数据准备,也就是论文数据集合成。合成论文数据集的核心思想是将论文的不同部分拷贝到一张空白图上。这一做法是基于论文的结构对于图表的抽取比内容更重要的假设。论文的部分可以分为头、标题、摘要、图表、图表描述等部分。合成论文需要的原始材料包括图像和文本两部分。图像使用的是MASSVIS[2] 和科学可视化记忆实验数据[3],而文本数据使用SCIgen[4] 生成的连贯文本。在固定论文各部分的位置的大小后,将图像和文本插入到相应的位置,即可合成论文。最终一共得到13000页论文,其中10000页用于训练,另3000页用于验证。每一页论文会转成1075×1400大小的图片,同时包含图表的标签和边界框。

其次是模型训练和预测。模型使用的是计算机视觉领域在目标检测方向的Faster R-CNN和YOLOv3网络结构。两者的结合可以视为是一种模型加强(Boosting)的方法。在两个模型分别输出图表的标签和边界框后,使用启发式的规则将它们的结果合并起来。最后是人工检查和修正。作者为此开发了一个简单的标注界面,支持对边界框的移除、添加、移动和改变大小。
为了验证方法的有效性,作者使用人工修正后的数据作为标准结果,对模型预测的结果从检测图表的能力和预测边界框的能力两方面进行测试。结果显示,检测图表的正确率为0.94,召回率为0.84,而F1分数是0.89。边界框预测使用的度量是IOU,结果是0.8。IOU是目标检测领域常用的度量之一。从上述结果来看,该方法能够极大地减少人工标注的工作,具有一定效果。
基于论文的图表数据集,作者构建了一个浏览和探索图片集的工具(见下图)。该工具支持简单的关键词查询、作者、年份、会议分支等的筛选。同时还支持在三个视图之间切换,分别是以图片为中心的砖墙视图(brick wall view)、展示时间趋势的时间线视图以及以论文为中心的视图。

该工作收集的图表数据集和浏览工具有诸多方面的使用场景。一是支持相关工作的搜索。除了基于文本搜索论文元数据,该工具提供一种更加聚焦的视觉搜索方式浏览相关工作。二是对于教学和交流有帮助。通过该工具,可以很快地找到目标的图片。三是数据集可以用于理解可视化领域的发展。四是基于数据集,可以构建一系列的应用。
参考文献:
[1] Jian Chen, Meng Ling, Rui Li, Petra Isenberg, Tobias Isenberg, Michael Sedlmair, Torsten Möller, Robert S. Laramee, Han-Wei Shen, Katharina Wünsche, and Qiru Wang. VIS30K: A Collection of Figures and Tables From IEEE Visualization Conference Publications. IEEE Transactions on Visualization and Computer Graphics, 27(9): 3826-3833, 2021.
[2] Michelle A. Borkin, Azalea A. Vo, Zoya Bylinskii, Phillip Isola, Shashank Sunkavalli, Aude Oliva, and Hanspeter Pfister. What Makes a Visualization Memorable. IEEE Transactions on Visualization and Computer Graphics, 19(12): 2306-2315, 2013.
[3] Rui Li, Jian Chen. Toward A Deep Understanding of What Makes a Scientific Visualization Memorable. In Proceedings of IEEE Scientific Visualization Conference, pp. 26-31, 2018.
[4] Jeremy Stribling, Max Krohn, and Dan Aguayo. SCIgen – An Automatic CS Paper Generator. https://pdos.csail.mit.edu/archive/scigen/, 2005.
评论关闭。