面向自动化的信息图设计:基于深度学习的可扩展时间线自动生成(Towards Automated Infographic Design: Deep Learning-based Auto-Extraction of Extensible Timeline)

在创建信息图(Infographic)时,不仅要考虑视觉元素有效性,还要考虑设计美学、趣味性,对普通用户来说门槛较高。为了方便用户进行信息图设计,目前已经出现一些自动化的设计工具,但仍存在两个方面的问题:第一,模板风格单一,用户只能将数据导入模板,缺乏设计的多样性,如Microsoft PowerPoint和Adobe Illustrator等,用户定制性较差;第二,用户常常在网上搜索自己喜爱的信息图,以寻找设计灵感,但这些图片一般是位图(Bitmap)格式,用户如果想借鉴该图片的风格,还需要重新手动绘制,过程十分麻烦和枯燥。因此,从位图中自动提取可以编辑的模板用于新数据的创作,是有实际需求和价值的。

本文将重点放在时间线信息图上,这种可视化形式多以位图格式出现,已经被广泛应用了几个世纪,其设计空间已被大量研究,具有如下特点:第一,时间线数据隐含的信息较少,通常是时间间隔数据,比如事件序列,而不是连续的时间序列,因为故事的叙述者已经从原始数据中提取出叙事点;第二,时间线信息图的设计类型有限:一个时间线由三个维度组成(表示、比例和布局),其中只有20种类型(Type)的搭配是有效的 [1] 。

图1 时间线描述的三个维度

本文采用的数据集包括两个部分,D1是时间线设计工具TimelineStoryteller (TS)创建的数据集,涵盖所有类型的时间线,但风格比较单一;D2是现实中收集的时间线,如Google Image, Pinterest , FreePicker等,风格多样,涵盖了大部分类型的时间线。经过收集、筛选、标记,处理后的数据集中一共包含10种类型(Type)的时间线,时间线中的元素包括6种。其中,可以重复使用的元素有:时间线主体(Main Body)、事件符号(Event Mark)、注释符号(Annotation Mark);需要根据用户数据更新的元素有:事件文字(Event Text)、注释图标(Annotation Icon)、注释文字(Annotation Text)。

图2 时间线中的元素

本文有两个主要的挑战:第一,如何让计算机自动理解时间线中的信息,因为信息图的内容可能是非结构的或流形的(manifold),元素会分布在任意位置,具有不同的样式(形状、大小、颜色等),计算机只能逐像素读取的位图,输出结构化信息,很难自动地进行解释;第二,如何基于理解的信息将图片转化为可编辑模板,仅仅理解时间线的结构化信息(如类型、方向、元素位置等) ,还不足以生成可编辑的模板,并且当前提取的信息也有可能不正确,还需要知道一些局部的细节信息,比如元素的位置、颜色、字体、形状等。

为了解决上述挑战,本文分别提出了解构和重构的方法。其中,解构是针对第一个挑战,利用多任务的深度神经网络来理解时间线的全局信息和局部信息,全局信息包括时间线的类型(Type)和方向(Orientation),局部信息包含元素位置、种类,以及时间线上每个视觉元素的像素;重构是针对第二个挑战,采用三项技术组合的流水线(Pipeline),从时间线信息图中提取可编辑模板,即非最大合并(NNM)、冗余恢复(RR)和基于深度学习的迭代图割算法(DL GrabCut)。整体的流程如下图所示:

图3 整体模型的流水线

在解构时,由于时间线的全局信息只涉及有限的离散分类,可以通过基于CNN的分类器来识别。作者采用目前CV任务中的领先技术ResNeXt [2],从输入的图片中提取特征信息,将输出的特征连接到两个全连接网络,对时间线的类型和方向进行分类,最终输出时间线的全局信息。

图4 结构全局信息的流水线

在解构局部信息时,作者充分利用提取全局信息的特征,即使用Mask R-CNN的架构[3]对接前面步骤中ResNeXt的输出,架构图如下:

图5 模型的结构框架图

其中,FPN(Feature Pyramid Network)扩展的ResNeXt- FPN,在多个尺度上生成强语义的特征映射(Feature map),使得模型尺度不变,且能够处理分辨率相差很大的图像;Class head,即为上述基于特征图像预测时间轴的类型和方向的全连接网络;RPN(Region Proposal Network)是一种全连接网络,用来定位时间轴中的元素,同时预测时间线元素的位置框(Bounding box) 和判断对象的分数(Objectness scores);RoIs(Regions of interest)是从特征映射中提取的感兴趣区域,经过RoIAlign Layer,每个RoI会被规范化(Normalize)为固定尺寸;Box Head也是两个全连接层,用来对局部元素进行分类和位置框的回归;Mask Head是用全连接网络来预测位置框中对象的像素,生成像素掩膜(Mask)。

在经过解构后,仍然有一些问题需要解决,才能自动生成可编辑的模板,作者采用了多种技术:

1、使用NNM(Non-Maximum Merging)技术消除识别重复的位置框[4]。

图6 消除重复位置框

2、使用冗余恢复RR(Redundancy Recovery),根据时间线自身的重复性,采用投票机制,鉴别是否有遗漏或错误识别的元素。

3、通过交互式分割算法GrabCut技术,进一步细化提取结果,分割出更高质量的元素[5]。

图7 DL GrabCut 提升结果

4、使用Font Identifier识别事件文字和注释文字的字体样式,使用OCR引擎(Tesseract)识别文字内容,根据像素计算得到颜色和大小。

5、根据用户绑定的数据,更新或重用元素自动设计时间线,其中注释图标可以直接替换为新的图标。

识别提取的时间线可以写成JSON形式,如下图所示,蓝色为全局信息,绿色为局部信息,位置框(Bbox)是(top;left;width;height)的元组,预测像素(Mask)是一个形状宽×高的字节数组[6]。

图8 结构化描述文档

参考文献

[1] M. Brehmer, B. Lee, B. Bach, N. H. Riche, and T. Munzner. Timelines Revisited: A Design Space and Considerations for Expressive Storytelling. IEEE TVCG, 23(9):2151–2164, 2017.

[2] S. Xie, R. Girshick, P. Dollar, Z. Tu, and K. He. Aggregated Residual Transformations for Deep Neural Networks. In Proc. CVPR, pages 5987–5995. IEEE, 2017.

[3] Kaiming, He and Georgia, Gkioxari and Piotr, Dollar and Ross, Girshick. Mask R-CNN. In Proc. ICCV, pages 2980–2988. IEEE, 2017.

[4] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. In Proc. CVPR, pages 580–587. IEEE, 2014.

[5] C. Rother, V. Kolmogorov, and A. Blake. ”GrabCut”: Interactive Foreground Extraction Using Iterated Graph Cuts. ACM TOG, 23(3):309–314, 2004.

[6] Z. Chen, Y. Wang, Q. Wang, Y. Wang and H. Qu, “Towards Automated Infographic Design: Deep Learning-based Auto-Extraction of Extensible Timeline,” in IEEE Transactions on Visualization and Computer Graphics, vol. 26, no. 1, pp. 917-926, Jan. 2020.

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>