灵活文档:通过上下文可视化链接文本和表格数据来帮助文档阅读

数据丰富的文档本身就是复杂的数据集,它们由不同格式的信息组成,如文本,图形和数据表。这些额外的信息形式更有利于我们对文档中的文本叙述的理解。但是,传统的打印文档的静态布局通常会妨碍对其内容的深入理解,因为这些信息往往分散各个部分。在本文中[1],我们寻求通过将文本内容与文档中包含的数据表格相结合的上下文可视化技术来促进对这些文档的更好理解。我们解析文本内容和数据表格,使用基于关键字的匹配算法来链接这两部分,并根据读者在文档中的当前关注点来生成可视化。

首先,针对多样化的信息形式,他们选取的是文档中的文本和表格,而这些表格往往很长,使用传统的打印方法会导致这两个部分分散,从而不利于用户的阅读。针对这个问题,他们考虑了这项工作的设计需求:

  • 通过可视化来帮助并增强文本阅读。
  • 简化长的表格结构,例如一些稀疏的表格。
  • 将相关的文本描述和表格数据链接起来。
  • 通过交互来适应用户的兴趣点。

因此,为了实现上述的需求,他们设计的方法主要分为三步:

1. 解析文档中的表格

根据Chen[2]的工作,他们将表格中的关系定义为6中,Stylistic similarity, Adjacent dependency, Layout design, Overview/detail, Semantic similarity 和 Metadata。根据这六种关系去解析一个完整的表格。

图1 表格中的六种关系

下面是一个表格中存在的相应关系的举例,如图2所示:

图2 表格中的不同关系

2. 生成可视化

根据上面的不同的关系,他们首先根据算法1(如图3所示)来找到表格中存在的“子树”的结构。他们定义了生成可视化的数据来源为“组合”:一行&多列,多行&一列。然后根据算法1得到的这些“子树”,使用算法2(如图4所示)找到所有的符合条件的“组合”作为可视化后面的数据。图5是根据算法得到的两个数据案例。对于属性值中存在时间属性的数据,他们使用线图来展示,其他的使用条形图来展示。

图3 算法1-找到表格中的“子树”结构

图4 算法2-找到表格中所有的“组合”

图5 数据提取案例

3. 将文本描述和表格数据连接起来

在这一部分,首先对文档中的每一句话提取关键词,然后将提取的关键词与表格中的属性,数据相匹配,得到一个相似度。根据这个相似度对所有的可视化进行排序,从而达到适应用户关注点的需求。

下面是整个系统的界面,包含文本视图,表格视图,以及可视化视图三部分。用户可以在文本视图中选取感兴趣的文档描述,也可以在可视化视图中筛选刚兴趣的数据属性。

图 6 系统界面

 

另外,我们还通过User Study来评估此技术,将这个方法与传统阅读体验进行比较。我们的研究结果(如图7所示)表明:

(1)参与者通过更紧密的文本和数据耦合可以更好地理解内容。

(2)上下文可视化使参与者能够开发更好地总结,捕获内容中的主要数据。

(3)总体而言,我们的方法使参与者能够更加详细地了解文档内容。

图7 User Study结果

 

总的来说,这篇文章从文档中提取表格和文本,并解析表格以生成可视化。 这些包含结构化数据的可视化与用户在文本中的关注点相匹配,来呈现相关的数据从而适应用户的兴趣。

引用:

[1]Badam, Sriram Karthik, Zhicheng Liu, and Niklas Elmqvist. “Elastic Documents: Coupling Text and Tables through Contextual Visualizations for Enhanced Document Reading.” IEEE transactions on visualization and computer graphics (2018).

[2]  Z. Chen and M. Cafarella. Integrating spreadsheet data via accurate and low-effort extraction. In Proceedings of the ACM Conference on Knowledge Discovery and Data Mining, pp. 1126–1135. ACM, New York, NY, USA, 2014. doi: 10.1145/2623330.2623617

评论关闭。