时间轴制造器:基于非结构化文本数据的可交互时间轴提取系统(TimeLineCurator: Interactive Authoring of Visual Timelines from Unstructured Text)

时间轴大家都很熟悉了,用来表示不同事件在不同时间上的分布,可以让人清晰地理解事件发展的时间脉络。但是传统的时间轴可视化往往需要结构化的数据,假如一个做数据新闻的记者需要做一个时间轴的可视化,他会需要很长的时间来从非结构化的文本中,逐字逐句地‘复制、粘帖并整理’各个事件,将其做成结构化的包括时间(时间点、时间段)、事件描述、摘要等这样的数据。整个过程十分耗时。

因此针对这个问题,来自加拿大UBC大学的研究者提出了TimeLineCurator,她们的系统能够自动地从非结构化文本中提取时间与事件的信息,直接生成时间轴。因为系统自动提取的可能有所偏差,系统允许用户对一些提取错误的时间与事件进行交互地修改操作,在生成的时间轴上修改更新。

屏幕快照 2015-09-21 上午12.19.38

 

图1:系统界面,包括时间轴视图、事件视图、文档视图以及控制视图

如上图所示,他们的系统清晰简单明了。你提供一篇包含有时间节点信息的文章,系统会自动解析生成一个时间轴。在时间轴视图上,有三种映射,一个是圆点,代表时间点;一个是一段两端带有箭头的线,还有一个是方形,代表不确定的时间片段。辅助时间视图的是三个视图,包括事件视图、原始文档视图以及控制视图。时间视图可以按照用户指定的排序方式,排列关键时间节点与具体事件。并且用户选择相应事件时,在原始文档中会高亮出来,这极大地简化且方便了用户的对照操作。用户可以在控制视图中改变时间、标题与内容,并且可以映射相应的事件以不同的颜色,来进行区分描述。用户更改过的节点在视觉上会有所不同,以提醒用户进行操作。


屏幕快照 2015-09-21 上午12.20.25

 

图2:用户使用的操作流程

 

系统的操作流程也十分简单明了,大家可以在他的项目主页上体验一番(http://www.cs.ubc.ca/labs/imager/tr/2015/TimeLineCurator/#pdf),用户首先可以选择想要分析的文章上传或粘帖至系统界面,系统会自动提取出文章的时间相关摘要文字,并在内部生成结构化的数据,并显示在初始的时间轴上。用户在界面上进行不断迭代的修改与更新,然后最后的结果即可导出让用户进行交互地使用。

屏幕快照 2015-09-21 上午12.20.03

 

图3:TimelineCurator抽象事件提取与时间轴生成过程,重点在于交互的Authoring过程

从理论上来看,这篇文章的工作利用可视化直观的方法与自然语言处理相结合,将原本十分繁杂的将非结构化数据转化成结构化数据的过程,转移到可视的界面上来,用户可以基于机器算法已经识别与切分的部分,进行进一步的修改,耗时与正确率都会得到改善。尤其该应用适合数据新闻的从业人员,对于时效性、表达性等具有要求的群体,并且他们的结果可以导出到现在流行的TimelineJS的框架中去。显示的结果十分直观、美观,并且可交互。

 

 

 

评论关闭。