流式文本的在线可视分析(Online Visual Analytics of Text Streams)

现如今的互联网上有大量的流式文档,一个很普遍的问题就是如何检测和跟踪这种文本流中的新兴事件。目前在挖掘和可视化文本流方面已经取得了很大的进步。然而,大多数现有的方法都是离线方法。离线的方法是基于所有文档来计算结果的。每次当新文件流入时,这些方法都会先将新文档与旧文档合并,然后重新计算模型。目前使用的这些离线方法存在两个主要的问题:
1. 重新计算模型时间消耗太大;
2. 由于模型被重新计算,结果在一定程度上发生了变化,这对用户来说可能是难以理解的。
这篇文章[1]提出了一种在线的可视化分析方法,帮助用户探索和了解大量流式文档中的层次主题演化。

系统运行过程

System

TopicStream系统运行过程

给定一定的文本流,在线文本流分析系统首先通过使用演变树建模模块提取一系列相关的多分支主题树;随后,用户选择一些关注节点;然后该系统通过使用流树切割算法计算每个主题树的树切割,其中树切割描述了用户感兴趣的主题层;最后通过使用流式可视化方法来显示该树切割。
该可视化分析系统由四个区域组成:归档,堆栈,河流和文本流。在可视化过程中,每个主题树由树切割表示,每个切割节点由垂直条编码。 它将条带上的文档打包以帮助用户了解和比较他们的关系。 其中圆圈表示新闻文章,矩形表示Tweets。

系统构成模块

1. 演变树建模模块

System

Topic Tree构建过程

作者直接使用他们以前在KDD中发布的方法[2]。给出文本流,该方法以在线方式生成具有良好的平滑度和适合度的连续多分支主题树序列。

2. 流树切割算法

System

Tree Cut联合概率

开发流树切割算法是存在一定的问题:

  • 在构建过程中需要同时优化树的平滑度和适应性。其中,平滑度表示如果数据没有显著变化,它可以确保每个树切割类似于相邻的树切割。适合度意味着每个数切割应该很好地代表树,并充分代表用户感兴趣的节点。
  • 它需要是一种在线的算法。

为了解决这些问题,他们采用了动态贝叶斯网络模型。在这个模型中,新的树切割与时间上相邻的树切割以及当前主题树相关。给定这个模型,它们可以通过最大化联合概率来推导树。

3. “沉降”隐喻
“沉降”隐喻的目标是说明新文档在现有主题中的积累和汇总。其中沉降”由一下四步骤组成:

  • entrance:具有相似内容的文档相互聚集。
  • suspension:在此过程中,文档集的运行速度受两个方面影响:通常而言的重力以及相似文档之间的吸引力。
  • accumulation\delay:一旦他们碰到相应的主题栏或已经稳定地其他标记,文档将停止移动并开始衰减。
  • aggradation:彩色条纹继续增长,并指出了最新的主题发展。

四步“沉降”过程可帮助用户立即跟踪和了解新注入地主题,并探索这些主题与现有主题之间的联系。

4. 打包算法
该算法的目标是将条带上的文档打包,来帮助用户了解和比较他们的关系。为了有效地“打包”文档,它需要考虑输入顺序和相似关系。
该算法的实现是两个过程:
(1) 使用传入顺序和相似性来导出每个文档的近似坐标x_i。
(2) 根据文档的近似坐标x_i执行圆/矩形“打包”算法。
算法过程如下:

System

Packing 算法过程

案例分析

本文有两个实验案例。第一个案例是关于埃博拉病毒的。该数据集包含有关埃博拉的新闻和tweets。他们首先向专家提供关于埃博拉数据的概述,TopicStream立即确定了文本流中的主要主题:非洲的埃博拉病毒爆发,埃博拉病毒感染的援助工作者,埃博拉病人和非洲以外的疑似病例。9月28日以后,非洲以外的埃博拉讨论爆炸。教授注意到这次爆炸最初是在一个新闻集合开始的,然后是几个Twitter集群。这个新闻集合主要关于美国第一例埃博拉病毒。第一次确诊病例导致了相当大数量的推文。实验最终,教授注意到美国流行病的严重程度被高估了。她解释说,这是因为一个人对世界的看法往往受到媒体伪造社会的影响。这就是为什么政府采取行动引导舆论是很重要的。由此说明了TopicStream帮助专家检查了疫情严重程度与舆论强度之间的关系。

结论

  • 提出了一种流树切割算法,用于根据用户兴趣提取传入文档的最佳树切割。
  • 将一个改进的“沉降”隐喻整合到”河流”隐喻中,以可视化地方式说明了新文档如何聚合到主题流中。
  • 构建了一个可视化分析系统来帮助用户分析大量文本流中的层次主题演变。

未来的工作

  • 他们计划利用用户的领域知识来改善主题树。
  • 启用树的探索功能,并允许用户明确地探索主题层次结构。

Reference:

[1] Liu S, Yin J, Wang X, et al. Online visual analytics of text streams[J]. IEEE transactions on visualization and computer graphics, 2016, 22(11): 2451-2466.
[2] Wang X, Liu S, Song Y, et al. Mining evolutionary multi-branch trees from text streams[C]//Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2013: 722-730.
[3] Huron S, Vuillemot R, Fekete J D. Visual sedimentation[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2446-2455.

评论关闭。