基于SentenTree社交媒体文本内容可视化(Visualizing Social Media Content with SentenTree)

屏幕快照 2016-08-19 下午10.58.44屏幕快照 2016-08-19 下午10.59.06
社交媒体的流行使得社交媒体文本这一新的文本类型出现了爆炸式的增长。社交媒体文本相对于传统的文本具有显著的特点,它们所包含的文本内容很短并且文本信息存在大量的重复,同时其中也蕴含着非常宝贵的信息。如何充分利用社交媒体中的文本信息,帮助用户建立对于社交网络文本内容的快速理解是一件非常具有挑战的事情。本文试图在单个词语与整个句子之间寻找平衡,在此基础之上提出一种新的社交媒体文本的可视化的方式sentenTree,这一可视化方式能够给用户提供全局的概览,同时利用交互的方式帮助用户从全局到细节进行分析。

存在一些对于社交媒体文本进行可视化的方式,但是它们所具有的特点各不相同,word cloud主要是忽略句子结构,将文本拆分为单个单词进行可视化;text structure可视化的目的是在word cloud的基础上保持原始文本的上下文以及句子结构信息,但是它们需要用户选择一个单词,才能够继续展示出该单词的句子结构信息。

wordle

word tree

通过对于相关工作的分析,我们可以发现,如果用户的目的是快速得到关于社交媒体文本内容的概览信息,目前的工作很难帮助用户获取这些信息,因此本文提出可视化形式sentenTree来帮助用户达到这一目的是非常有意义的。

sentenTree的设计目标主要有以下四个方面:

  1. 充分利用word cloud的优点,通过字体大小帮助用户建立第一印象
  2. 在可视化中显示句子结构信息
  3. 尽量保证可视化的内容精简同时覆盖尽量大的数据集
  4. 给用户提供文本数据集全局概览

建立sentenTree分为以下六个过程

  •  收集原始的社交媒体文本数据
  • 对于文本数据进行初始化获取初始化文本集合
  •  选择一个文本作为初始模式
  • 运行Pattern Generation算法获取模式列表

屏幕快照 2016-08-20 下午10.54.07

上图即为树的构建过程,上图中树的叶子节点即为获取的模式列表

  • 将第4步获取的模式列表分割成单个单词
  • 对于获取的单个单词进行布局以及链接获取sentenTree

在对于分割的单词进行布局主要采用的是改进的force-directed layout 算法,并且在算法中增加三方面的约束,分别为

  • 单词顺序约束

如果两个单词出现在同一个模式中,那么单词的布局顺序需要按照单词在原始的的模式中的先后顺序。

  • 垂直方向约束

如果两个单词总是出现在同一个双字母组中,那么这两个单词的布局需要出现在垂直方向保持相同。

  • 水平方向约束

如果两个模式会共享同一个子模式,并且单词之间的距离是相同的,那么单词的水平方向上的坐标保持相同。

屏幕快照 2016-08-20 下午11.09.26

屏幕快照 2016-08-20 下午11.09.20

以2014年世界杯的twitter数据为例,利用sentenTree可视化形式进行分析。分析的原始数据是在2014年世界杯第一场比赛在每个进球期间获取的15分钟范围的twitter数据。

第一个进球的sentenTree可视化结果如下所示

屏幕快照 2016-08-19 下午10.58.44

以2014年世界杯的twitter数据为例,利用sentenTree可视化形式进行分析。分析的原始数据是在2014年世界杯第一场比赛在每个进球期间获取的15分钟范围的twitter数据。

第二个进球的sentenTree可视化结果如下所示

屏幕快照 2016-08-19 下午10.59.06

第二个进球的可视化结果中最明显的单词主要有brazil, neymar, score,1-1我们可以得到信息,巴西球员内马尔攻进一球将比分改写为1-1

第三个进球的可视化结果如下图所示

屏幕快照 2016-08-19 下午10.59.17

用户通过上图的可视化结果可以获取信息,brazil, neymar, score, penalty, 1-2我们可以得到信息巴西球员内马尔通过点球将分数改写为1-2.

总体来说,这篇文章对于社交媒体文本数据提出了一种新的可视化形式,来帮助用户对于社交媒体文本数据的文本集合获取迅速的概览,该可视化寻找在单个单词与整个句子之间的平衡,并且提出一种新的算法保持句子大致结构的前提下获取社交媒体文本中经常出现的文本模式。但是这种可视化形式同时也存在一些问题,用户如果不采用交互的方式容易产生对于文本模式的误解;同时SentenTree的可视化方式相比word cloud会造成空间的浪费。

 [1]Mengdie Hu, Krist Wongsuphasawat, and John Stasko. Visualizing Social Media Content with SentenTree. IEEE Transactions on Visualization and Computer Graphics, 2016.

评论关闭。