CrystalBall: 对于社交媒体数据进行未来事件识别和分析的可视分析系统 (CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data)

社交媒体数据可以为世界各地发生的事件提供宝贵的见解,且事件本质上是时间和空间的。现有的文本可视分析系统专注于探测和分析过去和正在进行的事件,很少有人利用社交媒体信息来寻找未来可能发生的事件。在本文中,我们提出了一个交互式可视化分析系统CrystalBall,它可以自动识别和排列来自Twitter的未来事件。 CrystalBall集成了新的方法,通过交互式可视化发现事件,从而可以识别未来事件。该方法利用有关的时间,地点,社交网络和消息,整合了七种不同的方法来识别和表征未来事件。同时,可视化界面与计算方法紧密结合以提供未来可能事件的简明摘要。

针对一个特定的事件,如果我们关注的是过去或者正在进行的事件,则这些事件通常被定义为主题和时间,同时伴有人物和位置属性;当我们关注的是将来的事件时,由于数据集的限制,因此这些事件通常被定义为位置和时间,同时伴有主题和社会网络的信息。

这篇文章[1]主要关注与对于将来事件的探索,其工作的pipeline如下:

图1. Pipeline of Crystalball

前两个部分分别是Twitter文章的获取和数据预处理,使用的都是常用的自然语言处理的方法进行实体提取。

对于第三部分,也就是未来事件的识别和排序,他们设计了7个指标,具体的信息如下:

图2. 7个维度的衡量方式

1. NPMI 识别未来事件。这里考虑了未来事件中的两个重要的属性:事件和地点,因此计算两者的概率分布,计算方法如下:2. 对于事件信息程度的划分,考虑了四个维度的衡量方式,包含链接的比率、包含标签的比率、用户的置信度、用户的多样性。我们认为,如果一个tweet的包含了链接或者标签,这篇tweet是更可信的。对于用户的置信度,使用粉丝/好友的比率来衡量,如果比率越大说明更多非好友的粉丝关注,也有具有更高的置信度。

3.对于事件的内聚性,设计了两个方面的衡量方式,用户中心度和tweet的相似性,前者根据用户间的转发和@关系来衡量。

4.对于对事件的排序部分,设计了一个RanSVM的模型,使用监督学习的方式,训练集来自事先从Tweet提取的数据。其中输入为这7个衡量指标的值,输出就是对事件的排序等级,具体的等级划分如下:

图3. 事件的等级划分

对于第四个部分,也就是可视分析系统,主要设计了4个视图来分别表示事件的WHEN, WHERE, WHAT, WHO,分别对应于下面视图中的A,B,C,D。

图4. Crystal的整体视图

1.视图A中的每个点表示一个事件,点的颜色表示用户对这个事件的情感。其中实线表示两个事件拥有相同的地点,点线表示两个事件有相同的关键词。用户选择一个事件可以分析各个具体的衡量指标的值。

图5. 事件的衡量属性值

2.视图B中的圆环的颜色表示各个事件发生的时间距今的远近。

3.视图C用WordCloud来展示事件之间的关键词。

4.视图D用显示了用户之间的联系,连线表示转发和@关系。

综上所示,这篇文章设计了一个可视分析系统,同时设计了7个维度的信息用于对未来事件的识别、排序、描述以及可视化的表示,帮助用户及时的发现不就后会发生的事件,提前做好准备。

引用:

[1] Isaac Cho, Ryan Wesslen et al. “CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data ” IEEE Transactions on Visualization and Computer Graphics (2017).

评论关闭。