在带有地理标签的社交媒体数据中检测特定区域的专有事件是一项重要任务。然而在大量的文本数据中有效的提取出某特定时间和区域的事件是异常复杂的。为了应对这项挑战,该工作提出了TopicOnTiles[1],通过使用社交媒体数据提取主题信息,在多层次的基于瓦片的地图界面中显示专有事件相关信息的可视化分析系统。TopicOnTiles采用并改进了最近提出的可以提取与特定区域和时间点相对应的时空专用主题的主题建模方法STExNMF[2]。此外,作者利用基于瓦片的地图界面来并行处理大规模数据,并设计词云,glyph和热点图等来帮助用户提取并分析事件的时空特征。

图1 工作流程
TopicOnTiles的整体架构如图1所示,由三部分组成:数据预处理,主题建模和交互可视化界面。首先对原始数据做预处理,在数据预处理步骤中,收集每个推文的地理标签,时间戳和原始文本。 原始文本删除停用词和向量化处理。接下来,把整个词袋向量集根据不同日期和地理位置分放到不同的地图瓦片中。然后预先计算所有的话题的专有主题建模结果,可以确保实时的交互式可视化分析。

图2 STExNMF专有主题建模
通过STExNMF进行专有主题建模的过程如图2所示。(A)对于每个瓦片作为中心图块,STExNMF首先使用标准主题建模技术计算其邻居的主题(B)邻居包括时间和空间上的相邻。(C)STExNMF使用邻居的主题迭代删除中心主题中的可解释部分来计算专有主题。

图3 用户界面
用户界面如图3所示。(A)地图被分为多个瓦片,在每个地理区块中,基于专属主题建模计算的话题关键字被可视化,字体大小指示与该图块对应的词频。(C)瓦片矩形边界的厚度代表专有主题的分数,引导用户可以容易地查明这样的区域。(F)热点图表示包含所选关键字的每个文档的位置。 (G)用户可以进一步浏览原始tweet内容。 (H)用户可以选择不同的主题建模方法进行比较,并更改日期。

图4 glyph设计
针对瓦片和关键词,作者设计了两种不同的glyph如图4所示。针对不同的瓦片设计的glyph位于瓦片左上角,内圈的半径大小表示瓦片中总共推特数量。不同颜色表示不同主题对应的比例。外径映射的是专有主题分数,分数的对应专有主题的比例。针对关键词的glyph分为甜甜圈形状的和数值的网格。

图5 使用案例
一个挖掘纽约马拉松比赛的使用案例图5所示。首先用户根据瓦片边框的厚度找到包含专有主题的区域。然后放大地图查看细节,此时发现不同的几个区域有Start,marathon,finish等关键词。用户点击marathon关键词之后可以看到包含marathon关键词的推特的时空分布特征。地理上有明显的条带状分布,时间上start关键词的瓦片区域发生在上午,而marathon和finish区域发生在下午和晚上。通过查看原始的推特数据可以推断出这里有马拉松比赛举行。
参考文件:
[1]Minsuk Choi, Sungbok Shin, Jinho Choi, Scott Langevin, Christopher Bethune, Philippe Horne, Nathan Kronenfeld, Ramakrishnan Kannan, Barry Drake, Haesun Park, and Jaegul Choo. 2018. TopicOnTiles: Tile-Based Spatio-Temporal Event Analytics via Exclusive Topic Modeling on Social Media. In Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems (CHI ’18). ACM, New York, NY, USA, Paper 583, 11 pages.
[2] S. Shin, M. Choi, J. Choi, S. Langevin, C. Bethune, P. Horne, N. Kronenfeld, R. Kannan, B. Drake, H. Park, and J. Choo. Stexnmf: Spatio-temporally exclusive topic discovery for anomalous event detection. In Proceedings of the IEEE International Conference on Data Mining (ICDM), pages 435–444, 2017.
评论关闭。