大规模实时社交媒体数据分析(Real-Time Visual Analysis of High-Volume Social Media Posts)

社交媒体平台上每时每刻都在发布各个领域的相关新闻、报告等信息,这些信息对于领域专家来说,往往具有极高的研究价值。而然,社交媒体数据的巨大规模以及极高的更新率对于分析工具提出了巨大的挑战。已有的相关工具有相当大的局限性——大量的分析系统仅仅支持事后的分析,因此缺失了社交媒体数据的事实性;支持实时分析的数据往往又难以支持大规模数据的涌入。还有一些工具依赖于额外的元数据,例如地理空间数据。近年来,包含这类元数据的社交媒体数据的比例不断下降,导致类似的工具的实用性越来越低。

本工作在k-Means聚类算法的基础上,将其改进成为支持实时分析系统的高效可解释聚类算法,并设计了完整的可视分析系统用于解决大规模实时社交媒体数据分析的需求。

本工作的用户界面以及系统流水线

上图展示了本工作的用户界面和系统流水线。可以看到,社交媒体数据被预处理成为向量,并被投入到一个滑动窗口中。两个并行的不同粒度的聚类算法分别对于数据进行聚类,粗粒度的聚类得到话题(topic)而细粒度的聚类则得到子话题(subtopic)。对于每个子话题,可以提取出一个最接近聚类中心的代表性对象(representative item),而这个对象又唯一对应了一个话题,由此建立了话题、子话题以及代表对象的关系。

分析者可以先了解全部话题的概况(图中蓝色框部分),所有的话题来自于粗聚类的结果。在选取了某个话题之后,系统自动提取出高频的词组或单词,显示在图中橙色部分;同时与话题对应的代表性对象也被列在图中绿色部分。分析者可以进一步探索代表性对象所在的子话题,所有子话题中的数据被展示在最右侧的黑色框部分。由此,分析者可以逐步深入地去理解社交媒体上正在被讨论的话题。

如下图所示,系统的核心聚类算法是对于传统k临近算法的逐步迭代更新,并最终达到能够完成系统需求的水平。首先,通过将欧式距离替换为余弦距离,并采用k-Means++的初始化策略,基础的k临近算法变成了更适合文本聚类且具备初始化策略的球面k临近算法。随后,考虑到实时系统中聚类算法需要反复执行的特殊性,通过利用已有的聚类结果加速新一轮的聚类的思想使得聚类算法成为一个动态增补的版本。最后,在加入了随机采样的优化策略,仅仅在原数据集的子集上进行聚类,进一步提高了算法在大规模数据上的效率。

本文是一个很好的实时分析系统的案例,同时兼顾了高效的核心算法,细致的可视化技术以及对于使用者认知负担的考虑;同时,对于核心聚类算法的迭代过程同样值得借鉴,一步一步将简单的算法更新迭代成为能够满足特定系统需求的版本。

本系统尚未考虑如何将人的智慧加入到系统之中,使得用户可以对于聚类结果进行交互的修改,修改或提高聚类的质量。这是此类工作接下来的研究方向之一。

参考文献:

[1] Knittel J, Koch S, Tang T, et al. Real-Time Visual Analysis of High-Volume Social Media Posts[J]. IEEE Transactions on Visualization and Computer Graphics, 2021.

评论关闭。