考虑不确定性的微博信息检索方法 (An Uncertainty-Aware Approach for Exploratory Microblog Retrieval)

微博在当代的网络生活中非常盛行,人们在上面议论着各种话题并发表他们的意见,其中蕴含的信息对社会学、媒体学等许多学科而言都是巨大的宝库。如何有效地发掘微博里的信息成为了一个重要的课题。而在以往的工作[2]中,信息检索都是以单条微博(post)为主体,其他因素如博主(user)和话题标签(hashtag)等都被看作过滤条件,来对微博进行筛选。但事实上,博主的受欢迎程度、话题热度等都会影响一条微博的重要性。只考虑微博相关性的检索往往无法满足用户的需求。另外,微博信息纷繁复杂,通过过滤器来改善检索结果往往十分低效。本文[1]提出了一种考虑不确定性的微博信息检索方法。该方法能结合多种因素改善检索结果,并通过不确定性的呈现,让用户能够在交互中有效地提高信息的质量。

图1. 不同因素之间的相互作用

图1. 不同因素之间的相互作用

本文考虑的检索因素主要有三种,即微博内容(post),博主(user),以及标签(hashtag)。在每种因素里,根据个体相关性会形成一个独立的图(如图1),而不同的图之间也有联系,譬如一位博主和他所发的所有微博都相关。在检索结果里,根据重要性对不同因素的每个个体都会有评分。而多因素结合的检索,就是不同因素的评分之间相互作用的结果。为了量化这些相互作用,本文采用了一种基于不确定性的相互强化图模型[3] (uncertainty-based mutual reinforcement graph model),简称MRG模型:

-1

其中R是所有个体的评分向量,而M就是衡量不同个体之间相互影响的转移矩阵。W代表了先验评分,较重要的个体(如热门的话题标签、备受关注的博主等)都会得到较高的先验分数,d则是权重参数。简而言之,MRG模型结合了因素间的相互影响以及先验知识来改善检索结果。

MRG模型的计算量较大,直接求解显然不可行。本文采用了蒙特卡洛采样法(Monte Carlo sampling method)来逐步逼近真实的评分,而计算值与真实值之间的偏差,就是不确定性的来源。根据转移矩阵M,一个个体的不确定性会转移到与其相关的其它个体中,从而形成不确定性的传播。用户可以浏览并修正不确定性较大的评分,而其它相关的评分都会根据MRG模型自动更新,从而达到动态改善检索质量的目的。

图2. MutualRanker的用户界面

图2. MutualRanker的用户界面

MutualRanker就是根据以上算法实现的一个微博信息可视分析工具,图2所示为其用户界面。其中(a)是用户或标签的相关性图,(b)为参数调节,(c)列出了检索的所有微博内容,并按照重要性评分进行排列。

图6.MutualRanker的可视化设计

图6.MutualRanker的可视化设计

在数据架构方面,作者们根据相关性对用户或标签进行了层次化的聚类。每个聚类在图中占据一块voronoi区域(如图3(a)),并显示其代表性的节点,其余节点则用密度图来表现。每个聚类里的不确定性分布由一个半圆形符号来表示(如图3(b)),点击某个聚类则会以流图(flow map)的形式显示其不确定性传播的路径(如图3(c))。对于不确定性较高的节点,用户可以手动调节其重要性评分,其它相关的评分也相应更新。通过观察传播路径以及评分的改变,用户可以发现节点之间隐含的相关关系,从而进一步发掘更多感兴趣的检索信息。

为了检验方法的有效性,作者们邀请了社会学与媒体学的两位领域专家对MutualRanker进行试用与评价。两位专家都一致认可了MutualRanker对发掘微博信息的有效性,并肯定了多因素结合与不确定性传播的作用。他们认为这两点特征能够很好地减轻用户的交互负担,并扩散相关信息的范围,帮助用户发掘意料之外的数据。最后,专家们表达了对方法拓展的建议,包括对一般用户的普及以及实时信息的处理等等。

 

[1] Mengchen Liu, Shixia Liu, Xizhou Zhu, Qinying Liao, Furu Wei, Shimei Pan. An Uncertainty-Aware Approach for Exploratory Microblog Retrieval. IEEE Transactions on Visualization and Computer Graphics, 2015.

[2] H. Bosch, D. Thom, F. Heimerl, E. P¨uttmann, S. Koch, R. Kr¨uger, M.W¨orner, and T. Ertl. Scatterblogs2: Real-time monitoring of microblog messages through user-guided filtering. IEEE TVCG, 19(12):2022–2031, 2013.

[3] Y. Duan, F. Wei, Z. Chen, M. Zhou, and H. Shum. Twitter topic summarization by ranking tweets using social influence and content quality. In Proceedings of Coling, pages 763–780, 2012.

评论关闭。