对于稀疏采样的带有地理标签的社交媒体数据的交互式可视分析与探索 – Interactive Visual Discovering of Movement Patterns from Sparsely Sampled Geo-tagged Social Media Data

‘社交媒体’这个词现大家并不陌生,每天成千上万的人在使用着微博之类的社交媒体软件,各种新闻、心情、信息等都在网络上传播。随着智能手机的普及,发送带有GPS定位的微博数据变得更为容易,大量的带有地理标签的微博被发送、传播。它提供了一个丰富、广阔的可探索的信息空间 — 这对于以前以用户调研(Survey)为主要研究手段的人群移动研究,提供了一个前所未有的空间。今天我们就北京大学可视化与可视分析研究组在今年可视化顶级会议IEEE VIS 2015 发表的一篇可视分析方面的文章进行详细介绍 [1]。

如下图所示,两周的微博数据,基本覆盖了中国的各个大中城市,每天还有更多的新增。带有地理标签的微博数据大概是全量微博的3%,即使是3%也是十分庞大的数量,在2014年平均一天我们可以观察到有100万带有地理标签的数据产生。并且它的覆盖范围十分广泛,虽然可能和总人口的数量分布不完全相等,但是其代表的人群也已经十分有普遍的代表意义。

fig1_weibo

Fig.1 两周内的微博的全国地理分布,右图是把同一个用户时间相邻发布的有地理标签的微博位置连线连接

对于这样的数据,我们如何分析呢?我们的工作是以人为分析单位,对于每个人,将他曾经发送过的带有地理信息的微博按照时间序列排列起来,这样就获得了他的一个访问序列。但这里也同时带来了一个严峻的挑战:每个人记录带有地理信息的微博的时间是不确定的,并且他是否及时记录他所在的地方,或者他也可能出现他出去另一个地方而没有记录的情况,因此虽然这样的数据具有覆盖面大、地理空间全的特点,它也有它的弊端:采样变化大、稀疏且不规则。总体而言,具有如下的不确定性:1)发微博的时间与实际移动花费时间的不确定;2)发微博的位置与已经访问位置的不确定(中间路径可能被忽略);3)发微博行为特征每人各异等。针对这样的挑战,仍然希望从这样的数据宝藏中获得信息与知识,我们的工作就是设计了针对稀疏采样且具有不确定性的轨迹的可视分析系统,其中包含了基于高斯混合模型的不确定性建模,允许用户交互地进行可视分析与探索数据的特征。

fig4_illustration

Fig. 2 带有地理标签的微博移动轨迹的不确定性示例说明,两地之间不同交通方式会有不同的时间花费,而用户可能不一定及时发送微博,或者中间去了其他地方后再发送微博,导致估算时间的不确定性。

我们的研究基础是对于群体行为的研究,因为单体的不确定性可能由各种随机因素决定,但群体的行为往往能反映背后的移动规律。我们的模型针对两地之间的移动,我们可以认为其中多种交通方式并存,例如飞机、火车、汽车等。对具体某种交通方式,在交通领域的研究中,时间花费可以认为是呈正态分布(我们坐汽车到一个地方,一般对话费的时间有一个预判,这就是正态分布的平均值,然而可能会因为各种因素时间花费有所波动,例如交通特别通畅,时间花费就比原来少一些,如若堵车或者遇到其他意外情况,时间花费可能增加)。再者,不同的交通方式产生的时间花费分布不同,基于这样的基础,我们提出了基于高斯混合模型的不确定性建模,通过对移动数据花费时间的建模,可以找到两地之间移动的不同类型,并结合微博的语意(关键词)进行分析,辅助判断其交通工具的方式,以及每个方式的时间花费均值以及可信区间。

fig5_case

Fig. 3 不确定性模型示例。(a) 原始数据的分布,包含错误数据(小于最快时间,以及长尾的延迟微博),(b) 对过快的错误时间进行过滤,(c) 过滤后的正常时间,GMM模型拟合(参数为k=3),(d)参数k=4。针对(d)中的四个峰,分别有下面四个关键词的分布(P1,P2,P3,P4),分析之后发现它们分别对应正常飞机行为(P1),晚点航班行为(P2),乘坐火车行为(P3),延时发微博的行为(P4)。

简单的例子如下,我们分析北京到成都的往返行为,首先筛选出996条北京到成都、1201条成都到北京的移动轨迹,分别由361,393位用户生成的数据。我们可以看到原始的数据分布式一个长尾的分布,根据我们已有的知识,北京到成都之间飞机至少飞行3个小时,因此我们可以认为两个访问时间点小于3小时的,都属于噪音数据,因此我们可以过滤掉。然后超过64小时的,我们也认为他们的延时太过严重,也不能进行可靠的分析,因此也过滤掉。剩下如下图c、d所示的分布,我们可以选择k=3进行拟合(c),发现其提取出来的时间花费分布和我们查询到的飞机时刻以及列车时刻较为吻合,并且结合微博的文字信息(worldle)进行分析,我们看到相应的重要关键词中出现了机场、飞机等关键词,以及另一个峰所对应的出现了火车站、北京西站、旅行等关键词。这样我们可以初步判断其对应交通行为的分布。另一方面,我们可以将k=4,发现在原有的飞机的峰上面,拟合出了两个峰,再对相应的微博关键词分析我们发现,另一个峰,比常规的飞行时间长2、3个小时的峰值中,出现了‘晚点’、‘延误’等字样,说明我们又发现了一类 — 飞机延误行为,这样的语意信息对于我们对数据的探索十分有帮助,也从而验证了我们模型的正确性。

fig2_teaser

Fig. 4 可视分析系统界面,包含了(a)时间轴视图,(b)时空探索视图,(c)时间花费与空间距离分布视图ST Matrix View,(d) 属性细节视图ST Detail View,(e)模型视图ST Model View。

但仅仅有模型还是不够的,用户在之后的可视分析流程中,可以对输入的数据进行过滤,也可以对模型的参数进行控制(k个类型),并且选择不同类型以及置信区间进行进一步的可信数据探索。我们的一大特色就是将不确定性模型引入了可视分析系统中,可以允许用户交互地探索稀疏采样的轨迹数据,具体的工作流程如下所示,包括以下6个步骤:1) 数据预处理  2) 时空探索 3) 动态聚合与过滤操作 4)基于不确定性模型的细节分析 5) 语义探索 6)迭代分析。

fig3_pipeline

Fig. 6 可视分析系统流程,包括6个步骤:1) 数据预处理  2) 时空探索 3) 动态聚合与过滤操作 4)基于不确定性模型的细节分析 5) 语义探索 6)迭代分析。

以下我们通过一个对云南省范围内两周的带有地理标签的数据进行探索,来讲解我们的工作流程。首先,用户会面对一个时空过滤视图,上面的轨迹显示了原始的微博移动数据,用户可以选择一定时空区域进行细节分析,我们提供了基于密度的方法检测分析区域中微博较多的点,例如在这个例子中,我们找出了大理、丽江、昆明三个城市,并且我们可以通过外环的圆圈看到其数量比例大概是1:1:2。用户可以通过交互方法调节、增加删除缩放相应的分析区域,数量外环之外展示了对应地区(颜色)的时间分布规律,用户也可以通过刷选的方式,例如选出早上从昆明出发、下午到达大理的人群。并且通过点击相应地点的圆圈,我们还可以观察其关键词的分布。

fig6_spatial

Fig. 7 空间视图与过滤POI,可以看到左图:POI(带颜色小圆圈),流量(箭头),关键词分布以及时间与数量分布(外围);右图:用户可以增加POI区域,观察各个流量分布,并且外围的时间视图是Level of Detail分布的。

在筛选出相应的POI位置之后,POI之间的相互流量会被自动过滤计算出来,由图中的箭头粗细表示流量。鼠标悬浮在上面会看到细节的流量分布信息,在筛选出POI以及相应的移动序列之后,用户可以看到相应的非空间属性的变换,在系统的左上角我们设置的ST-Matrix视图,可以观察横轴是移动距离、纵轴是花费时间的一个二维直方图,用颜色的深浅表示微博数量的多少。用户可以在上面进行刷选,也可以选择多个属性区域空间进行进一步分析,例如我们可以删去大于100小时的移动,或者距离超过理论上往返的距离的数据,在这个例子中我们选择筛选距离大于600km的数据。在筛选之后,我们就进行到细节分析步骤。

fig7_matrix

Fig. 8 属性视图,包括距离与时间花费 (a)原始分布,(b)用户选择与其他视图高亮。

fig8_detail

Fig. 9 细节视图与模型视图 (a) 聚集的人群移动分布,(b)具体人群移动分布与关键词分布,(c) 模型视图,包含了两两POI之间的移动时间花费的分布,以及计算出的不确定性模型与置信区间。

在ST Detail View中,X轴代表1维投影的空间关系,Y轴代表时间花费(向上)与空间距离(向下),例如视图中对应的三个区域大理、昆明以及丽江,从大理出发到丽江的移动轨迹,即从Y=0的位置延伸到相应的时间花费与空间距离的Y轴上(上下两部分),即表示了该移动的属性。我们提供了多种方式,包括基于聚合、细节、热力图等模式,用户可以刷选具体的移动轨迹,并高亮关键词。用户筛选出的轨迹,会在细节模型视图ST Model View中体现。该视图由多个Small Multiple组成,每个代表两两POI之间的移动轨迹的时间花费的分布。基于GMM的不确定性模型根据用户过滤的结果进行模型的计算,所产生对应的高斯峰以及置信区间也在每个分布图中显示。我们可以看到这里每个视图有3个峰,根据建议的置信区间与模式分布,我们可以选择第一个峰进行迭代探索,相应的数据我们认为较为可信,因为他们的移动花费时间与常理相符合。当然其他的峰用户也可以继续探索,亦可以表征在不同地方停留、游玩的时间。我们根据第一个峰筛选出的轨迹,通过频繁模式挖掘,找到了旅游者们经常走的路线,他们常常从昆明出发(外地飞往昆明的航班较为便宜且多),然后游览大理、之后到丽江,部分人会返回昆明,另一部分人可能直接从丽江飞往其他地方。我们找到的这一规律也在蚂蜂窝等网站游记、推荐路线上被证明。以下是这些轨迹中用户可以筛选具体的轨迹进行观察,典型的移动轨迹如下,早上从昆明出发,下午抵达大理,在洱海风景区附近游玩之后,晚上坐大巴到达丽江古城,利用我们的系统,可以发现较多有意思的规律与特征,更多的案例请参考我们的论文[1]。

fig9_case

Fig. 10 频繁模式与具体代表案例,从昆明->大理->丽江。

综上所述,对带有地理标签的微博数据进行探索,我们提供了不确定性模型,以及基于不确定性模型的可视分析流程与系统。通过我们的系统,可以找到很多有意思的规律,更多的规律等待大家共同参与与挖掘。

【1】Siming Chen, Xiaoru Yuan, Zhenhuang Wang, Cong Guo, Jie Liang, Zuchao Wang, Xiaolong (Luke) Zhang and Jiawan Zhang. IEEE Transactions on Visualization and Computer Graphics (VAST’15), To Appear.

 

评论关闭。