MobilityGraphs: Visual Analysis of Mass Mobility Dynamics via Spatio-Temporal Graphs and Clustering(基于时空图聚类的大量流动数据的可视分析)

对人群流动行为模式的理解,对政府决策制定者和城市规划人员来说,都相当的重要。人群流动数据(movement data)主要记录了一段时间内,人们在不同地方的出现状态和地方之间的流动情况。对流动数据的分析主要集中在两种流动模式的分析上,一是典型模式(typical movement),主要描述人们的规律性行为;一是突发模式(extraordinary movement),主要描述突发情况下,比如爆炸事件,人们的行为模式。本文主要探索研究人们的规律性行为模式。

传统的可视分析流动数据,获取人的规律性行为模式的方法,往往容易出现大量的杂乱现象,不能够支持复杂行为模式的分析。而且,传统的方法常用animation或是small multiples形式展示数据随时间的变化信息。但是,这个表示形式的可扩展性比较差,当时间步很多时,这个类型的可视分析方法就不有效地工作了。此外,传统的基于聚类的分析方法往往只关注空间聚类或是时间聚类,这类方法不能很好的处理时间长且流动密集的数据。

基于以上原因,本文作者提出,空间聚类和时间聚类结合的方式来可视分析时间长且流动密集的数据。通过空间聚类,减少布局上的杂乱现象;通过时间聚类,将具有相似空间态势(spatial situation)的时间步聚成一类,进而减少时间步的长度。

时间聚类往往基于特征向量的相似性。特征向量描述的是地点与地点之间流量的大小。从原始数据中直接计算得到的特征向量,维度非常的高(N^2,N是地点的数量)。高维的特征向量,需要先进行降维,再进行聚类操作。但传统的降维方法得到的结果往往与空间地理信息无关,使得降维的结果难以解释。为此,作者提出在空间聚类得到的简化空间里,进行时间聚类操作。

空间聚类算法将相距较近,且具有较强人流量的地点聚成一个区域。该算法基于DBScan,并增加了一些约束。一方面,该算法既考虑空间的相近程度,也考虑人流量的强度;另一方面,该算法可以应用到随时间变化的数据中。因为在算法的预处理中,他们将所有时间步的数据整合成一个超图(supergraph),然后在超图中进行空间聚类。这种方式获得的空间聚类图在时间步之间可以保持非常好的稳定性,方便用户分析不同时间段空间态势的异同。
时间聚类算法在简化的空间(空间聚类得到的新空间)中,将具有相似空间态势的时间步聚成一类。很多已有的聚类算法都可以达到目标效果,文章中,主要采用k-means进行时间聚类。

基于这些思想,作者实现了一个系统,MobilityGraphs。
interface

图1 MobilityGraphs界面。(a)日历视图,每一行表示一天,第一列表示0点,第二列表示1点,以此类推,最后一列表示24点。同时,同种颜色的单元属于同个类别;(b)聚类参数控制视图;(c)聚类总览图,每个图表示该时间类别内的平均图

交互功能:
1)用户可以通过图2视图,调节聚类算法的参数,比较聚类de结果,选择最合适的聚类参数。

adjust图2 聚类参数比较、选择视图

2)用户可以根据实际任务,选择合适的cluster thumbnails排布方式(图3)。一种是顺序排序,根据clusters在时间上出现的次序进行排序;一种是基于距离的排序,采用MDS算法计算clusters之间的相似性。positioning

图3 左图是顺序排序,右图是基于距离的排序

3)用户可以在差异图中,比较clusters之间空间态势的异同,分析人们的行为模式(图4)。

difference1 图4 差异图。红色表示增加,蓝色表示减少,白色表示没有变化

下面,我将通过实例来展示MobilityGraphs在分析人群规律性行为模式上的有效性。

在第一个实例中,作者想要通过分析发布在伦敦且带有地理标签的推特数据,分析伦敦居民的日常行为模式。原始数据共有15,246,565条推特,40,246个不同的用户,涉及的时间范围是2012年11月5号到2013年10月24号。在空间和时间聚类之前,作者将原始数据处理成以小时为粒度的周循环数据(7days * 24hours)。
通过空间聚类(最大空间聚类为2.25km,最小连接强度是3,最小相对变化程度为0.3)和时间聚类(k=7),获得图1布局。
通过这个布局,我们可以发现伦敦是单一中心结构的城市,且城市的中心区域面积较大。
为分析人们日常的出行模式,我们分析了如下两幅差异图(图5)。
case12-13

图5 差异图。左图 TC7 VS TC1, 右图 TC7 VS TC2

左图,比较了TC7(白天流动模式)和TC2(工作日早晨出行模式)。在图中,顶点和边以红色为主,说明,大部分伦敦居民在早晨前往中心区域工作或学习,或者通过中心区域去其他区域。右图,比较了TC1(工作日晚上流动模式)和TC7(白天流动模式)。图中的顶点和边以蓝色为主,流向是从中心区域指向四周,说明下班后,人们从工作的地点(中心区域),回居住区(城市四周)。
第二个实例,分析的是Abidjan(阿比让)地区居民的行为模式。数据是Abidjan50,000居民为期两周的手机通话记录,共有386个基站电脑,55,832条基站之间的流动记录,共有336个时间片段(14days * 24 hours),其中第2,7,11三天的数据丢失了。

case21 图6 阿比让地区人群流动视图

通过图6,我们可以发现阿比让城市是一个多中心结构的城市。而且,聚类得到的布局像一种蝴蝶,其中中心大区域是蝴蝶的身体,四周是其四条边。正如阿比让这个城市的地理区域形状。
通过日历视图,我们发现丢失的三天跟深夜的空间态势聚成同一类了。这是非常合理的现象,因为午夜之后,居民基本不打电话了。
接下来,我们分析clusters之间的差异,来分析当地居民的行为模式。图7展示的是TC1(早晨流动模式)和TC7(夜晚流动模式)。

case22 图7 差异图。 TC1(早晨流动模式)和TC7(夜晚流动模式)比较

我们发现,早上很多流入中心区域的流量(蓝色的边),晚上很多离开中心区域流向西侧和北侧区域的流量(红色的边)。而且,这两种类型的流量并不重叠。这说明,大部分居民下班之后并没有直接回家。也许中心区域主要是公司等商务聚集中心,两位两个区域是购物等休闲聚集中心。

总的来说,这篇论文将空间聚类和时间聚类结合起来,可视分析时间长且流动密集的动态数据。基于这个思想实现的系统MobilityGraphs可以清晰的展示出人们日常的规律性行为模式。但是,MobilityGraphs系统不支持用户对细节信息的探索,比如对某条轨迹的跟踪等。因此,用户可以通MobilityGraphs获取信息,但很难得到一些意外现象发生的原因。也许添加一些细节探索方法,可以更好的支持用户分析、理解一个区域人们的行为模式。

Reference:

[1]von Landesberger, Tatiana, Felix Brodkorb, and Philipp Roskosch. “MobilityGraphs: Visual Analysis of Mass Mobility Dynamics via Spatia-Temporal Graphs and Clustering.”  IEEE Transactions on Visualization and Computer Graphics (vast 2015), 2015. To appear.

评论关闭。