无轨迹信息时空统计数据的数据流分析与可视化(Data Flow Analysis and Visualization for Spatiotemporal Statistical Data without Trajectory Information)

地理可视化研究使用多种技术来表示和探索时空数据。这些技术的目标是使用户能够在空间和时间上探索事件和交互,以便于发现数据中的模式、异常和关系。然而,对于没有轨迹信息的非方向性统计数据,很难提取和可视化数据流模式。在本文[1]中,我们开发了一种新的流分析技术,以提取、表示和分析无方向时空数据流图,而不受轨迹信息的影响。我们估计这些事件在空间和时间上的连续分布,并利用重力模型提取空间和时间变化的流场。然后,我们使用流可视化技术可视化数据中的时空模式。用户在地图上呈现地理参考离散事件的时间趋势。因此,整体的时空数据流模式帮助用户分析地理时空的事件,如疾病暴发,犯罪模式,等来验证我们的模型,我们丢弃的轨迹信息在OD数据集和应用我们的技术数据和比较得出的轨迹和源。最后,我们提出了包括推特数据统计数据的时空趋势分析、海上搜救事件和症状监测案例。

在制图中,专题地图是一种特殊的地图,用来在数据集中说明特定的特征或概念。一个共同的主题是代表人、思想、金钱、能源或物质的地理运动。通常运动表和表的可视化利用线条、箭头,或纹线。然而,这些运动表并不存在于大量数据中,尽管我们知道数据集中的个体确实移动了。此外,许多时空事件数据集被收集起来,因为运动已经嵌入到数据集中;不幸的是,在数据中从未明确定义该运动。

为了在统计数据中找到运动,在分析阶段需要探索空间和时间模式。然而,由于统计数据的复杂性因素众多,从统计数据中提取目标运动并不容易。在以前的工作中,分析这种时空数据的一种自然方法是在地图上绘制数据,然后提供动画控制或小倍数视图来可视化数据的每一步。这种方法使分析人员能够洞察数据的空间分布以及这些分布随时间变化的模式和相关性。然而,通过时间步滚动需要分析师记住空间分布在不同的时间步长中发生的情况,并且在屏幕上比较一个可视化和另一个可视化是不容易的。更详细地说,通过直接比较两个可视化,很难明确地提取数据的移动。也有一些说明性的和抽象的可视化技术,但只有直接的运动数据没有任何流提取的目标。为了克服这些问题,我们提出了一个流提取模型。

图1显示了潜在的事件流提取的概念。时空数据在地图上按时间在地理空间上进行可视化。事件被表示为红色热图估计从原始数据。当热度图给出了两个时间步,t 和 t+1,如图1(a),数据的事件流可以表示为从左到右直箭头。以同样的方式,当热图提供在时间步,t-1 到 t+1,事件流可以被提取为圆形箭头如图1(b)。图1(a)和(b)都是简单事件,事件之间没有重叠,事件流可以很容易地被提取。然而,当应用的实际数据,分析热图太复杂。图1(c)给出了实际热图在时间的步骤,使用真实的数据,t-2 到 t+2。

图1. 潜在的事件流提取的概念

大多数时空视觉分析系统利用地理空间和时间可视化相结合。从某个时间段的地理空间数据概述开始,用户通过使用链接视图详细地查看感兴趣的位置或区域中的时间信息。这样的过程已被证明是探索时空数据的有效手段。然而,这种探索需要许多时间空间数据的快照,并要求用户从空间视图切换到时间视图,反之亦然。

这项工作提出了一种从基于事件的数据源中提取运动信息的新技术,以创建地理流图。如图2所示,该技术通过核密度估计的应用来近似底层数据分布。这为我们提供了数据的连续函数表示。然后应用重力模型提取非方向性统计数据流图。从函数密度分布得到重力模型中的质量,并计算出流向的重力矢量。这样,我们就可以在不需要轨迹信息的情况下探索时空事件数据的传播模式,如疾病、犯罪、社会趋势等。为了形象化的流动效率,我们采用线积分卷积(LIC)与动画方向的符号和地图上的导向线积分卷积(OLIC)。我们评估我们的技术,利用GPS轨迹数据,推特数据,海上搜救事件和症状监测数据。

图2. 系统概述。离散时空数据表示为连续函数(KDE),利用三维重力模型提取时间趋势(运动流)流图。

从我们的流程图分析系统的样本显示如图3所示。在图中,为当前时间t0两热图(a)和未来t+1(b)。这两个热图之间的流程图是可视化的(c)。流程图有三个不同的模式,根据数据分布。发散和汇聚流图是在(I)和(II)地区发现的。在密度增加的区域出现会聚模式(ii),而密度减小时,则出现了发散型(I)。此外,沿着图中所示的密度变化,提取流动路径(iii),如图3中的绿色箭头(c)中所示。

图3. 流程图分析系统的样本显示

为了更清楚地说明我们的算法,我们给出了两个理想情况下的测试用例,如图4所示。在(a)中有两个事件位置。左上角事件密度降低,右下角事件密度增大。这表明预期的发散和汇聚模式,分别为。通过我们的方法显示在这些流动模式(一)。图4(b)显示了事件向左下方移动的第二个简单测试用例,如结果可视化所示。

图4. 两个理想情况下的测试用例

在这项工作中,我们利用一个简单的表示离散时空数据,这是一个数组的空间分布随着时间的推移。为了获得离散数据的连续表示,将核密度估计(KDE)方法应用于数据分布。最初,我们将空间维度和时间维度结合起来分析流,但这种方法只显示了发散或会聚的流型。因此,每一步都分别用2d内核编码,函数表示如下所述:

图5. 核密度估计公式

图6展示了公式中a0和a1的参数比较。(a)提出了三种热力图可视化方法,从 t0-1 到 t0+1。流图通过改变值,a0和a1,在(b),(c),和(d)中提取。当a0增加时,观察到的流动模式类似于t0处的势流。另一方面,当a1增加时,流动模式被提取为从 t0-1 到 t0+1 的相邻步骤的更多时间模式,而这往往忽略t0处的事件。

图6. a0和a1的参数比较

空间位置之间的引力模型的一般形式,i,j,如下所示:

图7. 重力模型公式

本文提出了利用重力模型进行时空流图提取的模型:

图8. 时空流图提取公式

在可视化流水线中,我们可以看到矢量场是用原始数据用KDE和重力模型的函数表示来计算的。向量字段可以在独立的客户端软件或基于Web的软件上可视化。我们的系统提供了可视化包括奥利奇,箭头符号三种不同的类型,和粒子跟踪类似LIC。

图9. 可视化流水线

近年来,社交媒体服务,例如,推特,提供了一个自由交流访问数据库的用户生成的报告。由于许多人使用GPS支持的移动通信设备,这些报告能够捕捉到活跃的、无处不在的社区所观察到的重要地方事件。我们收集和分析的tweet消息了解我系统的信息流。我们分析了两种不同的情况下,超级杯2015和2013波士顿马拉松轰炸。请注意,我们不利用从社交媒体数据的任何轨迹信息。

超级碗在格伦代尔举行,亚利桑那州,2015年2月1日。在调查这起案件之前,我们预计许多球迷来到体育场观看比赛,他们可能通过Twitter在比赛当天使用手机来播报他们的身份。正如预期的那样,每天都会产生大量的推特,我们决定探索当天球迷的动向。我们把Twitter数据从中午12点到20点汇总,每小时提取一次流图。有三个热点,如体育场、商场和一个偏远停车区,如图9所示。人们开始移动到体育场从12:00直到比赛开始的时间,这是16:30。随着时间的继续,运动流向占主导地位的体育场,那里有许多可用的停车位,直到15:00。然后从16:00开始,主要的交通在远离主体育场的偏远停车区。这表明体育场附近没有可用停车位,人们开始转向偏远停车区的其他停车位。有趣的模式被发现在20:00。从体育场到购物中心有一种流动,这可能意味着人们再次去购物中心买食物、喝饮料或开车。

图10. 2015超级碗期间的流场图

本文提出了一个新的时空数据分析技术。我们提取流程图从离散的SPA评估连续函数表示tiotemporal统计数据。我们采用二维核密度估计来近似底层数据分布,并应用重力模型生成流图。我们评估流程图提取模型两轨迹数据。我们还演示了使用四种不同类型的基于事件的数据流图分析和可视化。我们的研究结果显示了利用流图进行时空数据趋势分析的好处。我们的技术可以用来理解坡势运动路径和趋势在一段时间内的统计数据,例如,犯罪事件的报道,经济和社会的发展趋势。作为未来的工作,我们将在包括约束条件的数据的进一步统计分析的基础上研究先进的流图抽取模型。我们还计划处理噪声数据的分布,导致随机的流动模式。此外,我们将应用说明性流可视化技术,以更好地感知流。我们将扩大我们的流量分析技术以及多元时空数据分析。

参考文献:

[1] Kim S, Jeong S, Woo I, et al. Data Flow Analysis and Visualization for Spatiotemporal Statistical Data without Trajectory Information[J]. IEEE Transactions on Visualization and Computer Graphics, 2017.

评论关闭。