通过可视化分析地理因素对多变量聚类的影响(Visualizing the Impact of Geographical Variations on Multivariate Clustering)

多变量地理空间数据是一种十分常见的数据类型,例如对各大城市的人口状况统计、世界各国的国力评判指标等等。如何分析地理因素(如地域的位置、范围、方向等)对多变量数据的影响,一直是地理信息、可视分析等领域的重要课题。另一方面,聚类是简化多变量分析的常用方法,它能够挖掘相似数据、总结数据特征、并消除变量增长所带来的负担。然而,当下的聚类分析方法并没有考虑地理因素的影响。这篇发表于2016年EuroVis会议的文章[1],就探讨了如何通过可视化分析地理因素对多变量聚类的影响。

多变量聚类与地理因素

在处理多变量地理数据时,我们往往会弃掉其地理属性,将其视为普通的多变量数据来处理。多变量聚类,则是将每个区域的多变量统计数值、按照相似程度进行聚类,从而得到相应的类标号。而所谓“地理因素”(Geographical Variation),指的是与地理属性相关的各类变量,包括位置、范围/大小、方向、形状、海拔高度等等。

通过分区统计图(Choropleth Map)的方式(如图1),我们可以将聚类结果与地理因素结合起来表达。图1中,不同的颜色代表了不同的聚类,整个视图较好地表达了聚类分布的地域趋势(东南部偏向于绿色聚类,西北部偏向于红、橙色聚类)。

图1. 表现聚类结果的分区统计图

图1. 表现聚类结果的分区统计图

至于各区域的多变量数值,则利用降维投影图、平行坐标和玫瑰图三种视图来表达(如图2),其中颜色依然映射了不同的聚类。

图2. 通过三种视图表现聚类的多变量分布

图2. 通过不同视图表现聚类的多变量分布

地理因素对多变量聚类的影响

 1. 地理区域的筛选

为了更好地比较不同地理状况的聚类结果,作者们针对四种特定的地理因素,提出了四种用户可选的数据筛选方式(如图3)。

图3. 刷选地理区域的四种方式

图3. 刷选地理区域的四种方式

(1). “橡皮圈”(Rubber Band)刷选:用户以某地为中心、确定半径后选择一定范围内的周边地区。该方法可用以比较相同范围、不同位置的两个区域。

(2). 基于属性的刷选:用户根据多变量统计数据,可以调节变量阈值来筛选地区。该方法可以比较属性不同、位置散落的多个区域,例如比较全年人口正增长和负增长的城市。

(3). 多尺度邻域选择:用户选定中心区域,可按照不同的尺度选择其邻域。通过比较不同尺度的邻域,可以分析数据特征在多大范围内保持一致。

(4). 多层次区域选择:用户可以选择不同级别的行政区域(国家、省、市等)进行统计和聚类。通过行政区划来统合数据,能够在不同的地理层级上进行数据的比较、消除噪音数据带来的影响。

 2. 基于地理因素的聚类结果比较

用户选出不同的地理区域后、分别对其数据进行聚类,得到不同的聚类结果。通过比较聚类结果、并结合地理因素进行分析,就能了解地理因素对多变量聚类的影响。然而,此前进行聚类比较的相关工作[2]并没有考虑地理因素。为此,作者们借鉴了[3]中的方法,设计了倒金字塔状的“拖放式聚类差异视图”(Drag and Drop Clustering Difference View,如图4)。用户通过拖放不同的聚类结果到此视图中,能够对各个聚类方案进行两两比较。图中第一行为原始聚类结果。自第二行起,颜色展示了不同聚类方案两两之间的差异,右上角的数值则量化表达了这种差异。

图4. 拖放式聚类差异视图(以美国库克县地区为例)

图4. 拖放式聚类差异视图(以美国库克县地区为例)

案例分析

文章对美国库克县(Cook County,位于伊利诺伊州)及其周边地区的五项人口统计数据进行了分析。这五项指标分别为:住房情况、受教育水平、以及三个不同年龄层的人口占比(分别为小于5岁、小于18岁、大于65岁)。

用户选择了库克县周边、四个不同尺度的邻域进行了聚类,并使用“拖放式聚类差异视图”来比较各个聚类结果之间的差异(如图4)。其中,用户发现尺度1和尺度2的聚类差异值为0,差异图也显示各个区域的类标号一致。通过平行坐标视图(图5左图),可以观察到尺度1原有地区(深绿色折线)和尺度2新增的地区(浅绿色折线)在各项指标上差异较大,尤其后者拥有更多的老年人口、人均教育水平也更低。

图5. 跨尺度的邻域多变量数据比较

图5. 跨尺度的邻域多变量数据比较

随着区域尺度不断增大,聚类差异数值也逐步上升,说明原有的聚类结果受到了更大的影响。其中尺度4的差异值达到了0.439,通过观察平行坐标视图(图5右图),可以发现这是由于尺度4的外周地区(白色折线)在青少年人口、住房情况、受教育水平等方面都和库克县周边相似。

通过以上分析,用户就能了解区域范围对库克县周边聚类情况的影响,从而选择一个合适的尺度来进行后续的聚类和区域划分。

结语

总的来说,这篇文章通过不同的可视化方法、帮助用户从多个角度分析地理因素对多变量聚类结果的影响。这也启发我们,除了基本的多变量数据比较,是否能在聚类、相关性/因果性、回归建模、乃至机器学习等各种复杂分析方法中,进一步发挥可视分析的作用、对多变量时空数据进行更有效、更深层的挖掘。

 

参考文献:

[1] Zhang Y, Luo W, Mack E A, et al. Visualizing the impact of geographical variations on multivariate clustering. Computer Graphics Forum. 2016, 35(3): 101-110.

[2]. Lex A, Streit M, Partl C, et al. Comparative analysis of multidimensional, quantitative data. IEEE Transactions on Visualization and Computer Graphics, 2010, 16(6): 1027-1035.

[3]. Hoeber O, Wilson G, Harding S, et al. Exploring geo-temporal differences using GTdiff. Pacific Visualization Symposium (PacificVis), 2011 IEEE. IEEE, 2011: 139-146.

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>