数据语境图:在同一个视图中融合数据与变量信息 (The Data Context Map: Fusing Data and Attributes into a Unified Display)

设想如下的场景,一位准大学生正在寻找他心仪的大学,而他所面对的上千所高校,在各项指标上(如地理位置、学术质量、奖惩制度等)都有不同的特点,他应该如何选择呢?当然,他可以使用College Prowler [2] 这样的工具,通过不断设定过滤条件来筛选合适的学府,但这样的操作繁琐而不直观,数据探索的效率低。或许,他也可以利用高维投影(projection)、内部布局(interior layout)等方法,将这些多维数据直观展现在二维平面上。但这类方法不能兼顾表现数据与维度,他需要在多个视图中切换以观察各类信息,如学校的分布(数据关系)、指标的关联(维度关系)以及各校评分(数值情况)等等。文章作者提出了数据语境图(Data Context Map)的方法[1],该方法将数据与维度信息融合在同一个视图中,让用户能够快速地整合分析数据和维度的分布以及联系。

距离矩阵

数据语境图本质上是一种空间布局方法(space embedding)。这类方法基于给定的距离矩阵,建立满足特定需求的布局以表现数据距离。传统的距离矩阵只反映各个数据,或是不同维度之间的关系。而数据语境图利用复合距离矩阵(Composite Distance Matrix)来融合数据及其“语境”(即维度信息),这正是该方法的核心所在。记数据矩阵为DD,维度矩阵为VV,在两者之间插入如图1 (b) 所示的矩阵DVVD,就组成了复合矩阵。其中DV矩阵的行、列分别对应数据与维度,表达了每个数据和每个维度的“距离”。那么,要如何理解这种距离定义呢?

图1 构建复合距离矩阵

图1 构建复合距离矩阵

在归一化的数据空间中,维度是有方向的单位向量(如图1 (a)),而向量自然也能用其顶点来表示。这个“维度点”只在相应的维度上取值为1,其它维度都为0。将维度和数据看成同一个空间的点以后,自然可以应用各种距离度量了。矩阵VD在维度空间中也有类似的定义。然而,由于距离矩阵的对称性要求,DVVD必须互为转置,而不同的度量无法保证这一点。因此文中对这两个矩阵采用了简单而统一的距离度量,即所谓“1-value”距离:记数据的某维度取值为v,它与该维度点的距离就是(1-v)。数据取值越高,它与维度点的距离越近,从而点的距离就反映了数值信息。

布局算法

图2 维度点与数据点的共同布局

图2 维度点与数据点的共同布局

定义了复合距离矩阵后,就可以同时对维度点和数据点进行布局。作者采用了Glimmer MDS [3]的迭代布局方法,用户可以根据分析需求选择不同的布局方案。譬如先按维度矩阵VV布局,固定维度点后按复合矩阵散布各个数据点,从而更准确地显示维度关系;或是反之以强调数据关系。默认的方案则是同时布局维度点和数据点(如图2)。

布局划分

如图2所示,数据点按其取值最高的维度着色,可见布局结果已经能反映维度与数据之间的定性信息。但更多时候,决策需要定量数据的支持,譬如精确的过滤条件和数值范围。为了进一步表现数值信息,作者对布局空间作了填充和量化(如图3)。

图3 布局空间的填充与量化

图3 布局空间的填充与量化

其中空间填充采用了自适应的核密度估计方法(Adaptive Kernel Density Estimation, [4]),空间某一点P以各个数据点的核函数值为权重作插值:

从而形成了密度图(图3(b))。每个维度的密度图都通过等值线进行量化(图3(c)),用户就能了解特定的数值范围在图中对应的区域。

案例分析

图4 基于筛选条件的区域划分

图4 基于筛选条件的区域划分

最后,还是回到选择大学的场景来分析数据语境图的实际效果。这位准大学生用户希望找到一所学术水平高(>9)、体育风气好(>9)、学费较低(<$18,000)的大学。在他输入了所有筛选条件后,数据语境图以不同的颜色呈现了这些条件所对应的区域(如图4),其中紫色、橙色和绿色区域分别对应了以上三个条件。然而,他很快发现并不存在三种颜色都重叠的区域。于是他退而求其次,找到了两色重叠、且与另一区域距离较近的几所大学,分别是图中的ABC三点。注意维度点在这里起了引导作用,因为与维度点的距离反映了数据的取值。

总的来说,数据语境图弥补了传统算法普遍缺少维度语境的缺点。加上针对数值范围的区域划分,这一方法能够在同一个视图中表现数据、维度、数值等多种信息,是对已有投影布局方法的一个有益扩充。

 

[1] Cheng, S., Mueller, K. The Data Context Map: Fusing Data and Attributes into a Unified Display. IEEE Trans. Vis. Comput. Graph. (InfoVis), 2015, to appear.

[2] https://colleges.niche.com/

[3]S. Ingram, T. Munzner, M. Olano, Glimmer: Multilevel MDS on the GPU,” IEEE Trans. Visualization and Computer Graphics, 15(2): 249261, 2009.

[4]P. Kerm, Adaptive Kernel Density Estimation,” The Stata Journal, 2:148156, 2002.

 

评论关闭。