子空间分析

简介

在高维数据中,一部分数据称作一个子集,而一部分的维度称作一个子空间。很多数据特征如数据结构、维度相关性等,会在不同的子空间里呈现不同的面貌。然而,这些子空间的特征往往隐藏很深,无法通过全局的数据分析来发现。用户需要深入探索各个子空间来发掘其中隐含的信息。针对这一问题,我们做了大量的研究工作,旨在帮助用户探索不同层次的子空间,并分析其数据特征。

数据空间存在一个层次化的结构,亦即一个子空间可以被细分为更小的子空间,以此类推。而另一方面,用户往往需要横向比较多个不同的子空间,以分析其数据特征的差异。为此,我们提出了投影矩阵/树的方法[1],以帮助用户从不同方面进行子空间探索。

顾名思义,该方法包含了两种设计,亦即投影矩阵和投影树。在矩阵中,每一行/列都代表了一组维度。而单元格则代表相应行、列维度组成的子空间,用以展示该子空间的数据投影图以及维度投影图(如左上图)。通过这一矩阵,用户可以很方便地对多个子空间的数据分布进行比较。另一方面,我们用树结构来组织子空间之间的层次化关系。其中每个子节点都包含父节点一部分的维度或数据,亦即父节点的一个子空间。用户可以从视图中拖拽出一部分数据或维度(如右上图),以创造更加细分的子空间。结合投影矩阵和投影树,用户不但能够层层深入地探索子空间的细节,也能方便地对比多个不同的子空间,并对它们进行分析和评估。

在投影树的设计中,用户通过一部分维度来定义子空间。但事实上,子空间并不一定包含完整的数据维度。多个维度加权得到的合成维度也足以构成子空间,而而这类子空间及其数据特征往往更难以发现。针对这一问题,我们提出了“维度重构”的方法[2],下图阐述了这一方法的基本思想:

首先,用户通过组合各个维度,在投影图中观察不同子空间的数据分布。当用户发现明显的数据聚类时,他可以交互地指定图中的一个方向作为新维度,使得聚类在该维度上的区分度最大,如上图中的RD1。同样地,他定义了RD2来区分另外的两个聚类。最后,他可以将合成维度加入到原有的维度中,构成一个混合子空间。而之前发现的数据聚类,由于RD1、RD2的保留,依然能在混合子空间中被分离开。通过这种方法,用户就能发现、并保留合成子空间中的数据特征。


引用

  1. Xiaoru Yuan, Donghao Ren, Zuchao Wang, and Cong Guo.
    Dimension Projection-Matrix/Tree: Interactive Subspace Visual Exploration and Analysis of High Dimensional Data. IEEE Transactions on Visualization and Computer Graphics (InfoVis'13), 19(12):2625-2633, 2013.
    | 文章:pdf (8.7 MB) | 视频: mp4 (24.0 MB) |

  2. Fangfang Zhou, Juncai Li, Wei Huang, Ying Zhao, Xiaoru Yuan, Xing Liang, and Yang Shi.
    Dimension Reconstruction for Visual Exploration of Subspace Clusters in High-dimensional Data. In proceedings of IEEE Pacific Visualization Symposium (PacificVis 2016), pages 128-135, Taipei, Apr. 19-22, 2016.
    | 文章:pdf (2.9 MB) | 视频: wmv (38.0 MB) |


© 北京大学可视化与可视分析研究组 2008-2016