高维数据分析如今已经众多学科领域的普遍问题,但是高维数据空间的交互探索技术依然面临着巨大的挑战。对于用户来说,如何在高维空间里导航和定位一件难以驾驭的事情。今天我们带来的是IEEE TVCG 2013的一篇文章[1],作者受旅游观光启发,设计了一套从全局到细节的高维数据空间探索系统。
全局景观图
图1展示了系统的第一个窗口,全局景观图。这个窗口的主要部分是左边的多维尺度分析(MDS)布局,每一个方框图符代表了高维数据的一个子空间投影。对于高维数据,使用ENCLUS[2]可以提取出最能表达数据特征的子空间维度。在这个子空间里使用主成分分析(PCA)获得主成分特征向量,选择评分最高的两个向量,称为Principal Plane Axis(PPA),作为双标图(BiPlot)[3]的X-Y坐标进行投影。高维数据每个维度在PPA中的贡献权重以柱状图的形式标在了每一个坐标轴的外侧。
通过右边的参数控制面板,用户可以调节MDS布局策略,高维空间距离定义,投影方法等。用户还可以清楚地看到当前选中的投影所使用的主成分向量的信息。在整个布局图里,用户可以了解到不同子空间之间的相似性特征,并制定一套探索路径。
局部景观探索
图2展示了系统的第二个窗口,局部景观探索。其中最主要的部件是右上角的高维触控板。这个高位触控板有内外两层多边形组成,分别代表了BiPlot两个方向的PPA。每一个顶点代表了高维数据的一个维度,触控点相对于顶点的位置可以映射为这个顶点代表的维度在PPA中的权重,亦即下方的那个柱状图。因此,这个触控点被解析成一个高维权重向量,通过调整这个点,就可以调节PPA里各个维度的组成,进而改变BiPlot的投影结果。通过观察随着PPA的改变投影图中各个点的位置改变,就可以发现高维数据维度间的关系。
分析案例
图3我们展示了一个维度分析的示例。在这个案例中,我们使用的数据是美国大学的评价和特点数据,包括学费(维度10),媒体评分(维度9)等。在这个分析中,我们保持PPAy不变,把PPAx从学费维度移动到媒体评分维度。在右图中,我们把投影点的移动轨迹记录下来。可以看出,绝大部分学校从右边移动到左边,这意味着,这些学校具有较高的学费但是媒体评分并不高。绿色圈出来几所学校则正好相反。而蓝色的两所学校则是评分和学费都很高。通过改变触控点的移动策略,可以研究更多维度组合间的特征。
图4则给出了高维数据分析中的另外一项任务——聚类分析——的案例。通过探索不同的子空间,可以发现每个子空间的结构特征。不同的聚类会在不同子空间里出现。通过多个子空间的联合分析,就可以发掘出精准的聚类特征。
总结
这篇文章为高维数据分析设计了一套新颖的探索系统。其中的多维触控板方法让高维子空间变换和追踪变得简单高效,使用户能够容易理解高维空间的特征。通过全局概览图和局部投影图的交叉使用,用户可以更好得理解高维数据的特征,并防止在空间探索中迷失方向。但本系统针对的数据维度并没有达到很高,在数据规模和维度规模变大时是否具有良好的扩展性也没有深入讨论。
参考文献
[1] Julia Eunhu Nam, and Klaus Mueller. TripAdvisor_N-D: A Tourism-Inspired High-Dimensional Space Exploration Framework with Overview and Detail. IEEE Transactions on Visualization and Computer Graphics, 19(2):291-305, 2013
[2] Chun-Hung Cheng, Ada Waichee Fu, and Yi Zhang. Entropy-based subspace clustering for mining numerical data. Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining, 84-93, 1999
[3] Forrest W. Young. Principal Components: BiPlots. http://forrest.psych.unc.edu/research/vista-frames/help/lecturenotes/lecture13/biplot.html
评论关闭。