基于自下而上的子空间探索的多变量体数据分析和可视化(Multivariate Volumetric Data Analysis and Visualization through Bottom-Up Subspace Exploration)

多变量体数据的可视化是科学可视化中的一个重要研究方向。这类数据往往包含了很多有意义的特征,而这些特征大都与多个变量相关。为了提取并可视化这些特征,人们通常会设计和使用多变量传递函数。不过,由于变量的数据比较大,并且变量与变量之间的关系很复杂,多变量传递函数的设计相比与传统的一维传递函数会遇到更大的困难和挑战。但是另一方面,某些特征事实上可能只存在于一个变量的子集中,也即是所有变量的一个子空间中。例如,飓风的风眼是一个非常重要的特征,它可以只根据速度和压强这两个变量就可以识别出来。因此,在多变量体数据中,通过子空间的探索来鉴定某些特征往往更加方便和容易。针对这一现象,今年PacificVis的一篇文章[1]提出了一种自下而上的子空间探索方法,支持对多变量体数据中特征的提取和可视化。

图1 一种自下而上的子空间探索方法的流程图

图1 一种自下而上的子空间探索方法的流程图

该方法的流程如图1所示。首先是一个预处理过程,减小多变量数据点的规模。之后以这些预处理后的数据点为输入,进行交互式的自下而上而上的子空间探索,识别其中的特征并最终进行可视化。

由于原始数据集往往包含了大量的数据点,对这些数据点的处理所花费的时间基本上与其数量成正比,处理过程十分耗时。因此,该工作首先通过一个数据分级(data binning)和聚合的操作来减小点的规模,即是将多变量数据的每个变量对应的值范围分成若干组,落到相同的多变量值范围内的原始数据点可以聚合成一个单独的点。

图2 子空间散点图矩阵

图2 子空间散点图矩阵

需要注意的是,数据分级和聚合会造成一定的信息损失。为了弥补这一损失,作者计算了两个权重,分别为大小权重(size weight)和分散权重(scatter weight)。大小权重记录的是子空间中的点所对应的原始数据中的点的数量,实际上也是该点在原始数据中的频率。分散权重记录的是子空间中的点所对应的聚合后数据中的点的数量,它表示的是在高维空间中数据点的分散程度,可以帮助用户决策是否要对子空间进行拓展优化。在数据分级和聚合后,这些经过处理的点会被映射到一维或二维子空间中,其可视化形式为散点图矩阵。如图2左上三角区域所示,每个子图都是一对变量的二维直方图,每个点的颜色根据其分散权重进行着色。

预处理得到子空间矩阵之后,将可以通过自下而上的子空间探索来寻找多变量特征。该过程包含三个步骤,如图3所示,分别是子空间选择,特征识别,以及对所识别特征的拓展和优化。

图3 子空间探索的流程

图3 子空间探索的流程

子空间选择的目的是帮助人们在没有对数据的先验知识的情况下提供指导。这个选择过程是通过计算子空间的联合信息熵得到的。联合信息熵反映了子空间包含了多少的信息,可以根据子空间对应的两个变量的联合概率分布计算出来。子空间的熵用颜色映射直接展示在子空间矩阵的右下三角区域,如图2所示。用户可以选择熵最大的子空间继续进行探索。

用户选中子空间后,接下来可以使用核密度估计来帮助识别其中的特征。对于子空间的每一个数据点,将该点的大小权重和分散权重进行融合,作为核密度估计的权重。该方法的最终结果是基于密度的可视化图 。在此基础上,他们用高斯函数来表示所识别的特征。具体来讲,他们将密度图中密集的区域视为特征。对于每一个这样的密集区域,以其中心位置为高斯平均值,并允许用户自行调节高斯方差来确定特征的形状,然后利用高斯传递函数对该特征进行直接体绘制。在这个过程中,作者提供了一些视图来帮助人们识别特征,包括用于调节高斯方差的平行坐标图,展示高斯分量所覆盖的数据点区域的MDS图,以及最后的多变量体绘制空间视图。

在需要的情况下,以上方法所识别的特征可以被进一步拓展到更大的子空间。首先,只保留该特征所覆盖的数据点,去掉其他所有的数据点。其次,根据剩下的点重新计算子空间的二维直方图和联合信息熵,更新子空间矩阵。然后,用户可以在新的子空间矩阵中进行优化,例如重新选取熵最大的子空间进行探索。此时这个子空间不仅包含了之前所选取子空间的变量,还包含了后面重新选择的子空间的变量。

图4 使用Isabel飓风模拟数据的案例分析

图4 使用Isabel飓风模拟数据的案例分析

我们通过一个案例来展示该自下而上的子空间探索。案例的数据来源于Isabel飓风模拟,如图4所示。用户首先选择一个熵最大的子空间,该子空间包含压强和温度两个变量。在核密度估计之后,用户首先选择了对应风眼的特征。为了进一步的探索,风眼特征所覆盖的数据点被移除,然后子空间矩阵进行更新,用户继续选择温度和压强的子空间,通过核密度估计的计算选择了风眼周边旋涡状的特征。为了对该特征进行优化拓展,除该特征外的数据点都被移除,子空间矩阵再次更新,此时用户选择了水汽和压力的子空间,并从中将风眼周边旋涡状的特征分离成了两个更加精细的特征,结果如最终的体绘制所示。

需要注意的是,这种自下而上的方法的可扩展性具有一定的局限。在变量很多的情况下,通过散点图中展示所有的子空间将会变得非常困难。一种比较好的解决方法是只显示部分熵最高的子空间。目前,这种自下而上的方法是从两个变量的子空间开始探索,作者也许可以考虑更直接的将多个变量同时参与进来的子空间探索方法。进一步地,我们也可以考虑将子空间分析引入到集合模拟数据的分析中,探索集合模拟特征。

Reference

1. Kewei Lu and Han-Wei Shen. Multivariate Volumetric Data Analysis and Visualization through Bottom-Up Subspace Exploration. In Proceedings of IEEE Pacific Visualization Symposium 2017, pages 141-150, 2017.

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>