等高线箱线图:一种描述系集模拟数据中特征集合不确定性的方法 (Contour Boxplots: A Method for Characterizing Uncertainty in Feature Sets from Simulation Ensembles)

系集模拟的研究方法在诸如气象学、计算流体力学等学科有着十分广泛的应用,其目的是为了了解模型以及参数的稳定性。已有的系集可视化方法通常直接将系集成员可视化,或者将诸如均值等聚集值可视化。然而,在很多情况下,系集模拟中令人感兴趣的部分通常不是数值场,而是其中的特征集合。这种特征集合通常为物理变量或者其衍生变量的阈值,从可视化的角度来看即为标量场的等高线。在这个工作中,作者从箱线图受到启发,从箱线图所表示的统计深度 (statistical depth) 类比到等高线的带深度 (contour band depth),提出了等高线箱线图 (Contour Boxplots),用于对系集等高线的不确定性进行描述。

箱线图(Boxplot)利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息。图1展示了传统的箱线图及其一个变种。箱线图可以将其看作是从采样点的统计深度到箱线图轴上位置的映射。所谓采样点的统计深度,是用来衡量采样点在整个分布中是出于中心区域还是边缘区域。例如,在一个标量的集合中,其中位数在整个集合中处于正中的位置,那么它的统计深度最大;而对于通常意义下的异常点,它们通常处于整个集合的边缘位置,所以它们的统计深度最小。

图1:传统盒线图及其变种。盒线图可以用于定量描述数据的分布情况,同时突出异常数据。

图1:传统盒线图及其变种。盒线图可以用于定量描述数据的分布情况,同时突出异常数据。

作者从统计深度出发,类似地定义等高线的带深度。对于一条等高线,可以将其围成的区域看作是二维平面上的点集集合。作者定义若干等高线围成一个带状区域,其外边界为所有等高线围成区域并集的边界,其内边界为所有等高线围成区域交集的边界,如图2所示。另一条等高线如果完全被这个带状区域覆盖,则认为其在这些等高线围成的带状区域内。对于任一等高线,我们可以从其他等高线中选出很多个不同的子集来围成带状区域,从而可以计算出所选择的等高线有多少概率在其它等高线围成的带状区域内,这个就定义为等高线的带深度。带深度越高,则等高线处于其他等高线围成的带中的概率越大,意味着这条等高线越处于整个等高线集合的中心位置,这是与统计深度一致的。如果带深度为0,则认为其为异常点。在这篇工作中,作者只考虑了2条等高线围成的带状区域。

图2:等高线带的定义。图中3条蓝色等高线围成了带状区域,用钱灰色表示。红色等高线完全处在带状区域内部。

图2:等高线带的定义。图中3条蓝色等高线围成了带状区域,用钱灰色表示。红色等高线完全处在带状区域内部。

通过计算等高线的带深度,我们可以将任意一条等高线对应到箱线图上的一个位置,但是如何将这个信息呈现出来仍然没有解决。作者进一步将箱线图上的一个位置映射到颜色。具体来说,对于带深度处于前50%的等高线,使用较深的蓝色;对于除异常点外的后50%的等高线,使用较浅的蓝色;对于带深度为0的等高线,则用红色虚线来表示;对于带深度最高的等高线,则使用黄色。这样,我们可以直接用对应的颜色来绘制这些等高线,来表现所有等高线集合的分布,同时也能突出异常等高线。为了进一步防止遮挡,作者只绘制由前50%与除异常点外后50%的等高线围成的带状区域,而不单独绘制等高线。

图3中,作者对于人工产生的系集数据进行可视化。这个数据包含80条等高线,它们以椭圆为基础,添加随机噪声,同时还有若干条随机产生的异常等高线。(a)展示了原始的80条等高线,(b)中展示了带深度与颜色的对应关系,(c)中是这个方法的可视化结果,(d)中展示原始系集场取平均值、取平均值加\减1标准差得到的场直接求等高线的结果,分别用紫色和深红色来表示。可以看到(d)中在表现等高线分布的效果上要比(c)弱,同时(d)也完全不能显示异常等高线。

图3:人工数据的可视化结果,包含80条等高线。(a)展示了原始的80条等高线,(b)中展示了带深度与颜色的对应关系,(c)中是这个方法的可视化结果,(d)中展示原始系集场取平均值、取平均值加\减1标准差得到的场直接求等高线的结果,分别用紫色和深红色来表示。

图3:人工数据的可视化结果,包含80条等高线。(a)展示了原始的80条等高线,(b)中展示了带深度与颜色的对应关系,(c)中是这个方法的可视化结果,(d)中展示原始系集场取平均值、取平均值加\减1标准差得到的场直接求等高线的结果,分别用紫色和深红色来表示。

图4中,对系集模拟产生的流场数据进行可视化.这个数据包含40条次模拟结果,作者选择了一个二维截面的压强场的等高线。
(a)展示了原始的40条等高线,(b)中展示了等高线箱线图的可视化结果,(c)中展示原始系集场取平均值、取平均值加\减1标准差得到的场直接求等高线的结果,分别用紫色和深红色来表示,(d)展示直接对系集模拟压强场使用概率移动立方体算法 (probabilistic marching cubes algorithm)进行可视化的结果。在这个数据中,(c)除了上一个数据中所表现的缺点之外,它根据平均值减1标准差场中计算的等高线也已经不能维持等高线原有的形态了。而(d)作为一种完全不同的方法,用户几乎无法看到系集等高线的定量统计信息,也无法从中识别出异常等高线。

图4:系集模拟数据的可视化结果,包含40个压强等高线。(a)展示了原始的40条等高线,(b)中展示了等高线箱线图的可视化结果,(c)中展示原始系集场取平均值、取平均值加\减1标准差得到的场直接求等高线的结果,分别用紫色和深红色来表示,(d)展示直接对系集模拟压强场使用概率移动立方体算法 (probabilistic marching cubes algorithm)进行可视化的结果。

图4:系集模拟数据的可视化结果,包含40个压强等高线。(a)展示了原始的40条等高线,(b)中展示了等高线箱线图的可视化结果,(c)中展示原始系集场取平均值、取平均值加\减1标准差得到的场直接求等高线的结果,分别用紫色和深红色来表示,(d)展示直接对系集模拟压强场使用概率移动立方体算法 (probabilistic marching cubes algorithm)进行可视化的结果。

从以上例子,我们看到等高线箱线图在对系集模拟数据中特征集合的不确定性进行可视化时,表现了十分优秀的性质:

  • 对等高线形状、位置等信息的表现;
  • 定性与定量的描述,即对形状、变化的定性概述以及对等高线分布的定量统计信息;
  • 统计上的鲁棒性,能提取出异常数据;
  • 能维持聚集信息中等高线的形态特征。

等高线箱线图也有其不足的地方,其中之一是无法直接应用到三维等值面的情形。

[1] Ross T. Whitaker, Mahsa Mirzargar, Robert M. Kirby. ” Contour Boxplots: A Method for Characterizing Uncertainty in Feature Sets from Simulation Ensembles “. IEEE Transactions on Visualization and Computer Graphics, 19(12):2713-2722, Dec. 2013.

评论关闭。