Association Analysis for Visual Exploration of Multivariate Scientific Data Sets (基于关联分析的多变量科学数据集可视探索)

多变量数据是科学模拟中的一种非常重要的数据,其包含了一系列不同的变量用于描述不同的物理特性。对多变量数据的研究集中在探索不同变量之间的关系,已有的度量方法包括相关系数和互信息等。但是这些工作基本上针对的是不同变量之间的平均关系,很少将重心放在研究不同变量的标量值之间的特定关系。实际上,特定的标量值之间的关联是非常重要的,我们可以通过给定的某变量标量值探索其与其他变量的标量值之间的交互,从而更好地理解潜在的现象。例如,在飓风Isabel数据中,温度变量具有比较高的标量值的区域往往预示着风速和水汽混合比这两个变量的标量值比较低。因此,今年SciVis的一篇文章就提出了一种标量级(scalar-level)关联的分析方法,将不同变量的特定标量值之间的关联基于关联规则(association rules)来表达。为了找到有代表性的标量值,他们利用社交网络中的IP模型(Influence-Passivity Model)计算出了两个影响因素,informativeness和uniqueness,并且提供了一系列交互视图让用户进行探索,如图所示1。

基于标量级关联规则的多变量数据探索流程

图1 基于标量级关联规则的多变量数据探索流程。

在标量级的关联分析中,每个标量值(以下简称为标量)可看作是具有一定的信息量,标量与标量之间的信息流动可以使用关联规则来度量。关联规则广泛应用在事务数据中,常常用来发掘不同售卖产品之间的关系。给定一个关联规则x->y,该规则的置信度可以使用条件概率p(y|x)来表示。类似地,从一个标量xi到另一个标量xj之间的信息流动也可以用条件概率p(xj|xi)来衡量,表示在xi的发生下有多大把握推断出xj也出现。该条件概率可以根据每个变量的独立概率分布和每对变量的联合概率分布来计算。需要注意的是,关联规则仅仅存在于不同变量的所有标量中,同一变量的标量之间的联系不予考虑。

基于标量之间的关联,我们可以定量计算出两个额外的量,informativeness和uniqueness。这两个量的意义类似于应用在社交网络中的IP模型(Influence-Passivity Model),其中informativeness表示一个标量能够推断其他标量存在的能力,uniqueness表示一个标量不与其他标量关联的独立程度。在计算出这两个量之前,我们需要度量每一个关联的接受率和拒绝率,其公式分别如下图2(a)(b)所示:

接受率,拒绝率以及最终informativeness和uniqueness的计算

图2 接受率,拒绝率以及最终informativeness和uniqueness的计算。

接受率表示了xj从xi处接收到的信息量占xj从其所有关联的标量接收的总信息量的比率,拒绝率表示了xj从xi处拒绝收到的信息量占xi被其所有关联的标量拒绝的总信息量的比率。之后,使用如图2(c)所示的关系式,可以将informativeness和uniqueness迭代计算出来。在迭代过程中,两个量的初始值均设为1,并且每次迭代结束后均归一化到[0, 1]范围,直至收敛。

文章提供了三个视图对标量级的关联关系进行探索。第一个是PAGraph视图(如图3(a)),就是将标量之间的关联规则用径向图(radial graph)表示。在该视图中,每个变量占圆环的一段,变量的标量按照值的大小在圆环上顺时针排列,并且根据对应的informativeness值按照从绿到黄到红的顺序着色。关联规则使用连接标量的弧表示,其颜色与某个关联的标量一致,方便追踪。第二个视图是平行坐标(如图3(b))。每个平行坐标视图展示了一个变量的四个方面,分别是标量值,informativeness,uniqueness以及概率分布。所有变量对应的平行坐标视图按照由上到下并列排布。这些平行坐标视图和PAGraph视图是联动的,当用户在某个平行坐标图上刷选了某些标量时,该标量关联的其他变量的标量会在PAGraph视图和其他平行坐标视图高亮出来。还有一个视图是空间视图(如图3(c)),展示了直接的体绘制和等值面可视化结果。该视图的传递函数有两种不透明度的设置方法,一种针对所选标量对应的变量,将标量的informativeness或者uniqueness或者两者的乘积作为不透明度,另一种针对所选标量所关联的其他标量对应的变量,不透明度设置为相应的条件概率。另外,这两种传递函数都是将标量值映射到由蓝到绿到红的颜色范围。

用于交互探索的多视图。

图3 用于交互探索的多视图。

为了验证该方法的有效性,我们来看一看相关的应用案例。这里使用的数据是飓风Isabel数据,包含三个变量,分别是压力(PRE),水汽混合比(QVA)和风速(VEL)。如图4所示,用户在PRE的平行坐标视图上选择一个informativeness很大的标量,联动的PAGraph视图高亮出了所选的标量和它所对应的关联。在其他的平行坐标视图上可以看到大部分关联的VEL标量具有很大的值,而关联的QVA标量具有较大的或者较为居中的值。在空间视图中,所选PRE标量的等值面展现了飓风的风眼壁,其所关联的QVA体绘制展示了很长的以螺旋状进入风眼的雨云带,VEL体绘制展示了飓风风眼壁附近的强风。从这些探索我们可以发现标量之间的联合特征,即伴随着强风和螺旋状雨带的风眼壁。

飓风Isabel数据的案例分析。

图4 飓风Isabel数据的案例分析。

实际上,本文的工作也给了我们一些启发。首先,关联规则更多地是出现在数据挖掘的相关研究中,本文基于此来表示标量之间的关联,而且随后使用了社交网络分析中的IP模型来计算影响标量探索的因素,这些都说明可视化工作可以适当地借鉴其他领域的概念或者算法,例如机器学习和数据挖掘。此外,本文所用的可视化探索技术都是比较常见的,甚至更多地用在信息可视化中,也表明科学可视化的工作完全可以结合信息可视化的技术,只要能够真正解决问题,不必纠结于太复杂的设计。

References:
[1] Xiaotong Liu, and Han-Wei Shen. Association Analysis for Visual Exploration of Multivariate Scientific
Data Sets. IEEE Transactions on Visualization and Computer Graphics (SciVis 2015), 2015. To appear.

评论关闭。