基于贝叶斯模型平均的集合数值模拟预测不确定性的表征和可视化(Characterizing and Visualizing Predictive Uncertainty in Numerical Ensembles Through Bayesian Model Averaging)

集合数值模拟(Ensemble Numerical Simulation)是科学计算中的的常用手段。科研人员可以设定不同的模型参数,得到不同的模拟结果,进而分析模型的不确定性,改进模型等等。例如,在大气模式中,可以参数或边界条件进行调整,比较计算结果,进行决策和分析。集合模拟数据的可视化也是近年来可视化领域研究的热点问题,例如在今年的IEEE SciVis 2013会议中,至少有5篇文章和该问题有关。我们今天介绍的是其中Gosink等人[1]的工作,他们利用贝叶斯模型平均(Bayesian Model Averaging, BMA)的方法对集合模拟数据的不确定性进行表征和可视化。该方法可以通过集合模拟数据和少量的真值(例如稀疏的观测数据)作为输入,比较准确地预测真值(如图1),并评估预测不确定性(Predicative Uncertainty)。

71图1 某生物土壤修复实验中示踪物质的输入井和观测井,示踪物的浓度由集合模拟和观测数值共同获得

 

解决上述问题,最简单直接的方法是回归(Regression),用集合成员(Ensemble Member)的加权平均估计真值。例如大家熟悉的线性回归:

84

其中y是真值,X是所有集合模拟数据在观测点位置的采样值,β是各集合成员的权重,ε是随机误差。通过线性回归,即可估计出权向量β。但是,通过简单的线性回归进行预测似乎缺乏合理性,例如当集合模拟中存在众多和真值偏差较大的结果时,结果可信度较低。我们希望对那些偏差较大的集合成员进行“惩罚”,甚至去掉对应成员,以减少它们在回归中产生的影响。这就用到了BMA方法。BMA通过似然函数估计模型准确的先验概率,通过迭代等算法即可得到β。该方法已经成熟广泛地应用于集合预测(Ensemble Prediction)中,并取得良好的精度。关于BMA可以参考[1]及相关文献,这里不复赘述。

通过BMA计算回归问题后,我们可以得出相应的均方根误差,即预测不确定性:

68

预测不确定性由两部分组成:第一部分方差描述集合成员的散度,第二部分方差描述偏度集合成员相对于真值的偏度。通过这两部分不确定性值,我们可以对集合模拟各采样点进行分为四类(图2):低预测不确定性(Low, I类)、中等预测不确定性(Moderate, II类)、高预测不确定性且成员集中(High with Ensemble Agreement, III类)、高预测不确定性且成员分散(High with Divergent Estimates, IV类)。

0534图2 预测不确定性的分类

类似地,对于单个集合成员,每个采样点也可以分为四种情形:精确且一致(Accurate with Consensus, I类)、精确且离群(Accurate and Outlier, II类)、不精确且一致(Inaccurate with Consensus, III类)、不精确且离群(Inaccurate and Outlier, IV类)。

74
图3 对土壤生物修复数据的预测不确定性探索

73
图4 对土壤生物修复数据中,模型1和模型3的预测不确定性探索

有了上述对全部和单个集合模拟数值的分类方法,用户可以通过散点图交互地探索这两种预测不确定性。用户可以在二维散点图上设定阈值,展示上述四类预测不确定性(图3、图4),进而改进模型,精确估计真值,帮助决策等。

总地看来,本文的主要贡献在于利用BMA对集合模拟的预测不确定性进行了表征,并通过可视化方法交互探索数据中预测不确定性的特性,帮助科研人员更好地理解和分析模型。

参考文献

[1] Luke Gosink, Kevin Bensema, Trenton Pulsipher, Harald Obermaier, Michael Henry, Hank Childs, and Kenneth Joy. “Characterizing and Visualizing Predictive Uncertainty in Numerical Ensembles Through Bayesian Model Averaging”. IEEE Transactions on Visualization and Computer Graphics, 19(12):2703-2712, 2013.

评论关闭。