FLDA:基于LDA主题模型的非定常流场分析 (FLDA: Latent Dirichlet Allocation Based Unsteady Flow Analysis)

LDA主题模型是文本分析中常用的工具。在LDA模型中,一段文本被当作是一个词包(bag of words),通过分析这些词包,LDA模型可以提取出文本中潜在的主题,并基于所提取的主题分析文本间的关系。例如,考虑这两句话:“苹果最新发布了iPhone6和iPhone6 Plus”和“三星本季度利润大幅度下滑”。如果只从词语角度对这两句话进行分析,那么计算机很难发现这两者间的关系。但是,如果计算机通过分析大量文本之后,能发现两句话实际上都是与“科技”“手机”等主题相关,那么就比较容易判断两者的关系了。因此,主题模型实际上是在文本和词语之间增加了一层抽象层,而使得对文本间关系的分析能更加准确全面。而我们要介绍的这篇论文[1]则创新性地将LDA主题模型引入到流场分析中,利用流场主题这一抽象层,基于迹线来对流场进行分析。这篇文章由我们实验室与国防科技大学合作完成,并即将发表在今年的IEEE VIS年会上。

在流场可视化中,对于流场特征的提取通常有两种方法。其一是首先由用户定义特征的性质,然后有系统从数据中寻找满足条件的特征。这种方法的缺点是需要对数据有一定的先验知识,才能定义出较为有意义的特征。而对于多属性的流场特征,尤其是气象模拟这类大规模的模拟数据,这类先验知识并不充足。而另一类方法则首先对数据进行变换,然后自动或手动地提取特征。流场可视化中比较常见的这类方法是聚类、二维嵌入或者图方法。然而这类方法在数据变换之后,通常没有明确地指引出到底什么是特征。一类常用的做法是把聚类当作特征,但这并不总是可行。同时,这类变换通常由于损失了一定的信息,尤其是平流(时间维度)信息,而导致了从变换后的特征空间与数据空间之间的隔阂。

我们则将LDA主题模型引入到流场可视化与分析中来,定义迹线与特征分别与文本和词语对应,通过提取流场主题来分析流场。这种方法有以下几个特征。首先它是一种同时考虑拉格朗日描述(平流信息)与多属性分析的方法。同时,我们方法所提取的流场主题能够作为特征与数据之间的一层介质。流场主题既是对迹线进行概率聚类的结果,同时也将多个特征聚合形成了更加有意义的流场结构。我们的方法在一定程度上能弥补前人方法的不足,并能发现有意义的结果。

图1:文本LDA模型(a)与流场LDA方法(b)的比较

图1:文本LDA模型(a)与流场LDA方法(b)的比较

但是将LDA模型引入到流场分析并不是一件容易的事情。因为在文本分析中,一段文本天然地就分为若干词语,但是这种关系在流场数据中并没有显式存在。图1中对比了传统文本LDA模型和我们流场LDA方法的基本概念。在我们的方法中,我们把迹线看作是特征包,而每一个特征则代表迹线的某个行为。通过分析这些特征包,可以提取出流场主题,并且能得到每个迹线中主题的概率分布,以及每个主题中特征的概率分布。这其中的关键问题就是如何定义这些特征,以及如何为迹线构造特征包。

我们用特征词典来表示我们所有感兴趣的流场行为的集合。在我们的这篇文章中,我们只考虑迹线上每个采样点在各个属性(facets)上的行为。这些行为可能衍生于属性空间,例如速度大小、各变量的值等,或者衍生于几何空间,例如空间位置,转角大小等。以速度大小为例,我们首先将速度的值域离散化为若干区间,为每一时间步的每一个区间定义一个特征,然后将这些特征收集起来就构成了速度对应的特征集合。对于其他方面的行为也类似定义特征集合。最后将这些特征集合并起来就构成了一个特征字典。之后,根据这个特征字典,我们为每一条迹线在每个时间步根据其各属性满足的行为选择对应的特征,构成特征包。这些特征包就作为一个LDA模型实现的输入。

图2:用户界面,包含4个部分:(a) 参数设置区 (b) MDS/热图视图 (c) 空间视图 (d) 特征视图

图2:用户界面,包含4个部分:(a) 参数设置区;(b) MDS/热图视图;(c) 空间视图;(d) 特征视图

一个LDA模型产生的输出有一个主题的列表,以及其相关的概率分布。我们提供了一些交互的可视化视图来帮助分析这些主题。图2中我们所提供的界面概览,其中包括参数设置区、MDS/热图视图、空间视图与特征视图。

在MDS/热图视图(图2(b))中,我们首先使用LASP投影[2]来表现迹线的多属性(高维)结构,其基本思想是根据迹线在属性空间中的两两距离进行多维尺度投影 (Multi-Dimensional Scaling, MDS),从而将在属性上相似的迹线聚在一起。同时,我们也为每个主题提供了一个空间预览图,通过渲染其所包含的迹线来展示其空间形态。需要注意的是,这里我们所说的一条迹线“包含于”一个主题是指对应的主题在这个迹线中的概率大于一定的阈值。用户可以选择一个主题来高亮其对应的高维结构,或者切换到热图形式下以避免散点带来的视觉干扰。

在特征视图(图2(d))中,我们使用基于像素的可视化,并提供了一个三层渐进式的探索机制。在这个可视化中,横坐标始终代表平流的时间步。在主题层次,每一行代表一个主题,而每个网格的颜色则表示所有属于这个主题的特征的概率累加值。在这个层次中,可以看到主题所包含的迹线在什么时候比较相似。在属性层次中,每一行代表一个属性,而每个网格的颜色则表示所有属于这个主题、这个属性的特征的概率累加值。在这个层次中,用户可以看到这个主题的迹线在哪些属性上、什么时候比较相似。最后,在值层次中,每一列直接表示一个直方图,用颜色直接编码对应特征的概率值(参见图5)。因此,使用者能直接看到在这个主题中,所包含迹线在该属性上的值是如何变化的。

通过这些视图,用户可以分别从迹线角度与特征角度来探究流场主题的内涵,从而发现有意义的流场结构。接下来,我们用两个案例来说明我们方法的使用与有效性。

图3:双曲数据集可视化结果。(b)(c)分别对应仅考虑转角大小与空间位置(区块)特征所提取的三个主题。

图3:双曲数据集可视化结果。(b)(c)分别对应仅考虑转角大小与空间位置(区块)特征所提取的三个主题。

图3展示的是一个人造的双曲数据,它的向量场由图中的式子给出。尽管这个流场是个稳定场,但并不妨碍将我们的方法应用到流线上来。我们分别只考虑空间位置(区块)这一属性和转角大小这一属性来提取三个主题,结果如图所示。仅考虑空间位置属性时,我们将空间区域划分成4×8的网格,每个格子对应一个特征。所提取的主题中,前两个正好对应流场中的两个漩涡,而第三个则是一个冗余特征。仅考虑转角大小属性时,我们将360度离散成128个区间。所提取的三个主题正好将流线按其到漩涡中心的距离分成了三个聚类,这也是比较容易理解的。

图4:对飓风伊莎贝尔数据集的可视化。图中展示了MDS/热图视图以及主题层次的特征视图。

图4:对飓风伊莎贝尔数据集的可视化。图中展示了MDS/热图视图以及主题层次的特征视图。

对于简单的数据与特征词典,我们能得到比较容易解释的结果。但是,对于复杂的情况,我们仍然需要借助前述的可视化手段。接下来,我们使用飓风伊莎贝尔数据集,考虑其5个属性:速度大小Speed、温度Tc、压强Pr、云层混合系数QCLOUD和水汽混合系数QVAPOR,从中提取15个主题,如图4所示。其中,有几个主题是我们比较感兴趣的(图5)。主题(a)包含在近地地区从飓风眼向外的一些迹线。而主题(b) 则在远离地面的地区包含绕台风眼顺时针旋转的迹线。主题(a) 中的迹线的属性主要在前半段平流过程中表现出相似的特性,主题(b) 则主要出现在平流过程的后半段时间。最后,我们也发现主题(a) 里的迹线均有逐渐上升的压强以及逐渐下降的温度,这也表明飓风眼相较于周边环境具有更加低的压强以及更加高的温度。而对于主题(b) 中的迹线来说,它们的温度逐渐升高,而压强则基本保持不变。所有这些发现基本上可以由采样点所在的位置来解释,即就是飓风眼附近的采样点应为相互之间距离较小而理应更加相似,相反,在外围区域的采样点则更加可能具有囧然不同的行为。

图5:飓风伊莎贝尔数据集中提取的两个主题。

图5:飓风伊莎贝尔数据集中提取的两个主题。

实际上,在这个流场LDA方法中还涉及到很多参数,一些参数来自于传统LDA模型,而一些参数来自于我们对特征包的定义。文中对我们的方法在不同参数下的结果有一些简单的比较,但若想了解各个参数对我们的方法的影响,则还需要进行系统的研究。

总结起来,这篇文章将LDA主题模型引入到流场分析中来,是一种新颖的分析方法,通过案例分析也展示了这种方法的有效性。同时,这种方法也还存有许多研究的空间。

[1] Fan Hong, Chufan Lai, Hanqi Guo, Enya Shen, Xiaoru Yuan, Sikun Li. FLDA: Latent Dirichlet Allocation Based Unsteady Flow Analysis. IEEE Transactions on Visualization and Computer Graphics (SciVis’14), 2014 (to appear).

[2] Hanqi Guo, Fan Hong, Qingya Shu, Jiang Zhang, Jian Huang, Xiaoru Yuan. Scalable Lagrangian-Based Attribute Space Projection for Multivariate Unsteady Flow Data. PacificVis 2014: 33-40.

评论关闭。