总览

Scientists are generating ever-growing scale of data with supercomputers in this big data era. Visualization has been increasingly important for analyzing, understanding, and revealing insights in data. Our research interests generally involve in scalable visualization and analysis of large scientific data.

可扩展性

In the context of our studies, the "scalability" is not limited to its narrow implications, but also the follows:

研究范围

Our research focus on multivariate, multi-valued, and ensemble flow data, which consists of both scalar and vector attributes in the context of our studies. Alternative to traditional flow visualization methods which have been studied for decades, we emphasize on the scalable analysis of indirect and multi-faceted features. We also extensively use both Eulerian and Lagrangian method for the flow data analysis from multiple perspectives.


标量场的多变量分析

在多变量标量场中探索多变量特征以及属性间的相关性,是一个具有挑战性的任务。 通过将多变量的采样置于平行坐标与多维尺度投影中,可以帮助发现并提取多变量特征。 其中,平行坐标主要用于展示各个属性的数值分布,而多维尺度投影则主要用于发掘数据采样点间的相似关系。 两种可视化技术的无缝结合,则使得这种探索变得更加便捷。


流场的多变量分析

在多变量流场数据方面,我们首先探索开展了基于多变量属性空间的迹线投影方法。 研究针对在气象多个变量的流场数据,为了解决生成迹线所需要的庞大计算量, 提出了一种将迹线生成与投影紧密结合的高效并行算法。 根据流场中的场线根据其在各个属性上的差异,我们对其进行投影,然后通过交互来发掘具有属性相似性的场线特征。 我们的方法在多个气象模拟数据上进行案例分析,并发现了一些之前工作无法得到的结果。

进一步地,针对由流场衍生的多属性迹线数据, 我们创新性地借用文本分析中常用的主题模型,将文本分析中常用的主题模型来提取流场中有意义的流场结构,提取多变量数据中各个变量所共有的时间演化趋势进行可视化与分析。 我们定义迹线特征和迹线分别与文本分析中的词和主题对应,通过主题模型,既可以将相似的迹线进行聚类表示一定的流场结构, 又可以将迹线特征聚集起来对聚类结果进行诠释。聚类后的结果通过投影地图的方式提供。 这个方法已经在合成数据以及气象模拟数据上取得了较好的结果


集合标量场分析

在集合模拟数据的高维标量场研究中,我们探索了一种图可视化方法,EnsembleGraph, 来分析多维输入条件与模拟结果的关联。由多种不同输入条件而生成的集合模拟数据是一种高维数据, 模拟结果中包含多组输出的每一个时空点就是这个高维空间中的数据点。 我们通过高维向量来定义每个时空点上模拟成员的相似性。利用聚类算法和空间划分方法, 来概括空间中具有高相似度的子区域。我们采用图可视化方法展示高相似度区域在模拟空间中的分布情况: 节点代表时空中具高相似度区域块,节点间连边表示相邻时刻区域有所相交。结合多视图交互的界面, 用户可以直接对集合模拟数据进行快速浏览,并选择区域来比较其内集合模拟成员的分布情况。 该工具能帮助用户直观地观察并分析集合模拟成员相似度在时空中的分布与具体演化。研究结果针对的科学家实际分析需求,也得到了实际结果和反馈。


集合流场分析

如果集合模拟数据涉及到矢量场,可以在矢量场中先进行迹线追踪,得到迹线之后,就可以计算迹线之前的差异, 以及计算迹线上每个高维变量之间的差异信息。我们进而关注集合模拟中的矢量场,将集合模拟数据作为一个整体来研究流场的特性, 提出了一种新的框架和原型系统,称为eFLAA (ensemble Flow Line Advection and Analysis)。 eFLAA计算集合模拟数据的差异场,该场可以用于分析和提取差异特征,加速进一步分析的过程等。 eFLAA可以同步地对所有集合模拟成员计算海量的场线并据此利用基于拉格朗日的距离度量计算成员的差异。 此外,因海量场线的数据规模巨大,我们改进了作业调度机制,使其能够在有限的内存下运行,平衡吞吐率和负载均衡之间的关系。 我们在山东济南超算中心进行了测试,取得了很好的可扩展性。

为了更好地度量集合模拟数据矢量场之间的距离,我们进一步提出了一种基于最长公共子序列的度量方法。 具体而言,我们首先采用eFLAA的并行计算框架对迹线进行追踪。其次,使用最长公共子序列对相同地理位置出发的来 自不同集合模拟成员的迹线进行距离度量,然后对计算得到的距离进行可视化以及评估。 此外,在度量距离的同时,我们的方法允许把所有序列保存下来,以备以后计算时复用。 该方法与现有的两类方法,即点对点方法(point-wise)和动态规整算法DTW(Dynamic Time Warping)相比, 对异常值、数据缺失、迹线的采样率更鲁棒;而且还可以很好地解决集合成员迹线不等长带来的问题。


传统的集合模拟数据可视化方法(包括上述方法)只是对集合模拟数据中的标量场或矢量场中所有格点上的数值进行逐个比较以及可视化。 这种方法一方面误差很大,无法直接反应集合模拟成员之间的实际情况。更重要的是,这些数值的直接比较并不是领域科学家(如气象学家)直接想要的结果。 相比之下,他们更关心一些导出特征(derived feature),例如,大气里的涡旋式气团,海洋洋流中的环流。 基于这些问题,我们首次提出了针对集合模拟矢量场的用户自定义特征的比较可视化方法,设计了自底向上的自定义手绘特征(如涡旋或气团)提取方法, 提高了三维矢量场中手绘特征的检测精度。 具体而言,我们首先只在一个集合成员(称为基准成员)进行搜索,该搜索使用用户自定义的二维手绘特征作为模板。 其次,在它作为新的三维模板,在其他集合成员中进行搜索,从而避免了搜索过程中三维到二维频繁降维操作。 结果表明,我们最终匹配到的导出特征的匹配精确度明显高于传统方法。 最后,我们还设计了多个视图来可视化这些高维、时变的导出特征。



高性能流场可视化

在集合模拟数据可视化和时变高维数据迹线分析等工作中,都需要在并行环境下通过大规模的粒子追踪来计算得到所需要的迹线。 在现有的并行粒子追踪方法中,数据往往很大,但粒子追踪时访问的数据往往 很小,而且传统的粗粒度的数据划分往往导致不必要的数据读取,不利于负载 均衡。实际上,粒子的追踪是存在一定的数据访问模式的。因此,我们对数据 进行“小块”的细粒度划分,并且使用基于并行键值存储的按需数据管理策略。 在并行粒子追踪的过程中,我们使用高性能的数据预取方法,有效平衡了I/O带 宽和数据访问请求之间的速度差距。实验证明在任意给定的资源限制下,我们 的方法能够提高数据分析的规模,节约I/O带宽和内存的使用,提高任务并行的 粒子追踪计算的可扩展性。

进一步地,我们在计算数据块的访问依赖关系时结合了粒子的数据访问历史信 息,使得对下一步可能访问的数据块的预测不仅与当前的数据块有关,还建立 在已访问的若干数据块序列上。这种高阶方法可以很大程度上提高预取数据的 使用率,相比于基于一阶访问依赖的方法可以获得更高的粒子追踪计算效率。

除此之外,我们还观察到粒子追踪所生成的积分曲线在许多流场可视化应用中会被重复计算,例如FTLE场计算和源汇查询等,导致出现不必要的资源消耗。为了大幅减小检索开销,特别是在资源有限的环境中,我们提出了一种基于压缩的的数据重用框架。在我们的设计中,我们提出了一种层次和混合压缩方案来平衡高压缩比,可控误差和低压缩成本。结果表明,与实时粒子追踪相比,我们的数据重用框架在资源有限的环境中可以获得数十倍的加速,并且可以控制信息丢失。 此外,我们的方法也可以为更复杂的数据(如非结构化网格数据)提供快速积分曲线检索。


所见即所得体可视化

体数据可以描述三维数据场信息,在地球数值模拟、医学CT成像等领域中非常 常见。体绘制可将复杂和庞大的体数据转化为直观的图像,进而使领域用户能 够理解和分析体数据中的内部特征。体绘制的核心方法是实现从数据值到视觉 特征(如颜色和不透明度等)的转化,即传递函数的设置,但是传递函数设置往 往很不直观,而且缺乏交互性。针对这些问题,我们提出一种了“所见即所得”的 体绘制,使用户可以利用类似于Photoshop中的各类笔刷工具直接编辑和改变体 可视化结果。例如,用户可以使用橡皮擦除体数据中的背景区域,再用对比度 、着色、亮度、边缘线、边缘模糊等笔刷工具直接对体数据中用户感兴趣的对象 高亮出来。进一步地,我们还提出了局部所见即所得技术,在传递函数中引入 了位置和拓扑信息,使用户可以在更细的粒度编辑,方便地制作具有插图风格 的体可视化结果。


并行分布式可视化系统设计

科学可视化是一门跨学科的研究和应用领域,它旨在帮助不同科学和工程领域的专家理解和分析数据, 可视化工具和系统这一过程中扮演关键角色。目前已有的可视化系统仍然存在一些问题,包括界面不直观,参数 设置复杂,开发新功能困难等问题。我们设计并实现了一套科学可视化系统,它不仅可以支持常见的数据类型和 可视化方法,还集成了最新的一些研究工作。分布式的软件架构也使得功能易于扩展。这一系统可以广泛应用于 气候、环境、地质、生物、医学等应用领域。


应用

地震可视化在石油天然气勘探中扮演者重要的作用。 通过人工引发地震产生的声波的回声来探测地层结构,对得到的体数据进行分析探索,从而在勘探过程中提供数据支持。 这类地震数据探索的难度在于对地层成分十分敏感、采样不连续且有噪音。 为此,我们针对这类数据的特点提出了一套分析系统,其中包含视觉敏感性驱动的传递函数设计组件、基于体数据分割算法的地层结构探索等专用功能。

针对生物医学体数据的切片的渲染,我们提出了一种新颖的体数据渲染技术,能增强渲染图像的对比度以及结构细节。我们的方法受干涉显微镜技术的启发。这种技术在生物科学、医学以及材料科学中已经成功应用了数十年。通过对干涉显微镜技术中光穿过标本时的干涉现象进行模拟,能增强体数据渲染结果的对比度,并产生易于领域科学家理解的图示效果。

在地震研究中,一个研究比较深入的假说是:大气层中离子浓度的变化与地震这类岩石圈活动有相关性。 领域专家希望找到从离子浓度的变化中寻找一些与地震活动相关的模式。 这个任务的挑战在于对模式的形式化存在难度,同时在海量数据中匹配所定义的模式也十分困难。 我们设计了一套交互系统用于支持领域专家的工作流程,能直接帮助专家从基本数据分析中提出并形式化变化模式,然后基于数据进行模式匹配,从而验证假说的合理性。