作者存档: Jiang Zhang

使用信息论故事版选择大规模时变体数据集中的关键时间步 (Key Time Steps Selection for Large-Scale Time-Varying Volume Datasets Using an Information-Theoretic Storyboard)

在科学可视化中,随着数据规模的不断增大,时变数据往往包含了大量的时间步。由于内存和I/O带宽的限制,对所有这些时间步进行可视化经常比较困难。实际上,这些数据在连续的时间步的变化很可能非常小,其包含的信息也并不重要。解决这一问题的一个可能的方法是从中选取具有最显著特征的几个关键时间步进行可视化。但是,数据中重要特征的随时间的变化可能包含复杂的模式,并且会以未知的频率发生。如何选择关键时间步也成为了一个挑战。因此,今年EuroVis的一篇文章[1]提出了一种新颖的方法,可以使用动态规划来提取出数据中的关键的时间步。

继续阅读 »

TREESCOPE: 针对Fat-tree网络的通信拥堵交互式研究 (Interactive Investigation of Traffic Congestion on Fat-Tree Networks Using TREESCOPE)

近年来,在超级计算机上进行的高性能计算受到了广泛的关注和应用。超级计算机包含成百上千的计算结点,这些计算结点通过一些遵循某些拓扑结构的网络相连。但是,在高性能计算平台上开展的大规模应用时,一个主要的瓶颈是与结点互连网络相关的性能下降。造成这一瓶颈往往是由于不当的网络路由方案或者任务在结点上的布置策略导致的。因此,找出并诊断网络问题变得非常关键。为了研究网络中的通信拥堵,来自于EuroVis 2018的一篇文章[1]设计了一种基于Web的交互可视化工具,称为TreeScope,使用基于矩阵的图编码方式来探索网络通信流量并研究任务布置和路由方案的影响。

继续阅读 »

并行粒子追踪中基于数据重划分的动态负载平衡方法 (Dynamic Data Repartitioning for Load-Balanced Parallel Particle Tracing)

在流场可视化中,粒子追踪是一种非常基础的技术。通过在流场区域追踪大规模的粒子,研究者可以进行各种各样的流场应用,例如生成流线和迹线去分析复杂流场内部结构等。但是,在应用粒子追踪时,我们往往需要处理大规模数据,其计算代价也非常高,因而需要更具可扩展性的并行算法。目前,最常见的并行粒子追踪算法是数据并行,如图1所示,即在初始时将数据划分为数据块并将这些块分配给不同的进程,之后的粒子追踪过程中,粒子在每个数据块中进行追踪计算并在数据块间进行交换,直至所有粒子追踪完成(即达到最大追踪步数,或者提前穿出了流场边界)。但是,这些数据块的负载很可能会非常不均衡。例如,某些数据块中可能存在漩涡等流场特征,导致附近的粒子会“陷入”其中。尽管存在一些静态负载平衡方法,试图在初始化阶段就将数据块进行负载均衡的划分和分配,但它们都需要进行比较复杂的预处理。因此,我们提出了一种基于数据重划分的动态负载平衡方法,使用一般的初始数据划分和分配策略,在运行时周期性地对数据块负载进行评估并据此进行重划分,从而重新平衡每个进程的负载。相关工作[1]已被IEEE PacificVis 2018接收,并在近日由实验室张江同学在IEEE PacificVis 2018会议上进行了报告。

继续阅读 »

基于图像和分布的大规模数据体绘制 (Image and Distribution Based Volume Rendering for Large Data Sets)

随着高性能计算技术的发展,领域科学家可以使用超级计算机对一些物理现象进行建模,并进行高分辨率的模拟。通过对模拟输出结果进行可视化和分析,科学家可以对这些物理现象有更深入的理解。但是,由于数据规模的不断增大,网络和存储设备的有限带宽和容量成为了一个重要的瓶颈。针对这一问题,研究者提出了原位数据可视化和分析的方法。这种方法使用相同的超级计算机资源,可以在不用移动原始数据的情况下生成紧凑型的数据代理(proxy)。之后,用户只需要对这些数据代理在后处理机器上进行分析。这里面,一类有效的方法是基于图像的方法。通过预先选择几个有意义的视角,其可以从原始数据中生成图像用于后处理分析。然而,这些方法在使用传递函数发现和分析被遮挡特征真一方面的能力非常有限,并且产生的基于图像的代理也会造成不可避免的信息损失,加大了对数据进一步分析的复杂度。为了解决这个问题,今年PacificVis会议上的一篇文章[1]提出了一种基于图像和分布的大规模数据表示方法,将原始数据存储为基于图像的数据代理,可以在资源有限的后处理机器上进行传递函数探索,并对其中引入的误差进行量化和可视化。

继续阅读 »

用于在大规模并行应用程序中优化通信的可视分析系统 (A Visual Analytics System for Optimizing Communications in Massively Parallel Applications)

近年来,超级计算机被广泛应用于诸如气候和分子动力学模拟等大规模并行应用程序中。这些超级计算机往往包含大规模的计算结点,结点之间通过复杂的通信网络连接,例如5D torus或者dragonfly等。应用程序的计算任务被分配到各个计算结点,并且由这些结点协作完成。在这个过程中,结点之间的通信是非常关键的,在很大程度上影响着并行程序的可扩展性和并行效率。因此, 如何识别通信瓶颈并且对通信进行优化变得非常重要。造成通信瓶颈的原因有很多,例如通信路由比较长,通信网络上收发的信息量比较大等。研究者需要能够了解通信路由,减少通信网络拥堵。今年VAST会议上有一篇文章提出了一个可视分析系统,使用可视化方法对通信行为进行分析[1]。

继续阅读 »

对基于聚类的集合天气预报分析的鲁棒性可视化 (Visualizing Confidence in Cluster-based Ensemble Weather Forecast Analyses)

图1 可视分析流程图,包含多个部分,主要是鲁棒性可视化

在天气预报领域,其数据往往包含多个在不同模型或者模型初始条件下生成的成员,这些成员组成了一个集合。在这些集合数据中,气象学家经常需要确定某个区域内成员的主要走势,从而可以进行气象预测。随后的一些分析也建立在这些发现上。为了确定这种主要走势,人们通常使用聚类分析,在某些特定的区域将集合数据中类似的成员进行聚类。但是,集合聚类也存在着一些挑战。聚类结果高度依赖于某些参数,例如所选区域和聚类个数等,其往往对这些参数非常敏感。因此,我们能够多大程度信任聚类结果,这些聚类结果的在参数有小的改变时鲁棒性如何,这些都是需要解决的问题。针对这些问题,今年VAST的一篇文章[1],提出了一种可视分析的流程,使用一系列多个层面上的可视化来分析聚类结果在所选区域变动下的鲁棒性。

继续阅读 »

并行粒子追踪中使用基于带有约束的k-d树分解的动态负载平衡方法 (Dynamic Load Balancing Based on Constrained K-D Tree Decomposition for Parallel Particle Tracing)

粒子追踪是流场可视化中的一种非常基础的技术。很多应用,从最基本的流线,迹线的计算,到源汇分析和FTLE(有限时间李雅普诺夫指数)的计算,都需要追踪大量的粒子。粒子追踪本身计算量大,加之流场数据的规模往往也比较大,我们需要对其并行化处理。但是,无论是数据并行(对数据进行静态划分和分配)还是任务并行(对粒子进行静态分配),由于很难确保每个进程分配到均等的工作负载,并行粒子追踪往往存在着严重的负载不均问题。究其本质,造成这一问题的原因是在追踪过程中粒子的分布随时间变化,并且很可能分布非常不均。以图1(a)为例,粒子在追踪过程中的分布变化非常大,甚至在一段时间后有些进程(或数据)没有粒子。

继续阅读 »

针对大规模应用的欧拉-拉格朗日组合数据表示方法 (A Combined Eulerian-Lagrangian Data Representation for Large-scale Applications)

在科学应用中,模拟的数据输出形式主要有两种。一种是欧拉表示,也就是通常说的体数据,在固定的格点上记录数据信息,不过对于格点之间的区域往往需要插值。另一种是拉格朗日表示,即粒子数据,记录了离散粒子在数据场内的运动,其缺点是在一些感兴趣的区域可能没有粒子出现。在传统方法里,这两种数据表示形式在不同的分析任务中往往是独立存储和访问的。 为了提高计算效率,我们需要一种将两者进行结合的高效的组合表示形式。这篇文章[1]针对这一问题提出了一种欧拉-拉格朗日联合表示方法,可以对两种形式的原始模拟输出数据同时进行重组织,提高了数据载入和一些基本数据操作的效率。

继续阅读 »

具有时空误差控制的交互式渐进可视化 (Interactive Progressive Visualization with Space-Time Error Control)

在体可视化中,光线追踪算法是一种常用的算法。不过,由于对每条光线而言都需要进行大量的采样,其计算代价是非常大的。这时候往往可以使用渐进可视化的方法,即一边展示一些早期近似计算得到的绘制结果,一边持续对该结果进行优化精炼。但是,图片往往需要一个比较长的绘制时间才能达到高的质量(即空间误差随时间不断减小),而当视角和传递函数改变时,比较长的响应时间会延迟图片图片帧的替换(即时间误差越来越大)。因此,这里面需要做适当的权衡。传统的方法使用静态的采样率和帧率,但是如何选择一个好的静态设置并在交互式可视化中得到保持是非常困难的。2014年SciVis的这篇文章[1]提出的一种基于空间和时间误差估计的动态自适应帧控制的方法,很好地解决了这个问题。如图1所示示例,该方法在静态的采样率和帧率之间做到了很好的平衡。

继续阅读 »

虚拟牵开器:使用基于物理变形的交互式数据探索系统 (Virtual Retractor: An Interactive Data Exploration System Using Physically Based Deformation)

在三维数据的探索中,视觉遮挡往往是一个比较严重的问题。数据内部重要的信息会被表面的元素遮挡住,影响了人们对这类数据的探索和认知。尽管可以有一些手段来处理遮挡,但是在这一过程中如何尽力保留所探索目标附近的上下文信息(例如一些辅助性的关键特征)也非常重要。这些都给三维数据的探索带来了比较大的挑战。实际上与之相类似的是,在我们的日常生活中,我们经常会通过直接打开的方式检查一个物品的内部情况,例如,通过拉动拉链打开一个手提包就可以看到里面的东西。在医学上,医生们做手术时经常会用到医疗牵开器,将切开的患处表面组织牵开,从而显露出需要手术的范围。受这一思想的启发,今年的PacificVis会议上就有一篇文章[1],使用一种虚拟牵开器的方法,通过物理变形将三维数据从表面“切开”,让用户可以对数据内部的信息进行探索。

继续阅读 »