北京大学高维数据可视化


高维数据是一种十分常见的数据类型。其数据样本拥有多个属性,譬如包含多种指标的环境监测数据,包含多种信息的个人档案等等。但尽管常见,如何高效地分析这类数据,对分析人员来说依然是一个巨大的挑战。其中的关键在于,如何同时展示多个属性并挖掘它们之间的联系,这在数据拥有成百上千个维度时会变得尤为艰难。过去的数十年里,在可视化领域已经产生了大量优秀的技术,如散点图矩阵、平行坐标等,以帮助用户分析这类数据。但这些方法都还有很大的完善空间,而且研究和应用领域中也存在着尚未发掘的潜力与空缺。为此,我们在高维数据可视化方向开展了大量的研究,致力于改善已有技术、创造新的可视化方法,并推广高维可视化在不同领域的应用。下面列举了我们在这些方面所做的工作:


方法

子空间分析

在高维数据中,一部分数据称作一个子集,而一部分的维度称作一个子空间。很多数据特征如数据结构、维度相关性等,会在不同的子空间里呈现不同的面貌。然而,这些子空间的特征往往隐藏很深,无法通过全局的数据分析来发现。用户需要深入探索各个子空间来发掘其中隐含的信息。针对这一挑战,我们做了大量的研究工作,旨在帮助用户探索不同层次的子空间,并分析其中的数据特征。

交互式的可视化定制

可视化在数据分析中起着重要的作用。然而,创造数据可视化需要一定的编程技术,普通用户往往只能望而却步。这既阻碍了数据的分析进程,也不利于可视化方法的推广应用。为解决这一难题,我们设计了在线的交互式可视化定制工具。利用这些工具,用户无需任何编程实现,即可通过点击、拖拽等简单的交互手段、快速地构建数据的可视化。此外,用户还可以创造各种新颖的可视化形式,并与其它用户分享、交流。我们的工具已投入实际应用,并获得了用户的一致好评。

平行坐标

平行坐标是一种经典的高维数据可视化方法。它将多个维度的坐标轴并列摆放,并利用穿过各轴的折线来表示数据的取值。因其形式的紧凑性和表达的高效性,平行坐标被广泛应用在实际的数据分析中。然而,这种形式也存在各种缺陷,如容易产生视图遮挡、交互不方便等等。我们针对这些问题做了许多研究工作,从形式、交互、分析等多个角度对平行坐标作了不同程度的改进。


应用

时空数据

随着定位技术的发展,时空数据已经成为一种十分普遍的数据形式。这类数据记录了人、交通工具、乃至地壳版块的活动情况,反映着其中各式各样的行为模式。除了时空信息,数据中往往也记录了对象在多个变量上的取值,以帮助分析人员了解行为模式产生的原因。对于这些高维信息,我们将高维数据可视化方法引入到时空数据的可视分析中,并产生了许多优秀的应用案例。

科学数据

科学家在进行实验观测的时候,常常需要从多个方面收集实验对象的相关信息,以便后续的研究分析。科学数据中因而包含了大量的高维信息,需要利用有效的手段来处理。为此,我们将高维数据可视化方法与科学数据相结合,一方面提出了许多新颖的技术,另一方面也产生了很多优秀的应用案例。