标签存档: 数据降维

流式多维数据可视化的增量降维方法(An Incremental Dimensionality Reduction Method for Visualizing Streaming Multidimensional Data)

降维方法常用于多维数据的分析和可视化。然而,由于(1)高计算复杂度,(2)无法在不同时间步的降维结果中保留用户的心理地图和(3)无法处理数据包含不同维数的情况这三个挑战,降维方法无法直接应用到流式多维数据中。本文[1]介绍了一种增量式降维方法来解决这些挑战,使得用户能够实时可视化和分析流式多维数据。

继续阅读 »

SIRIUS:交互式对称双向降维技术(SIRIUS: Dual, Symmetric, Interactive Dimension Reductions)

在经典的降维技术中,维度(attributes)一般被视作输入而数据(observations)作为输出,用户通过与数据投影进行交互来了解数据与维度之间的关联。但在许多分析场景中,两者地位平等、相互影响、密不可分。通过分析数据之间的关系,能够揭示维度的重要性与价值,反之亦然。例如在区分西瓜与梨子时,“尺寸”是十分重要的因素。又如在强调糖分与水分的相关性时,“西瓜”便比“糖葫芦”更有说服力。为了帮助用户进行数据与维度的双向关联性分析,这篇发表于IEEE VIS 2018的文章[1]提出了SIRIUS(Symmetric Interactive Representations In a Unified System):即同一系统下的交互性对称双向降维技术。

继续阅读 »

Gaussian Cubes: 在大规模多维数据的可视化探索中实时建模 (Gaussian Cubes: Real-Time Modeling for Visual Exploration of Large Multidimensional Datasets)

大规模数据的可视化探索中存在着两个互相矛盾的需求:表达能力和计算效率。近来提出的一些方法,比如Nanocubes和imMens,使得大数据集上的实时交互探索成为可能。然而,它们支持的分析种类有限,只能快速得到直方图和heatmaps等。为了改善这一情况,文章提出了Gaussian Cubes,可以对数据进行交互式地建模,包括线性最小二乘法,主成分分析等。

与基于data cubes的方法不同,在它们的基础上,除了预先计算数据子集的数量 (count),Gaussian Cubes还提前计算了数据子集的多元高斯分布,这使得它能够在一秒内对具有百万点的数据拟合数百个模型。

继续阅读 »

在可视分析中系统地结合降维投影与聚类方法(Towards a Systematic Combination of Dimension Reduction and Clustering in Visual Analytics)

在可视分析中系统地结合降维投影与聚类方法

在高维数据分析中,聚类(Clustering)与降维(Dimension Reduction)都是常用的机器学习方法。前者尝试对数据进行归纳分类,而后者则试图压缩维度并尽可能地保留分布信息。可视分析往往结合两者的优点,以帮助用户更好地挖掘数据隐含的信息。在具体应用中,我们应该如何挑选聚类和降维方法呢?两者的结合都有哪些因素需要考虑,又有哪几种不同的方案呢?这篇发表于IEEE VAST 2017的文章[1] 便系统地探讨了这些问题。

继续阅读 »

降维中的可视交互:一个结构化的文献分析 (Visual Interaction with Dimensionality Reduction: A Structured Literature Analysis)

降维是高维数据可视分析的一种重要的数据抽象技术。它将高维数据降解到低维空间,同时尽可能保留诸如异常点、聚类等特征。降维的方法林林总总,在可视分析中很难一步到位使用不需要任何适配的降维方法。常见的做法是通过交互的方式,将标准的降维方法适配到具体的应用场景中。目前在关于算法与可视交互如何融合方面,大多数工作是从高层次、抽象的角度来讨论其流程或模型[1][2]。本文[3]聚焦于降维这一特定方向,通过对文献进行半自动分析的方式,对降维中的可视交互进行结构化的文献调研。

继续阅读 »

AxiSketcher: 基于用户绘制的非线性数轴映射

Axis Sketcher用户界面

线性建模是一类典型的高维数据分析方法,它假设数据服从线性分布,并寻求拟合度最优的线性模型。然而在现实世界中,大多数数据分布都是非线性的,如对数分布、幂律分布,甚至是难以描述的高维流形分布。我们对事物的认知,往往也只能通过非线性模型来解释,但这些模型却通常难以获得,且需要借助大量的机器学习方法。那么,有没有可能通过简单交互,快速产生贴合用户认知的非线性模型呢?这篇InfoVis 2016的文章[1]给出了一种可行的思路。

继续阅读 »

SepMe: 2002种度量视觉元素分离程度的准则 (SepMe: 2002 New Visual Separation Measures)

在可视数据分析中,分析者需要用视觉观察数据,寻找有趣而未知的模式。在降维的投影的语境下,希望降低人的认知开销,让机器事先找到有趣的投影。为此,就需要量化定义投影的质量,在许多工作中都给出了各自的视觉效果度量(visual quality measure),这些度量都希望能够模仿人类知觉的准则。

本文只考虑到二维散点图的投影,在二维散点图的视觉效果度量的相关工作中,一般来说,这些视觉效果度量,或者说可分性度量,希望散点图中不同类的中心距离比较大,或者希望在不同范围中根据类标签计算出的熵比较小。不失一般性,本文只讨论数据的类别标签只有两种的情况。

继续阅读 »

将每个时间步的图降维为点:动态网络可视化探索分析方法 (Reducing Snapshots to Points: A Visual Analytics Approach to Dynamic Network Exploration )

目前,动态图可视分析方法主要分为small multiples和animation两大类。Small multiples方法,将时间映射到空间上,用户需要同时观察若干个snapshot,相互比较来获取差异。由于屏幕空间有限,当时间步很多时,很难同时展示出所有时刻的网络,且用户难以分析获取动态网络的变化模式。Animation方法,将时间映射到时间维度,用户在每个时刻只能观察到一个时间步的网络,需要去记忆,理解时间步之间网络的变化情况,进而理解动态图的变化模式。

本文提出一种新颖的方法,来分析动态图的变化模式。他们将每个时间步的网络转换成高维向量,将这些高维向量投影到二维平面,用点表示。如图1所示,投影后得到的布局中,每个点表示一个时间步的snapshot, 每条边连接了两个相邻时刻的顶点。这个方法可以有效地帮助用户探索分析动态图的稳定状态、重现状态、异常状态以及状态与状态之间的转移过程。
继续阅读 »

解释器:结合定制化降维投影的数据探索 (Explainers: Expert Explorations with Crafted Projections)

数据的降维是高维数据可视化的重要一环,它使得抽象不可感的高维数据结构能在低维空间里部分地展现出来。现有诸多降维方法如PCA、MDS等都是基于数据统计属性的最优化得到的,它们能最大限度地减少降维过程中的信息损失,却无法提供关于降维结果的清晰的语义信息,增加了数据的解读难度。相对地,用户可能掌握着丰富的背景知识,或是了解数据的语义内涵,但这些都未被传统的降维方法所考虑,从而降维结果可能和用户的认知相去甚远,降低了降维方法的实用性。总而言之,现有的数据降维方法存在着语义性差、脱离用户背景的问题,这在数据建模、理论构造、解释论证等各方面给数据的分析和应用带来了困难。

继续阅读 »

选择散点图及降维技术的经验式指引 (Empirical Guidance on Scatterplot and Dimension Reduction Technique Choices)

在可视化高维数据的时候,我们常常需要先对数据进行降维,然后将降维后的数据以散点图的形式展现出来。在这个过程中,我们既需要选择合适的降维技术(Dimension Reduction Technique, DR),也需要选择合适的可视展现方式(Visual Encoding, VE),才能较好地通过降维数据来展现原高维数据的结构和特征。哥伦比亚大学的Michael Sedlmair等人[1]开展了一次相关的数据研究,探寻了三种散点图形式对不同降维数据的可视化效果,并基于研究的结果给出了如何选择散点图来表现降维数据的经验式指引。

继续阅读 »