SMARTexplore: 通过基于表格的可视分析方法简化高维数据分析(SMARTexplore: Simplifying High-Dimensional Data Analysis through a Table-Based Visual Analytics Approach)

高维数据通常以表格形式提供,可视化高维数据通常会将它转换为抽象表示。常见的高维数据可视化方法有散点图矩阵,平行坐标,线性和非线性投影。虽然这些方法对于高维数据的分析是有效的,但是它们与记录和维度的交互却不够直观。分析人员需要心理的努力来将原始格式的记录,维度和值与可视化中的表示相互关联,反之亦然。因此,非可视化专家通常需要培训才能掌握这些可视化方法,而且这种抽象表示也会影响他们对所揭示模式的信任。因此,本文[1]提出了可视分析系统SMARTexplore,希望通过熟悉的基于表格的可视化分析方法,简化高维数据中相关性、聚类、异常值以及其他模式的识别和理解。

图1:可视分析系统SMARTexplore

作者据此列举出了13个要求,这些要求可以被进一步划分成5类:

  1. 一般性系统要求。系统应支持发现和理解数据和特征空间中的基本模式,例如,记录聚类,维度聚类,线性和非线性相关性以及异常值;为了支持在多个维度中发现模式,它应该能够在单个视图中分析数值,类别和二进制维度;交互应该顺畅地进行。
  2. 数据记录和维度级别的可伸缩性。用户能够将一组记录划分到一个聚类里,以反映其相似性并降低数据的复杂性;系统需要适当地聚合聚类内的数据记录以实现组比较;应该对可聚合的值和分布进行视觉编码,以便用户评估其相似性并发现关联;系统应该支持用户查找具有语义意义的子空间,从而揭示维度和模式关系。
  3. 记录和维度级别的比较分析。系统应当支持记录和维度间的比较。
  4. 数据处理和转换。用户应该能够直观地与数据记录,维度和子空间进行交互,以便于记录和维度比较。记录组上的操作主要包括选中高亮、过滤移除、手动或自动重排序、合并记录组以及递归地在聚类内分组以扩展记录组等;维度上的操作主要包括选中高亮、过滤移除、手动或自动重排序、加入新的子空间以及在子空间中复制或移动维度。
  5. 可靠性。用户需要评估结果的可靠性,特别是评估缺失数据和统计(非)显著模式;系统应支持存储中间分析结果及其相关可视化,包括所有应用的操作。

针对以上要求,作者提出了SMARTexplore的基本可视化表达SMARTable。在SMARTable中,数据记录可以聚合为记录组,维度可以聚合为有意义的子空间。用户可以在直方图的帮助下比较记录组的大小。每个记录组中的值聚合为其分布或(统计)度量,如均值或方差,每个维度中的值分布可视化为维度顶部的分布图。

图2:SMARTable

描述符定义为记录组的聚合值,它随维度类型而变化。对于数值维度,系统支持计算平均值,中值,最小值,最大值等统计量。对于二进制维度,系统计算平均值,该值对应于值为true的记录的百分比。对于分类维度,描述符是各个类的分布。SMARTexplore的目标是可视化所有维度,与其类型无关。因此,要求混合维度的聚合值也可以由描述符表示。这种描述符被命名为偏差描述符,它测量记录组的描述符与整个维度的描述符之间的偏差。

SMARTexplore按颜色对计算的描述符进行编码。系统提供了线性和双极两种颜色映射。线性色图使用户能够直接比较两个描述符,而双极色图在发现高值和低值描述符时更具优势。描述符值分布的归一化有两种策略。一个是,描述符按维度归一化。该策略支持用户轻松识别高,中或低值,但牺牲描述符跨维度的可比性。另一个是,描述符跨维度进行归一化,以便用户可以直接比较它们。此策略只有在子空间中所有维度都具有语义连接并且具有相同的尺度时才有意义。

图3:描述符不同的颜色编码和归一化方式

在许多场景中,用户对聚合值的详细信息感兴趣。为了支持此分析任务,SMARTexplore实现了堆叠聚合。通过它,每个记录组可以进一步被划分到第二个层级。第一聚合级别的描述符由左侧的直立矩形表示,堆叠聚合的描述符由右侧的较小方块表示。

图4:堆叠聚合以实现更细粒度的聚合

数据和特征空间的基本模式主要包括三种,分别是相关性、聚类以及异常值。模式也可以通过它是单个维度中存在的模式还是跨多个维度的模式进行分类。维度内是指基于当前记录分组的单个维度内的模式。例如,我们在图5(左)中看到了维度B上的三种模式。跨维度的模式允许跨多个维度——通常是子空间的所有维度——关联和比较描述符。例如,我们可以看到维度B到K上不同记录组的三种模式。

图5:三种基本模式

相关性可以分为两类。一个维度内维度和记录组之间的相关性突出显示为颜色渐变。假设聚合行按升序排列,图5 (a)显示具有正、负和非线性相关性的维度。具有相似相关性的维度组(例如维度C、D和E)可以进一步聚合成子空间以促进它们的可解释性。跨维度的相关性与聚合行的排序无关,但是它们需要在维度之间进行排序,如表示时间序列值的维度。

SMARTexplore可以分析三种类型的聚类。首先,视觉上相似的维度可以聚集到子空间中。例如,在图5 (c)中,可以把维度C、D和E聚合到一起。其次,具有相似描述符的数据记录或记录组可以被视为聚类。例如,图5 (c)的维度B中,前两个和后三个记录组之间具有相同的值分布。最后,图5 (d)描绘了由子空间所有维度形成的三个记录组聚类。

异常值可以分为两类。图5 (e)描述了一个维度内的异常值(维度B中第三个记录组)。图5 (f)显示了跨维度的异常值。要找到此模式,需要对描述符进行跨维度归一化。在此示例中,维度J中记录组的子集和维度K的所有记录组可以被视为异常值。

如果基本描述符和堆叠描述符不相似(视觉上具有不同的颜色),那么存在于堆叠聚合中的模式将会被用户感知。

图6:堆叠聚合中的三种模式

描述符表示一个聚合值中的数据分布。但是,通常应考虑整个分布以获得有效的模式解释。用户可以在每个可视化描述符的顶部添加分布覆盖。核密度估计曲线用于数值维度,直方图用于分类和二进制维度。此外,用户可以使用直方图来代替核密度曲线,对于分类维度,也可以将直方图更改为字形表示。用户通常有兴趣查看一个记录组和/或一个维度分布的详细信息。为此,SMARTexplore实现了单个单元的提示框和整个行/列的Table Lens[2]。

系统实现了两种策略来实现子空间中维度的自动排序。第一种方法按维度的平均描述符对所有维度进行排序。当描述符进行跨维度归一化,它很有用。第二种策略通过视觉相似性对维度进行排序。它首先计算子空间内所有成对维度的距离矩阵,然后通过计算距离矩阵的1D MDS得到子空间中维度的布局。对于堆叠分组,用户可以选择哪部分会影响布局:基本度量、堆叠度量或是两者的组合。

用户无法仅仅通过颜色映射来量化最小值和最大值之间的差异。因此,系统应自动计算各种统计检验,以评估差异是否具有统计学显著性。对于每个描述符,应使用统计检验来确定它是否与总体维度显著不同。维度的显著性将对描述符显著性的理解推广到整个维度,但它无法指出维度中每个描述符的显著性。描述符的显著性可以通过叠加来可视化。用户可以选择使用一个点来表示显著描述符,或使用用完整大小表示显著描述符,用较小尺寸表示非显著描述符的字形来描述。要显示维度的显著性,用户可以在每个维度下方使用红色或绿色图标。此外,用户还可以选择使用自适应色图来表示它——显著维度使用全范围的颜色,非显著维度仅使用色图的中间部分类表示。SMARTexplore支持不同形式的视觉叠加,以显示缺失值的数量。例如,字形覆盖在描述符的上方添加灰色层以降低其表现力;纹理覆盖将随机噪声覆盖在描述符的上方。

图7:编码描述符和维度显著性

图8:编码缺失值数量的两种不同叠加形式

在系统评估阶段,作者邀请了六位参与者,其中两位是熟悉使用的数据集和该系统的专家。但是,他们在此系统之前没有使用过其他可视分析工具。此外,还有两名数据专家,他们熟悉数据集但没有可视分析经验;两名可视分析专家,他们是具有一到三年可视分析经验但之前没有接触过该数据集的博士生。我们通过两个一般性标准来评估SMARTexplore:第一,它在完成模式分析任务时的可用性和可理解性;第二,它对不同数据集和领域的普适性。对于有效性评估,作者从两位专家那里产生了“基本事实”,之后通过其余两个用户组在不同的专业水平上进行可用性研究;对于普适性评估,作者让两位可视分析专家利用该系统分析另一个数据集。

根据他们在研究期间的反馈,作者总结了以下经验教训。首先,尽管专家和数据专家都没有可视分析经验,他们能够在短期培训后有效地使用该系统;其次,大多数参与者认可系统的自动化模块,比如他们能够通过自动排序发现有趣的模式;最后,可视分析专家建议系统可以提供将数据某子集转换为其他可视化方法的支持。

总体来说,此论文提供了设计基于表格的模式驱动下高维数据可视分析系统的完整要求。论文还提出了一种基于表格的可视分析技术SMARTexplore。它将自动分析与交互式探索相结合,能够有效地帮助用户查找和了解相关性、聚类、异常值和其他一些模式。此外,自动的可靠性分析有助于建立用户对结果的信任。

[1] Michael Blumenschein, Michael Behrisch, Stefanie Schmid, and et al. SMARTexplore: Simplifying High-Dimensional Data Analysis through a Table-Based Visual Analytics Approach. IEEE Conference on Visual Analytics Science and Technology (VAST), 2018.

[2] Rao, Ramana, and Stuart K. Card. The table lens: merging graphical and symbolic representations in an interactive focus+ context visualization for tabular information. Proceedings of the SIGCHI conference on Human factors in computing systems. ACM, 1994.

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>