比较时间序列可视化中的相似感知(Comparing Similarity Perception in Time Series Visualizations)

使用时间序列数据的许多领域专家面临的共同挑战是如何识别和比较类似模式。该操作是很多研究任务的基础,例如检测重复现象或创建类似时间序列的簇。虽然存在用于计算时间序列相似性的自动测量算法,但是通常需要人工干预来视觉检查这些自动生成的结果。可视化文献已经检查了相似性感知及其与折线图的自动相似性度量的关系,但尚未考虑替代可视化表示(例如地平线图和色域)是否会改变这种感知。受神经科学家如何评估癫痫样式模式的启发,本文[1]进行了两项实验,研究这三种可视化技术如何影响EEG信号中的相似性感知。我们试图了解自动相似性度量返回的时间序列结果是否以类似的方式被感知,而与可视化技术无关;如果人们认为与每个可视化相似的东西与不同的自动测量及其相似性约束一致。我们的研究结果表明,水平图与相似性度量对齐,这些度量允许比其他两种技术更多的时间位置或速度的局部变化(即,动态时间扭曲)。另一方面,水平图不与对幅度和y偏移缩放不敏感的度量(即,基于z归一化的度量)对齐,但是线性图和色域的情况似乎是逆的。总的来说,我们的工作表明,可视化的选择会影响我们认为相似的时间模式,即时间序列中的相似性概念不是独立于可视化的。

时间序列是数据点的时间序列,源自一系列自然过程或人类活动的测量和记录。一个城市的每小时温度,一个人每天的血氧饱和度和脑电图(EEG)信号都是时间序列数据的例子。大型时间序列集合变得越来越普遍,它们的分析涉及各种各样的任务,例如搜索模式模板或异常,识别重复出现的波形,或将时间序列子序列分类为类似模式的集群,所有这些都涉及时间序列之间的相似性概念。数据挖掘研究已经开发出各种技术来自动化这些任务。然而,在许多情况下,自动化技术无法产生令人满意的结果,因此专家依靠可视化分析工具来执行任务。例如,在脑电图数据中,比较时间序列以识别癫痫样放电是困难的。这些时间模式采用各种不同形式,这些形式对于个体患者非常特异,而在正常背景活动中出现非常相似的模式。虽然有几种技术声称可以自动检测这种模式,但医学专家仍然可以直观地检查患者的EEG数据。该过程特别耗时,因为专家需要可视地扫描从多个EEG传感器记录的大量时间信号,找到并比较这些模式。

在这种情况下,使用可视化技术可以准确有效地在时间序列之间传递相似的模式变得非常重要。时间序列通常表示为折线图,但信息可视化中的大量工作已经检查了替代的可视编码,例如地平线图和色域。该文献集中于需要估计的基本视觉任务,例如平均值的估计,或点比较和辨别任务。视觉模式匹配是一项更复杂的任务,需要同时比较大量特征,并且可能包含许多前面提到的任务。因此,之前的结果很少说明人们在使用不同的时间序列可视化时如何访问两个或更多时间序列的相似性。

在本文[1]中,我们将研究线性和颜色编码技术如何影响我们认为相似的时间序列。具体来说,我们提出两个实验室实验的结果,比较三种代表性技术:(1)折线图,(2)地平线图和(3)色域。除了任务执行外,我们还评估参与者答案的可靠性(或主观性),并检查上述技术是否会惩罚或支持某些应用领域经常需要的相似性不变性。例如,两种模式可以被认为是相似的,不管它们的幅度(幅度不变性)或它们沿时间维度的延伸(时间尺度不变性)。我们想要了解三种可视化是否夸大或强调了这种变形。为此,我们评估时间序列之间相似性的感知,相对于众所周知的对时间序列的某些属性不变的代表性相似距离度量。我们的第一个实验通过对比相似感知与欧氏距离(ED)和动态时间扭曲(DTW)来研究局部尺度不变性。我们的第二个实验反过来通过对比具有和不具有z标准化的相似性感知来研究幅度和偏移不变性。
与先前使用人类草图或人工生成的查询模式的研究相反,我们实验中的查询是从带注释的EEG数据中提取的,并表达了真实的感兴趣模式。一个主要的挑战是如何推导出代表真实数据和任务的模式,同时也突出了测试的相似性度量的差异。我们通过选择不同距离相似性度量产生明显不同答案的查询模式来解决这一挑战。这使我们能够评估每种视觉编码技术的相似性感知是否对于翘曲以及信号中的幅度和偏移变形是不变的。
总而言之,这项工作是第一个研究人类如何通过线性和颜色编码可视化技术感知时间序列之间的相似性。我们的结果回答了两个主要问题:(1)使用不同的可视化技术在视觉上识别相似模式是多么容易或困难; (2)这些技术的相似性感知对代表性信号变形是否不变。如图1所示,通过比较三个时间序列可视化,来了解我们是否以不同方式感知相似度(左图为line chart,中间为Horizon Graph,右图为Colorfield)。 此示例显示了一个查询以及参与者必须从三个可视化中的每一个中选择的四个可能答案之一。 这里的答案来自自动相似性搜索算法(DTW)。

图1

本文使用的数据来自神经学科的脑电波数据。神经科学家使用Muse工具来对放置在患者身上的295个电极和传感器的测量结果进行可视化,如图2所示。 在这里,神经科学家将他们的观点限制在一组记录试验(10次尝试)中的6组传感器(总共30组)。 紫色线表示神经科学家在不同传感器上检测到的癫痫样放电的手动注释。 特定放电以绿色椭圆形突出显示,仅用于说明目的(这些高光不是工具的一部分)。 底部的滚动条指示系列当前可见的时间范围,并且增加了指示手动注释存在的位置(小的彩色线段)。

图2

图3展示了我们使用的算法如何执行匹配相似性的概述:(a)欧几里德距离计算两个相等长度的时间序列的所有对应点之间的L2距离。 (b)DTW允许两个时间序列之间的点匹配,即使这些点在时间轴上没有对齐。 (c-d)Z-归一化将时间序列转换为具有零均值和标准差(std)1的相同长度的新系列。 它实现了与y偏移和幅度缩放无关的相似性搜索。

图3

Horizon Graph条件下的实验屏幕如图4所示。 答案顺序和水平移位在可视化中随机化。 从顶部开始,该系列包括:Query,Out-ED,Top-ED,Top-DTW,Out-DTW。

图4

图5展示了区间估计使用三种可视化技术比较(a)Top-ED与Top-DTW答案(Exp-1)和(b)Top-NormED与Top-ED答案(Exp-2)的平均比率。 误差线表示95%CI。 对于平均比率差异,我们还显示(红色)CIs,调整为与Bonferroni校正的三个成对比较。 虚线垂直线表示参考值。

图5

两个不同可视化导致不同选择的查询结果如图6所示。 框显示选择特定答案的参与者数量(12个)。 左:此示例显示Colorfields可能比Line Charts和Horizon Graph更灵敏,可以沿时间轴拉伸变形。 右图:在线图和色域下强烈偏好Top-NormED,在Horizon Graphs下强烈偏爱Top-ED。 总的来说,Horizon Graphs似乎夸大了平面信号,并且对沿y轴的变形更敏感。

图6

综上所示,我们提出了两个实验室实验,比较三个视觉(折线图,色域和地平线图)如何影响我们在时间序列中感知相似性的方式。具体而言,我们研究了通过自动相似性测量检测到的数据中的一些变形是否根据可视化以不同的方式被感知。我们的研究结果表明,所有三种可视化都有利于算法测量的相似性结果,这些算法测量允许时间位置或速度的局部变形的灵活性(即,动态时间扭曲)。这种情况最值得注意的是地平线图。另一方面,这种可视化不会促进对y偏移移位和幅度重新缩放(即,z-归一化)不变的算法的结果。我们的工作证明了时间序列相似性的概念是依赖于可视化的,并且在选择可视化表示时,我们应该考虑底层数据域认为相似的变形。这应与每个域中使用的相似性度量一致。未来,我们计划研究如何选择适当的可视化来传达相似性可以影响领域专家之间相似之处,如果这增加了对相似性搜索算法结果的信任。

参考文献:

[1] Gogolou, A., Tsandilas, T., Palpanas, T., & Bezerianos, A. (2019). Comparing similarity perception in time series visualizations. IEEE transactions on visualization and computer graphics25(1), 523-533.

评论关闭。