草图的语义:时间序列可视查询系统的灵活性 (The Semantics of Sketch: Flexibility In Visual Query Systems For Time Series Data)

草图允许分析者指定复杂和自由的兴趣模式。可视化查询系统可以利用草图在大型数据集中找到这些感兴趣的模式。然而,草图是不明确的:同一张图可能代表大量潜在的查询。在这项工作中,我们调查了这些含糊之处,因为它们适用于可视查询系统的时间序列数据。我们定义了一类“不变量”——分析者在执行基于草图的查询时希望忽略的时间序列的属性。我们提出了一个众包的研究结果,表明这些不变量是人们如何评价草图和目标之间的匹配强度的关键组成部分。我们采用了一些时间序列匹配算法来支持草图中的不变量。最后,依赖于这些不变量,我们提出了一个基于Web部署的草图可视化查询系统原型。我们将原型应用于金融、数字人文和政治科学的数据。

分析大量时间序列的分析师不能同时检查每一个时间序列。他们常常使用查询系统来找到感兴趣的子集,这些子集可以被认为是一个相似的函数。它将输入信号与目标信号进行比较,生成表示匹配强度的值。但有时它们可能很复杂,需要分析领域以外的专业知识。在许多情况下,这些模式在特定查询语言中很难表达。许多分析师会使用可视化查询系统来克服这些问题,草图允许分析师指定复杂和自由的兴趣模式。可视化查询系统可以利用它在大型数据集中找到这些感兴趣的模式。

图片 3下面是可视化查询系统的过程:分析人员绘制一个有趣模式的示例,然后使用相似匹配算法,该模板与数据集匹配以突出感兴趣的子集,或者生成潜在有趣的时间序列的排序。

屏幕快照 2017-06-24 上午9.47.44

然而,草图是不明确的:同一幅图可能代表大量潜在的查询,在查询的构造和匹配方面缺乏灵活性。我们关心的东西在素描中并不总是可见的,同一个草图在不同的心理预期下产生匹配时,会生成不同的解释。因此,可视化查询系统必须为分析员提供动态调整变量的选项。

在这项工作中,作者引入了“不变量”的概念——分析师认为不相关的时间序列的属性。例如,如果分析师在画布的某个高度绘制了一个模式,但认为有效匹配是该模式出现的任何序列,无论目标序列中的高度如何,那么它们的查询与垂直位置无关。许多相似性函数处理大量的不变量,但这通常是以复杂性和数据集特定的调优为代价的。因此,为设计者提供一个适当的不变量列表是必要的。

下图展示了研究结果列出的8个不变量。对于每一个不变量,假设一个“尖峰”形查询(黑线),虚线表示的信号将被视为有效匹配。

  • 时间位置:允许时间偏移
  • 垂直位置:允许垂直偏移(值)
  • 振幅:值的任何标量倍数都被认为是相同的
  • 查询大小:统一的计时缩放被认为是相同的
  • 时间偏差:拉伸某些部分并收缩其他部分)
  • 符号:允许查询和它的倒数计算为匹配

图片 1

在考虑匹配时,趋势忽略了查询中的线性趋势。虽然这在数据空间中是有意义的,但对于那些可能具有与画布底部平行的预期基线的草图来说,纠正尤其重要。尽管存在离群值或高频值,但匹配允许噪声发生。

文章还考虑了两种特殊的不变量,它们对于选择匹配算法非常重要。例如,我们可能想要找到所有的系列,其中有一个逐渐上升,然后突然下降:我们不关心什么具体价值系列上升或下降,只是这两个视觉事件发生在彼此旁边。形状不变性与值不变查询相反。我们不关心系列的一般形状或模式,只是它的值接近我们指定的值。例如,我们希望找到一个查询值始终在50以上的查询。

我们提出了三种初始相似性度量算法,用户可能希望在时间序列中查询特定的数值。例如,我们可能不关心查询的视觉特性,而只关心查询与目标的数值相似性。我们采用MSE作为这类算法的范例。霍夫变换是计算机视觉中常用的形状检测算法。在许多情况下,用户可能希望定位特定事件,但不关心事件发生在何处或如何快速。动态时间规整(DTW)是一种确定偏差以对齐两个时间序列的既定算法。

屏幕快照 2017-06-24 上午9.48.32

基于草图的可视化查询原型的界面如图所示。系统的组成部分是:

  1. 滚动的 small multiples 视图列出了整个数据集。每个small multiple 根据相对匹配强度着色。用户可以对该视图进行排序,还可以跳转到底部,发现“反向匹配”。
  2. 结果窗格,显示查询的前 k 个匹配结果。
  3. 绘图界面。分析人员可以在这里勾画自己的查询,或者使用现有的时间序列作为草图的基础。分析人员将选择包含有趣模式的系列,仅将感兴趣区域隔离起来,查找具有类似模式的序列,或者使用整个系列作为查询来查找其他相关系列。
  4. 查询规范接口。大顶按钮允许用户执行查询、清除画布、在画布上绘制或擦除画布的部分。较低级别控制结果如何显示以及哪些不变量是活动的。

图片 2

总而言之,这篇工作开发了一个基于草图的可视化查询系统,它依赖于不变性的概念,以便修改匹配算法,从而限制分析人员行为的范围。在原型中实例化的技术的一般性质允许考虑来自不同领域的数据集。这个原型提供了成熟的复杂查询不需要特定的技术知识或显式查询语言。

评论关闭。