事件序列数据,如电子健康记录、一个人的学术记录或汽车服务记录,都是一段时间内发生的一系列事件。分析事件序列的集合可以揭示常见的或语义上重要的序列模式。例如,事件序列分析可能揭示了常用的治疗疾病的护理计划,教授的典型出版模式,以及导致维护良好的汽车的服务模式。然而,在视觉上探索大量事件序列或大量事件类型的序列是具有挑战性的。现有的方法侧重于通过统计分析来提取事件的明确匹配模式,以创建随时间变化的事件进程的阶段。然而,这些方法未能捕捉到相似但不完全相同的事件序列演化的潜在簇。在本文[1] 中,我们引入了一个新的可视化系统命名事件线程集群事件序列为基于张量分析线程和可视化的潜伏阶段分类和演化模式的交互的线程分组相似到特定时间集群。通过用户与专家的访谈,在三个不同应用领域的使用场景,我们证明了事件线程的有效性。
事件序列,如电子健康记录中发现的事件、人的学术行为或汽车服务记录,记录了一段时间内发生的有序事件。例如,电子健康记录包含时间戳的医疗事件序列(例如,诊断,实验室测试),都记录在一个特定的患者的临床过程。同样,获取员工职业行为的数据也可以包括一系列里程碑事件(例如,教育成就、晋升、业绩奖励),而汽车的服务记录可以包括日期和服务类型(例如换油和更换轮胎)。

图1. 时序数据的两个案例
由于事件序列数据的重要性和广泛的应用领域,研究者已经开发了丰富的分析和可视化技术,以帮助从这一形式的数据中获得见解。特别是,各种基于分析的方法都集中在大规模事件序列数据的总结摘要,或在事件序列集合中频繁出现的潜在“里程碑”阶段。它们产生高度概括的结果,可以突出有趣的高层结构,但往往无法显示重要的低级别事件细节(如原始、单个事件特征,有助于汇总摘要),这有助于对所发现的结构进行语义解释的关键任务。
与此相反,大部分事件序列可视化设计集中于精确地捕捉单个事件随时间顺序发生的细节。这导致了最近的方法,这些方法侧重于优先化或简化,以使这些方法扩展到许多现实任务所需的复杂性。然而,即使在这些情况下,事件序列的可视化路径与单个事件或子序列的低级别表示紧密相连,这使得在数据中难以发现或理解更高层次的结构。

图2. 现有的两大类研究方法
因此,现有的分析和用于时序事件数据的可视化技术的能力之间存在着差距。一个理想的视觉分析系统应该能够发现和交流潜在的高级结构复杂的事件序列数据集内,同时提供用户对低级别的事件和事件描述这些结构支持的结果的语义解释的子序列信息。

图3. 真实时序数据的复杂性
然而,设计这样一个系统是一个复杂的问题,因为以下的挑战:首先,在大量复杂的数据空间中,有大量不同的事件类型、不同次序、不同长度的序列的分析必须发生。它需要能够将大规模异构事件序列数据转换成统一的数据模型而不丢失详细信息的技术。第二,设计的方法来检测和代表高层潜伏结构(例如,一个特定的队列的整体临床路径)必须设计,包括足够的相关上下文,使低层次的语义解释这些结构的代表(例如,在每个提取的临床路径的详细事件)。这需要设计一种分析算法,该算法自动关联和关联分析结果(即高层结构)和用于在计算过程中生成它们的详细数据。第三,因为经常有很少的地面真实信息可用于验证结果,重要的是要创建方法,允许用户调整参数,以实验提取的结构的敏感性和他们的解释参数化的变化。
针对上述问题,我们引入了事件线程,一个全面的、综合的视觉分析系统,设计和开发了可视化总结大型和高维数据的事件序列。它允许交互式分析发现的内在潜在阶段的探索。该系统被设计用来支持一些事件序列分析任务,包括:聚类、模式发现和阶段分析。此外,该系统还提供了丰富的上下文可视化帮助解释和数据探索。在这个分析问题面板的主要方法中,系统基于一个离线过程中的张量分析将事件序列分组到具有代表性的线程中。在基于优化的布局算法和交互式在线聚类算法的基础上,将线程进一步划分为不同阶段(时间段)的潜在阶段类别。设计了一种新的可视化方法来表示这些线程及其随时间的协同进化,以及显示与用户的视觉选择协调的上下文信息的链接侧面视图。

图4. 张量建立和解析

图5. 数据转换和分析的流程图:(a)数据过滤,(b)序列比对,(c)事件折叠,(d)数据建模,(e)张量分解,和(f)潜在线程提取。
该事件线程系统中包含六个交互视图,包括(1)一个线程视图,(2)一个事件流视图,(3)一个实体列表视图,(4)一个事件列表视图,(5)一个线程列表视图和(6)总体概况。线程的聚类级别可以通过(a)集群滑块进行调整。用户可以选择通过(b)阶段滑块和(c)特定于域的事件类型来显示和隐藏阶段阶段。潜在阶段类别和线程的实体比例可以通过(d)添加背景来显示。事件描述可通过(G)工具提示信息。其他有用的分析技术也可用,包括(e)在时间线上进行缩放和(f)在特定阶段涂刷组件。

图6. 系统界面和视图
总之,本文提出了事件线程,技术设计,支持视觉总结和潜伏期分析大规模高维数据的事件序列。基于事件序列聚类的高层结构通过张量分解,事件线程集成了强大的布局算法,促进潜在的线程的比较以及潜在类别动态探索阶段。我们提出了一种新的线程可视化设计方法和丰富的交互方式,以全面地帮助用户进行数据挖掘和分析。我们通过真实世界事件序列数据对我们的系统进行了评估,并对来自保健领域的专家进行了采访。这些结果表明,我们的设计可以用来识别高度概括的事件序列数据中的语义有趣的模式,并促进潜在的阶段分析。然而,有几个关键的限制:阶段是建立在一个静态的,恒定的持续时间,可以改进,以适应许多现实世界的情况下,阶段可以在不同的长度,因为实体可能有不同的进展率。第二,当前所需的潜在序列模式的数量是手动定义的。我们打算探索自适应张量分解算法,以帮助自动确定该参数对于给定数据集的最优值。此外,我们还计划进行正式的实验性用户研究,以获得关于系统可用性的更有价值的见解。
参考文献:
[1] Guo S, Xu K, Zhao R, et al. EventThread: Visual Summarization and Stage Analysis of Event Sequence Data[J]. IEEE transactions on visualization and computer graphics, 2018, 24(1): 56-65.
评论关闭。