基于规则,聚类以及选择的多变量事件序列的探索(Exploring Multivariate Event Sequences using Rules, Aggregations, and Selections)

事件序列类型的数据在现实生活中广泛存在,比如通信过程中传递的数据包,医院中病人的看病流程,商场中用户的购买记录等等。在通常情况下,对于事件序列进行分析用到的属性非常有限,包括时间属性以及事件类型,然而对于某些数据分析任务,必须要结合对于事件对象的多变量分析。本文所针对的问题即为多变量的事件序列数据的探索[1], 将正则表达式扩展到事件序列的基础上,提出基于规则,聚类以及选择的多变量事件序列的探索流程,并且在此基础上开发了多变量事件序列的可视分析系统,本文通过对于通话数据以及病人看病流程数据的探索验证了系统的有效性。

结合事件序列的多变量属性分析是非常必要的分析角度,比如用户的通讯数据,对于如下图所示的通信行为进行分析,用户发送数据包,接受数据包,打开数据包是正常的用户行为序列,然而如果用户在分析过程中考虑数据包的内部异常属性,即可以发现所传递的数据是存在风险的,因此如下图所示的事件序列应该被定义为异常事件。对于事件序列中存在更多变量的数据,则对于该类型的事件序列的异常检测是非常困难的一个问题。本文首先分析了在多变量事件序列分析过程中所存在的挑战并且提出数据分析的目标主要包括以下三点:

  1. 支持用户检查感兴趣部分的事件序列的事件顺序以及事件序列中每一个事件的多变量属性。
  2. 帮助用户定义并且发现感兴趣的时间序列。
  3. 提供用户所有事件的整体概览视图,帮助用户检测事件中存在的异常。

用户通讯行为

为了帮助用户完成上述的分析目标,本文在提取用户感兴趣的事件序列作为自定义图形的基础之上提出了自底向上的分析探索流程,同时为了提供给用户事件序列整体概览视图,本文对于要分析的事件序列从三个层次进行简化,分别是:在事件序列内部,事件序列之间,针对感兴趣的事件序列的多变量属性。简化的过程中依次使用了规则,聚类,以及选择的交互分析方法。本文所设计的分析探索流程如下所示。

可视分析系统分析流程

 

下面结合可视分析系统的概览视图,对于本文所使用的三种核心分析方法进行详细介绍:

可视分析系统视图设计。A-用户主视图;B-聚类视图;C-属性分布视图;D-探索上下文视图,用户可以自定义探索的事件序列集合,并且选择在任意的集合基础上进行分析;E-冰柱图,显示不同的标准筛选得到的事件序列数量;F-显示用户自定义的事件;G,H-用户的控制按钮视图

规则

在本文中所使用的规则主要基于正则表达式,辅助用户发现感兴趣的事件序列并且对齐进行使用自定义的图形简化,在图形中变大该事件序列的语义信息使得事件序列的语义信息更加丰富。传统的正则表达式是在工业界广泛使用的技术,在文本中用于快速的查找以及替换字符序列,然而传统的正则表达式进行应用在传统的文本数据中,为了将正则表达式应用在多变量的事件序列中,本文设计了使用可视的方式设计正则表达式的方法,支持高效的进行复杂正则表达式的构建。在构建正则表达式的过程中使用了事件序列中的多变量属性,并且用户可以根据构建的正则表达式赋予其语义信息。

可视构建基于事件序列的正则表达式过程

聚类

在构建规则之后,分析系统可以在事件序列中增加更丰富的语义信息。然而大量的事件序列导致使得用户难以得到数据的整体概览,因此系统提供聚类的功能帮助用户合并具有相似的sequence结构的事件序列,在事件序列的末尾增加数量标记具有该相似结构的事件序列的数量,图2(A)即为事件序列分析的主视图,图中所示即为聚类之后的结果,按照事件序列出现的频率进行排序帮助用户得到最为经常的事件类型,同时也可以提供用户异常分析的线索。

进一步地,在合并相同结构的事件序列之后,用户可以按照相同的事件类型对于时间序列进行对齐操作,在事件的角度将相同的事件进行合并,这一操作同样提供给用户数据分析的线索,帮助用户可以发现事件序列统一的特征,比如所有的事件序列都是以发送开始通话数据包开始到发送结束通话的数据包为止等。在探索得到的用户行为模式之上就可以有效的得到异常事件。

选择

上述分析可以帮助用户发现感兴趣的事件序列,在具体到部分事件序列之后,用户可以详细的探索事件序列的多维属性,系统设计的选择功能就支持结合多变量属性的分析。用户在如图2(A) 所示的主分析视图中可以进行刷选,刷选的部分在2(B)视图中进行聚类,用户点击选择某一类的事件,在图2(C)中提供了多变量的柱状图分布视图,通过在分布视图中的分析可以得到用户感兴趣的事件在哪一类属性中具有共同的特点,从而找到数据异常发生的原因。

本文针对事件序列数据的分析,提出了完整并且新颖的分析流程,并且开发完成了可视分析系统。帮助分析者进行多变量数据以及事件序列相结合的分析,在分析过程中基于扩展的正则表达式提取并且替换感兴趣的事件序列,将事件序列中增加更多的语义信息,聚类的方法将重复的事件序列进行聚类从而帮助用户得到全局的信息概览,用户可以选择感兴趣的事件序列结合多变量属性进一步探索异常事件的原因。

[1]Bram C.M. Cappers and Jarke J. van Wijk. Exploring Multivariate Event Sequences using Rules, Aggregations, and Selections. IEEE Transac- tions on Visualization and Computer Graphics, 24(1): 532-541, 2018.

评论关闭。