特征与序列:交互式基于网页访问日志数据对相似用户行为的分析 Patterns and Sequences: Interactive Exploration of Clickstreams to Understand Common Visitor Paths

序列数据(Sequence Data),在日常生活中十分经常见到。大规模的序列数据,其中蕴含了人群行为的规律、特征以及异常行为。因此分析人员十分重视对序列数据的分析。本次介绍的论文是针对网站点击序列的分析,这是一类典型的序列,如下图所示,其数据包含了一系列的事件,每个事件包含了时间、用户以及具体的行为。

屏幕快照 2016-09-09 下午8.59.44

 

图1 序列数据的数据特征

想要从这类数据中获取知识并不容易,原因有三点,首先这类序列数据每一个序列都包含了很多的事件,序列长度长,并且这些事件都是多维度的,包含了多种信息,针对网页点击数据而言,包括网站的类别、具体的标签、功能等等,再有一点是事件的种类很多,对分析都造成了很大的挑战。如果直接对这些序列进行可视化,效果会如下图,达不到分析的目标,因此来自Adobe的研究者们对这个问题进行了深入的研究。

屏幕快照 2016-09-10 上午12.26.25

图2 直接使用可视化进行原始数据分析难以得到想要的效果

他们在设计中采用以用户为中心的设计方法,基于以往工业界使用的工具的问题,提出了需要的几个目标:

1)需要能够找到关键消费者的行为模式

2)允许下钻分析到细节的序列

3)允许将序列中多维度的信息带入分析中

4)探索同时发生的一系列事件

基于此任务,作者提出了一套分析流程,包括模式挖掘、模式裁剪与交互式探索与可视分析。

在第一部分模式挖掘中,对于原始的序列数据,分析还需要做到事件分类、高层次细节描述的选择(特征选择)以及模式挖掘。在这个工作中,他们尝试了多种数据分类的方法,例如基于域名的分类,但测试之后发现这并不能反映出用户的需求,也尝试了基于文本频率的分类(TF-IDF)与主题模型,但测试结果也往往会被一些经常出现的特征统治,看不出有意义的分布。因此他们最后决定手工地根据数据特征与用户需求进行分类。在确定好事件分类之后,最关键的一步是需要确定用什么样的高层模式来描述特征。有两种表示方式,一是n-gram的形式,二是序列模式sequential pattern。两者的区别在于特征模式是否需要连续,n-gram代表连续的多个事件特征,而序列模式在于在一个序列中只要顺序地出现过序列模式中事件即表示满足该特征。在一系列试验结果下,作者选择了使用序列模式,需要了解更多请参考参考文献[1]中的补充材料。

在选定了序列特征模式进行表示,则可视分析的数据对象具有4类不同层面的数据,从原始的事件 – 原始事件组成的序列 – 序列特征的分段模式 –  序列特征,从细节层面到高层抽象层面进行表示,并且能够在细节与总览中切换。对于序列模式的挖掘,用户选用了VMSP [2] 算法进行最大序列模式的挖掘,所谓最大序列模式就是挖掘满足一定的支持率(Support)下,最长的序列特征。支持率的定义即满足该特征的序列在总序列的比率。通过这种方法,用户可以获得较长的序列特征,但是挑战在于获得的特征数目往往较大,有的时候还超过原有的序列数目,这给分析造成了一定的困难。为了解决这个问题,作者提出模式裁剪来减少模式的数量。

屏幕快照 2016-09-10 上午12.03.32

屏幕快照 2016-09-10 上午12.04.43

图3 模式剪裁与Jaccard阈值分布

模式裁剪的基本思路是基于Jaccard距离,找到两个模式,如果他们的支持集(即符合该特征的原始序列数据)基本相似,那么认为他们代表的意义基本相似,因此可以取其一而减少模式的数量。模式的Jaccard距离分布如上图所示,用户只要选择合理的区间进行模式裁剪,那么分析的模式数量会减少许多。基于以上的数据处理步骤,最终进入可视化系统的设计部分。

屏幕快照 2016-09-10 上午12.28.28

图4 可视化系统界面

可视化的设计十分直观明了,包含两个主要的视图,特征视图以及序列视图,以及中间交互辅助的上下文视图。特征视图即之前处理的特征模式,模式从左往右一次排布,从上往下即特征事件发生的顺序,按照log设置y轴的范围,颜色代表不同的事件类型。每个事件的横向矩形的长度代表支持序列的数量。

屏幕快照 2016-09-10 上午12.33.51

图5 交互探索与迭代探索

在用户选择了一个特征时,右侧的原始序列数据就会更新为满足该特征的原始序列数据。序列以矩阵的形式,也是从左往右,每个原始序列由一个个的矩形块组合。用户还可以根据选择具体特征的事件来对其序列进行布局,进一步辅助用户探索序列的模式。用户还可以选择特征的一个分段模式,来进行层次地探索数据细节的模式。

总而言之,这篇工作是一套完整的可视分析工作的范例,他们从用户的需求出发,细节地探索了用户的需求,并迭代多次地设计了模式、算法与可视化界面,使得最后的结果简洁有用。本工作也很好地结合了数据挖掘与可视化的工作,让用户可以交互迭代地探索访问序列的模式特征。

[1]  Zhicheng Liu, Yang Wang, Mira Dontcheva, Matthew Hoffman, Seth Walker and Alan Wilson. Patterns and Sequences: Interactive Exploration of Clickstreams to Understand Common Visitor Paths. TVCG (IEEE VAST), 2016

[2] P. Fournier-Viger, C.-W. Wu, A. Gomariz, and V. S. Tseng. VMSP: Ef- ficient vertical mining of maximal sequential patterns. In Advances in Artificial Intelligence, pages 83–94. Springer, 2014.

评论关闭。