利用可视分析进行时间序列模型选择(Visual Analytics for Model Selection in Time Series Analysis)

时间序列分析在医疗、气象、金融等领域非常常用。常见的分析任务包括:判断一个变量是否存在明显的随时间上升或下降趋势,根据过去的变化趋势预测未来的值。为了完成这些分析任务,人们发展了许多时间序列模型,包括时间域模型和频率域模型。本文将要提到的SARIMA模型就是一种常用的时间域模型。该模型有7个超参数需要分析人员结合自己的经验手动指定,而指定这些参数的过程称为模型选择。统计学家发展了一套标准的适用于SARIMA模型的模型选择流程,称为Box-Jenkins方法。现有的常用分析软件(例如R)已经支持基于Box-Jenkins方法的模型选择流程,然而该过程需要分析人员手动输入多条命令,在不同的显示图表之间切换,并且手动比较多个模型。进行这些操作并不方便。本文的作者基于R中已有的算法,使用Java重新设计了一个支持模型选择的可视分析界面TiMoVA[1](Time series analysis, Model selection, and VA),能够支持更流畅的模型选择流程。

SARIMA模型的全称是Seasonal Autoregressive Integrated Moving Average Model。它其实是四个简单模型的叠加。其中I(Integrated)模型描述时间序列的总体趋势,AR(Autoregressive)模型和MA(Moving Average)模型描述时间序列的自相关性,而S(Seasonal)模型描述时间序列的周期性。SARIMA模型的标准公式如下:

sarima

 其中的7个超参数是p,d,q,P,D,Q,S。因此,该模型也可以记为:

sarima2

Box-Jenkins模型选择流程分为四个步骤,如图1。在第(1-2)步中,分析人员通过观察原始的时间序列和它的自相关函数(ACF)以及部分自相关函数(PACF)来确定模型的超参数;在第(3)步中,分析人员通过最优化算法得到模型的参数;在第(4)步中,分析人员通过残差分析来进行模型诊断,如果模型可以接受,则模型选择流程结束,否则回到第(1-2)步重新选择超参数。

boxjenkins

图1 Box-Jenkins模型选择流程

本文作者提出了TiMoVA可视分析系统,流畅的实现了Box-Jenkins模型。系统界面如图2。其中界面(1-3)支持了Box-Jenkins流程中的第(1-2)步,第(3)步参数计算由系统后台完成因而没有界面,界面(4-5)支持第(4)步。

图2 TiMoVA系统界面。

图2 TiMoVA系统界面。(1) 原始时间序列图;(2) 超参数D,d,S设置界面;(3) ACF和PACF图,用于设定超参数p,q,P,Q;(4) 残差分析界面;(5) 模型比较界面。

相比于Rstudio中的分析界面,TiMoVA系统有以下几点改进:

  1. 直接在ACF和PACF图中,通过拖动竖线选择超参数p,q,P,Q
  2. 在超参数改变之后,立即更新相应的图表,并做渐变动画以方面模型比较
  3. 自动记录模型选择过程中尝试过的所有模型
  4. 选择一个时间段单独建模
  5. 同时显示整个模型选择流程中的所有关键图表

作者请了2个统计方面的科学家评价他们的系统。科学家认为相对于传统的分析程序界面(如R),该系统可以更加流畅的支持模型选择。

[1] Markus Bögl, Wolfgang Aigner, Peter Filzmoser, Tim Lammarsch, Silvia Miksch, Alexander Rind, Visual Analytics for Model Selection in Time Series Analysis, IEEE Transactions on Visualization and Computer Graphics (VAST’13),19(12):2237-2246, 2013.

评论关闭。