对探索性可视分析中分析关注点进行建模和使用(Modeling and Leveraging Analytic Focus During Exploratory Visual Analysis)

可视分析系统通过对数据的图形化表示和灵活的交互方式让用户能够分析、发现数据中的规律。然而用户对于这些发现的理解和解释往往需要一些外部的知识(context),这篇论文[1]通过对于用户在数据分析过程中的关注点(analytics focus)进行建模和计算的方式,自动给用户推荐相关的外部知识来帮助用户对于数据的理解。

设想如下的场景,一个医生通过可视分析系统来发现病人诊断数据中的异常。当他通过系统对数据进行交互分析,得到了一些发现,如部分病人的诊断方案存在问题,没有取得理想中的效果。然而这些发现与已有文献中的结果吻合嘛?是否与之前的一些结果冲突?如何进一步解释结果的关联性?如果系统能够提供相关的外部知识来对于发现进行解释说明,那么结果的可信度、可解释性等都会提高。一种直接的方式是利用搜索引擎对于相关关键词进行搜索,然而这样的方式不同自动化,打断了用户的分析过程。所以,该工作通过对于用户探索过程中的关注点进行建模和计算,自动推荐相关的外部知识。在具体操作中,是以面向医疗病历数据分析的Cadence系统[2, 3 , 4]为基础进行。

图1为Cadence原型系统,包括左侧的数据划分视图、中间的统计直方图和事件序列图以及右侧的散点图。这些界面提供了丰富的交互操作帮助用户对于数据进行探索分析。本文的贡献在于对于用户在探索过程的关注点进行建模,推荐与用户关注点相关的医学文章列表。

图 1:Candence是一个针对医疗遍历数据中事件序列进行分析的平台,其中(a)是已有的系统界面,(b)是本文中拓展的、利用关注模型推荐的论文列表视图。

为了对于用户的分析关注进行建模,作者定义了如下的概念。

  • 交互:低级别的UI事件,如点击、拖拽。
  • 行为:行为是包含语义的原子操作,包含(类型,参数)两个维度。行为可以划分为持续性行为(Persistent Action)和短暂性行为(Transient action),持续性行为指对可视化界面进行较大修改(如过滤),而短暂性行为指鼠标悬停等暂时修改界面的交互。
  • 概念(concept):指结构化数据中字段、文本的索引值和分类中实体,行为发生时往往会涉及到概念,概念是行为中的参数项。
  • 时间步:用户的探索过程是一个行为序列,在分析过程中只考虑离散的序列号,而不是具体时间值。

这样,用户在探索过程中的行为序列可以表述为

其中ai,ti,ci分别表示用户的行为、时间和行为涉及到的概念。这样,在某个时刻评估用户的关注点时,就是计算在当前时刻各个概念的重要度。由于每个概念可能被之前的多个行为涉及到,作者采用了累加的方式计算一个概念的重要度。

其中,单个行为对于概念的重要度贡献为如下的计算方式

该曲线和艾宾浩斯记忆曲线类似,即历史行为涉及到的概念重要度会随着时间逐渐变小。图2列出了系统中交互行为的分类以及对于关注点计算的参数值。

图2:用户交互行为的分类以及相关参数值

有了以上的计算方式,系统会随着用户的交互不断更新相关概念的重要度,利用这些加权后的概念,计算数据库,返回相关的论文列表(图1b)。

作者设计了一个用户实验来说明提出的计算方式能够捕捉到用户在探索过程中的关注点,并且通过提供论文列表的方式可以有助于用户的分析和发现。在实验中,用户对于给定的任务对数据进行探索(可以使用关注模型),然后通过问卷的方式回答在探索过程中关注的概念,用户在看了关注模型的概念后可以对回答的结果进行修改。从图3可以看出,关注模型的召回率比较高,表明关注模型可以准确捕捉到用户在分析过程中的关注点,但是准确率一般,即计算模型会额外增加用户并不关系的概率,这是因为用户的一些交互可能会涉及到他并不关心的数据维度。并且用户修改后的结果指标都得到了提高,表明系统可以帮助用户回忆分析的过程。

图3:用户描述的关注概念和系统计算的关注概念比较。

在用户的反馈中,大部分用户觉得关注模型可以有效的作为日志记录的一种方式来帮助他们回归探索的过程。推荐论文列表可以帮助他们对于数据中特征理解,并且启发后续的探索。

这篇论文提出了一个计算用户在使用可视分析系统过程中关注点的模型,但是这个计算模型依赖特定的系统,概念的定义依赖于特定的应用,参数的选择也需要特殊的调整才能够有效。后续可以从语义角度对于用户的交互日志进行划分、自动推荐交互等方向考虑进一步工作。

参考文献:

[1] Zhilan Zhou, Ximing Wen, Yue Wang, David Gotz. Modeling and Leveraging Analytic Focus During Exploratory Visual Analysis. CHI 2021: 21:1-21:15.

[2] David Gotz, Jonathan Zhang, Wenyuan Wang, Joshua Shrestha, David Borland. Visual Analysis of High-Dimensional Event Sequence Data via Dynamic Hierarchical Aggregation. IEEE Trans. Vis. Comput. Graph. 26(1): 440-450, 2020.

[3] David Borland, Jonathan Zhang, Smiti Kaul, David Gotz. Selection-Bias-Corrected Visualization via Dynamic Reweighting. IEEE Trans. Vis. Comput. Graph. 27(2): 1481-1491, 2021.

[4] David Borland, Wenyuan Wang, Jonathan Zhang, Joshua Shrestha, David Gotz. Selection Bias Tracking and Detailed Subset Comparison for High-Dimensional Data. IEEE Trans. Vis. Comput. Graph. 26(1): 429-439, 2020.

评论关闭。