IEEE PacificVis 2021 可视分析专题(Visual Analytics)

IEEE PacificVis 2021可视分析专题(Visual Analytics)共报告五个工作,分别是对于校园学生打卡数据(Campus Cards Data)、提升树模型(Tree Boosting Models)演变过程、异构多维机器维护数据、关键词关系、乒乓球比赛数据进行分析。

探索校园生活方式的可视分析系统(
Visual Analytics Methods for Interactively Exploring the Campus Lifestyle)[short paper]

高校校园卡系统积累了海量数据,记录了每个学生出入校内各个场所的行为信息。随着数字化和智能化的推进, 高校需要通过数据驱动来实现更优的校园管理。本工作提出了一种新颖的交互式视觉分析分析,通过灵活的交互和图表,增强用户对校园生活方式的理解,为教育工作者提供了决策参考。

根据学生的消费状况评估贫困学生

从校园卡数据中提取所有学生的消费特征,包括总消费,总充值,消费计数,自助餐厅消费,商店消费以及其他可以反映学生消费行为的特征。使用t-SNE算法来减小维数,以便可以将其映射到低维空间。

根据学生的行为方式评估学生特质

学生的某些特质可以通过其行为模式来推测,比如有条理(orderliness)和勤奋(diligence)。以勤奋程度为例,常与其在图书馆的累计时长正相关。

根据学生的社交网络分析学生间的特质影响

通过时间分片,构建时空对,通过学生的共现关系来建立社交网络。结合学生的特质分析,来分析社交网络对学生特质的影响。如下图所示,A和B有频繁的接触,同时他们的勤奋和有条理程度相对较低。因此,可以认为他们可能会对对方产生不好的影响,甚至无法完成学业。

利用可视分析研究提升树模型内的演变(Investigating the Evolution of Tree Boosting Models with Visual Analytics)

提升树(tree boosting models)作为一种集成学习(ensemble learning)方法,在预测方面具有较好的表现。随着模型中树数目的增加,探究数据预测情况的变化情况十分重要。本文引入了一种时序混淆矩阵的桑基图设计,使得用户能供追踪数据在模型内的预测情况变化,同时更好地展示不同迭代中数据各特征对预测的贡献,并开发了相应的可视分析系统。

混淆矩阵

混淆矩阵展示了数据预测的结果,对于预测为C1类别的数据,实际类别为C1的情况为TP(true position),实际为其他类别为FP(false position)。多个迭代的混淆矩阵构成时序混淆矩阵,本文根据不同迭代间同一实际类别的数据的预测情况,将数据变化分为四类:提升(improved)、降低(degenerated)、转移(shifted)、不变(unchanged)。

系统视图

本文[3]开发的系统如图所示,包含三个主要的视图:时序混淆矩阵视图、特征视图以及树视图。在时序混淆矩阵视图中,桑基图中各块Ti_j_k的高度表示迭代i中,真实标签为j、预测标签为j的数据数量,之间的边表示数据的预测变化,不同的颜色代表上述不同的四类情况。在特征视图中,每行展示了不同迭代中SHAP值与特征值的聚合结果,圆的大小代表聚合中数据的数量。树视图展示一个具体的分类器,用不同的颜色区分当前类别与其他类别在分类器中的判断过程。

该工作与机器学习领域专家合作,设计视图并开发系统来研究树提升模型中数据预测的动态变化,得到了专家良好的反馈。

用于诊断异构和多维机器维护数据的可视分析方法(A Visual Analytics Approach for the Diagnosis of Heterogeneous and Multidimensional Machine Maintenance Data)

本文提出一种有效探索机器维护数据的可视分析方法。该机器维护数据包含两万多条数据项,每条数据项用于记录一次维修事件或一次故障。数据项包含两百多个数值型、类别型以及文本维度。

为了处理和可视化该数据,作者首先按照类型将维度分组,然后对不同类型的维度分别做降维和聚类。降维和聚类的结果被可视化为六边形图以提供概览。他们不使用散点图是因为六边形图有更好的可扩展性。为了描述聚类的特征,他们对数值型维度和类别型维度使用对比学习方法ccPCA和ccMCA。对于文本维度,他们只是简单地将目标聚类的词频与整个数据集的词频绘制在一起。

系统处理数据和可视化流程。

对比学习(contrastive learning)旨在提取一个数据集相对于另一个数据集的突出模式。比如,cPCA (contrastive PCA [Abid et al. CoRR 2017])可用于揭示目标矩阵T相对于背景矩阵B的显著模式。也就是说,用户想要识别的模式包含在目标矩阵中,而背景矩阵包含用户想要从目标数据集中移除的结构。比如,当目标矩阵包括患病被试,而其他数据点对应的是健康被试时,cPCA将发现疾病影响的变化(比如多种疾病之间的差异)。然而,cPCA无法直接帮助我们表征患病被试,即探索患病被试和健康被试之间的差异。为了达到这一目的,我们可以使用ccPCA (contrasting clusters in PCA [Fujiwara et al. TVCG 2020]),它以患病被试和健康被试为目标矩阵,以健康被试为背景矩阵。

类似地,作者使用ccMCA来表征类别型维度形成的聚类。与ccPCA不同之处在于,由于one-hot encoding,ccMCA的输入矩阵的每一列都代表了该维度的一个类别,而不是一个维度。因此,结果只能展示每个类别对聚类的贡献。

基于注意力的关键词可视分析(KeywordMap: Attention-Based Visual Exploration for Keyword Analysis)

关键词的分析在文本分析中被广泛应用。但是,单一的关键词会损失文本上下文等信息。一种常见的做法是对文本进行主题建模。但是,在主题模型的结果中,我们有时不知道为什么一些词被放在了一起;而算法本身也很难针对特定问题进行微调。该工作[4]发现在预训练的Transformer结构的模型中,注意力(Attention)层可以被用于挖掘关键词之间的联系,而模型本身也可以进行微调,以此解决上述的问题。

该工作基于不同的数据集,自定义了不同的分类任务,对Transformer的编码器进行有监督的微调,使其能够更适用于特定的数据集。微调前后关键词之间的注意力分布如下图所示。

模型进行微调前后关键词注意力的分布。在微调前,关键词的大部分注意力被放在了自身。在微调后,一些常见的关键词组合之间的注意力有着较大的提升,如关键词machine和learning。

接下来,基于Transformer结构中的注意力层,该工作设计了一个算法来得到关键词之间的注意力分数网络。网络中边的权重由对应两个关键词之间的注意力的平均值计算得到,权重越大,两个关键词之间的注意力越大,也就代表两个关键词联系更紧密。随后,基于这个注意力分数网络,该工作应用了类似于PageRank的算法,计算每个关键词的影响力,并得到重要的关键词。

最后,该工作提出了一个可视分析系统来帮助用户对数据进行探索。系统界面如下图所示。在投影视图中,系统对Transformer的编码器对每个关键词的向量化结果进行投影。在用户选择一些关键词之后,网络视图就会展示选中关键词之间的注意力分数网络。同时在社群视图中,系统在网络上应用社群检测算法计算得到不同社群,展示社群内部的结构,同时设计了一个新颖的可视化符号来展示关键词的不同属性,包括TF-IDF值、影响力和集中性。

系统界面。

多场乒乓球比赛的可视战术挖掘(Tac-Miner: Visual Tactic Mining for Multiple Table Tennis Matches)

对于乒乓球运动员的技战术进行分析可以帮助专家了解不同运动员在比赛中的技战术风格。在比赛中,一次击球(stroke)行为包含多个不同的属性,如击球的位置,采用的技术等。一个战术(tactic)指三次连续的击球方式,分别为球员的一次击球,对手的击球以及球员自己的再次击球。相比单次的击球,战术反映了球员在比赛中更高层级的竞争策略。这个工作的目的是从战术层面分析球员的比赛风格,数据为球员在多场比赛中采用的战术集合。主要包括如下的分析任务:

  • 一个球员在比赛中最主要的战术是什么?
  • 某种战术在在比赛中表现怎么样?
  • 为什么一种战术在比赛中会有好/差的表现?
  • 一种战术会在比赛的什么时候出现?
Tac-Miner系统界面,通过投影图(B)展现不同球员战术的概览,然后在战术列表中(E)具体展现选中投影图中战术的信息。

为了解答上述问题,作者设计了如上分析界面,遵循从整体逐渐到细节的探索方式。为了展现不同球员技战术的差异性,采用了基于高维投影的散点图可视化方法。每个点表示一个战术,点的颜色表示不同的球员。用户可以调节不同击球属性在投影图中的权重,从而侧重对于特定击球方式的分析。在投影图中刷选节点,可以查看这些点表示战术的具体内容。因为每个战术由三次击球构成,所以在战术列表中,选中的战术集合会根据击球参数的类别进行依次聚合,从而得到一个深度为3的树结构。在每一行战术的右侧会展现关于该战术的统计信息。每次击球用一个图标表示,图标的设计基于乒乓球桌形式,从而可以表示击球的位置以及球员的位置,直观易懂。

通过图标的形式展现一次击球的相关信息,A: 球的旋转方式,B: 用颜色表示球员,C: 文字表示击球技术,D: 圆弧表示球员的位置,E: 桌面不同区域表示球的位置。

总而言之,该工作从战术层面出发,分析球员在比赛中采取的竞技策略。相比于直接的统计方法,能够帮助专家更有效对于球员的策略进行挖掘和解读。系统的分析流程采用了典型的由整体(战术投影)到细节(战术列表)的方式,简洁易懂。

参考文献:

[1] Liang Liu, Song Wang, Ting Cai, Hanglin Li, Weixin Zhao, Yadong Wu. Visual Analytics Methods for Interactively Exploring the Campus Lifestyle. PacificVis 2021.

[2] Junpeng Wang, Wei Zhang, Liang Wang, and Hao Yang. Investigating the Evolution of Tree Boosting Models with Visual Analytics. PacificVis 2021.

[3] Xiaoyu Zhang, Takanori Fujiwara, Senthil Chandrasegaran, Michael P. Brundage, Thurston Sexton, Alden Dima, and Kwan-Liu Ma. A Visual Analytics Approach for the Diagnosis of Heterogeneous and Multidimensional Machine Maintenance Data. PacificVis 2021.

[4] Yamei Tu, Jiayi Xu, and Han-Wei Shen. KeywordMap: Attention-Based Visual Exploration for Keyword Analysis. PacificVis 2021.

[5] Jiachen Wang, Jiang Wu, Anqi Cao, Zheng Zhou, Hui Zhang, Yingcai Wu. Tac-Miner: Visual Tactic Mining for Multiple Table Tennis Matches. PacificVis 2021.

评论关闭。