探索什么是不存在的-基于图元的缺失值分析可视化(To Explore What Isn’t There — Glyph-based Visualization for Analysis of Missing Values)

缺失值是数据集中的一个常见的问题,对于缺失值的分析通常来说具有一定的挑战。本文针对多变量数据的缺失问题,提出了一种基于图元的可视化MissiG,该方法对已经提出的三种缺失模式——数量缺失(AM)、联合缺失(JM)和条件缺失(CM)进行较为直观的呈现,从而帮助用户对于缺失值有更好的认知。用户实验表明,MissiG在这三个模式的相关任务上的表现整体上比传统的平行坐标(PC)和热力图(HM)要更好。

图一 MissiG

为了明确可视化的目标,作者首先对现有的缺失模式的分类方法进行了调研,并最终选取了Wang等人[2]定义的缺失模式作为本篇工作的基础。该工作将缺失模式分成三种:(1)数量缺失(Amount Missing,AM):在数据集中某一变量缺失的相对数量;(2)联合缺失(Joint Missingness,JM):指数据同时在多个变量上缺失的相对数量;(3)条件缺失(Conditional Missingness,CM):描述了数据的缺失变量和其他未缺失变量的值的关系。已有的缺失数据可视化的关注点通常放在如何表示缺失值,或者简单地使用一些数据质量描述符来表示缺失,但很少关注如何对缺失值呈现出来的一些模式进行进一步的分析,而这正是本文的目标。

本文提出了一种新的可视化方法MissiG,该方法使用一个图元表示一个变量,在每个图元中,右半侧的蓝色条形表示缺失值,其相对整个图元的高度表示缺失的相对数量。左半侧的灰色直方图表示未缺失值的分布情况。当选中一个变量时,相关的缺失部分会用红色标识出来。在其他变量对应的图元中的红色高亮部分表示选中变量的缺失在其他变量的缺失值和未缺失值上的分布情况。另外,选中图元和其他图元之间会有一些连线,其粗细编码了相关变量之间的联合缺失数量(JM)。

MissiG可以很清晰地呈现出上面提到的三种缺失模式。AM就是蓝色条形相对于整个图元的高度;JM就是红色条形相对于蓝色条形的高度,相对高度越高说明选中变量和图元对应变量之间的JM越明显;CM是灰色直方图和红色直方图形状的相似性。相似性越低,说明CM越明显。例如在图一中,x3的红色直方图和灰色直方图形状相差较大,可以明显看出,当x5缺失时,x3更倾向于取较低的值。

图二 径向布局方式

由于每个图元是相对独立的,这些图元的布局方式可以十分灵活,既可以像图一中那样在水平线上对齐,以方便比较各个变量上缺失值的相对数量,也可以像图二中这样径向布局,来更好地比较选中变量和其他变量的关系。也正是由于布局的灵活性,MissiG可以附加在其他的高维数据可视化上,用来增强其对缺失值的分析能力。

图三 MissiG增强的平行坐标(PC)和热力图(HM)

在用户实验中,作者对6种可视化方法:MissiG-R(径向布局的MissiG)、MissiG-L(线性布局的MissiG)、PC、PC+MissiG、HM、HM+MissiG进行了比较。总共进行了两次用户实验。在第一次实验中,作者选取了5种可视化方法(不包括MissiG-R),每种可视化方法带有必要的交互,每次种方法都针对三种缺失模式提出一个问题,并且应用到不同的三个(组)变量上形成三个具体的问题。实验评价标准为用户反应时间和准确度,以及用户给出的反馈。在第二次实验中,作者选取了所有6种可视化方法,但是取消了交互(这是因为作者认为不同可视化的交互操作不同,可能会影响实验结果),每种可视化针对三种缺失模式提出一个具体的问题。评价标准和实验一相同。针对基于[2]的结果提出的假设,实验结果如下:(其中partial表示从置信区间来看假设基本正确,但是显著性不够强)

实验结果表明,对于AM和JM任务,MissiG表现优于PC,且和HM表现的一样好;对于CM任务,MissiG表现和PC一样好,同时可能优于HM。当然,目前的结果还存在一些问题。例如,第二次实验对实验条件的改变会不会影响结果;使用MissiG增强的PC和HM由于采用了两个视图,会不会带来更大的认知负担;以及对于一个全新的可视化方法MissiG,用户是否会花费更长的时间来探索它等等,这些问题对实验的结果都会造成一定的偏差。

参考文献:

[1] S. J. Fernstad and J. J. Westberg, “To Explore What Isn’t There—Glyph-Based Visualization for Analysis of Missing Values,” in IEEE Transactions on Visualization and Computer Graphics, vol. 28, no. 10, pp. 3513-3529, 1 Oct. 2022.

[2] S. J. Fernstad, “To identify what isn’t there: A definition of missingness patterns and evaluation of missing value visualization,” Information Visualization, vol. 18, no. 2, pp. 230–250, 2019.

评论关闭。