响应式可视化的任务导向洞察的自动推理方法 (An Automated Approach to Reasoning About Task-Oriented Insights in Responsive Visualization)

由于移动设备的普及,可视化创作者需要考虑可视化在不同设备上的显示,即响应式可视化。通常,创作者实现针对桌面环境的可视化之后,通过改变大小、进行数据聚合等方法调整可视化以适应移动设备。然而,这一过程会改变原始的可视化传达的信息,需要创作者不断尝试不同设计,并考虑它们保留的信息,这一过程困难且繁琐。

美国西北大学的Kim等人 [1]提出,将响应式可视化的设计视为将原始可视化转化为目标可视化,并将寻找最优设计视为在目标可视化空间中进行搜索的问题。该工作中,可视化的转化支持改变图片大小、数据聚合、分箱、坐标轴转置等常见操作。该工作提出评估目标可视化保留的原始可视化的信息或洞察,从而对目标可视化集合进行排序和推荐。

任务导向洞察的保留程度度量

信息可视化支持的低层次任务包括识别数据点的信息、对数据点进行比较和观察聚合的特征。该工作提出了计算转化后的目标可视化保留这三种任务的洞察的损失。

识别损失

识别损失计算了图元可辨别程度的变化。对于原始可视化\( S \)和目标可视化\( T \)的每个通道\( c \),计算所有图元的在该通道上的渲染值\( E_S.c \)的信息量,使用信息熵来表示:\( H(E_S.c) = -\sum_x P(U_S.c = x) \log_2 P(U_S.c = x) \)

总的识别损失表示为各通道识别损失的和:\( Loss(S \rightarrow T; Identification) = \sum_c |H(E_S.c) – H(E_T.c)| \)

比较损失

比较损失计算了目标可视化与原始可视化在可进行比较的数量和进行比较的感知难度的变化。对于给定的可视化的某一通道\( c \),定义可视化的可辨识度分布为图元的两两距离的集合:\( B_S.c \)和\( B_T.c’ \)

该通道上的比较损失等于原始可视化和目标可视化可辨识度分布的距离,该工作使用推土距离 (Earth Move Distance)来计算分布距离。而总的比较损失为各通道比较损失之和:\( Loss(S \rightarrow T; Comparison) = \sum_cEMD(B_S.c, B_T.c’) \)

对于不同的通道,该工作的作者使用不同的距离度量来计算两个数据点的距离。

  • 两个数据点位置通道距离定义为差值的绝对值:\( d_{position} = |e_i.position – e_j.position| \)
  • 面积通道距离定义为图元面积差值绝对值的0.7次幂:\( d_{size} = |e_i.size-e_j.size|^{0.7} \)
  • 颜色通道距离定义为CIELAB空间的欧式距离:\( d_{color} = \sqrt{(e_i.L – e_j.L)^2+(e_i.a – e_j.a)^2+(e_i.b – e_j.b)^2} \)
  • 形状通道则使用已有工作的经验分布距离 [2]

趋势损失

该工作仅考虑可视化转化后,用户感知数据趋势能力的变化。对于原始可视化和目标可视化,该方法首先对不同通道拟合趋势线或趋势面。对于位置通道,将y轴位置视为x轴位置的函数;对于颜色通道,首先对颜色进行线性化,将该值视为x与y的函数;将大小也视为x和y的函数。趋势线或趋势面的拟合方法采用LOESS回归。每个通道的趋势损失定义为原始可视化和目标可视化的相对线间面积或面间体积。总的趋势损失视为各趋势模型\( m \)趋势损失之和:\( Loss(S \rightarrow T; Trend) = \sum_mA(LOESS(m_S), LOESS(m_T)) \)

使用损失度量的排序模型和推荐系统

该工作还训练了排序模型,根据预测目标可视化保留洞察能力的损失进行目标可视化的排序。

数据训练标注

该工作的作者对于6个原始可视化,计算目标可视化搜索空间,对于三种损失度量,分别选取损失度量最小的前100个目标可视化,并根据损失值五等分,每一等分采样2个目标可视化。对于每个原始可视化,这样的方法采样了30个目标可视化。将其随机均分为6组,标注者对每组5个目标可视化按照他们认为能够保留的洞察大小进行排序。每组目标可视化都可以转化为10对目标可视化的排序结果,以此作为训练数据,训练一个针对可视化对进行排序的模型。

模型训练与结果

该工作的作者训练了K近邻、逻辑斯蒂回归、支持向量机、决策树、随机森林、Boosting算法、多重感知机等多种模型。模型输入方面,该工作的作者测试了使用三个总损失度量、使用不同通道的损失度量和同时使用二者;输入向量的组合包括原始可视化与目标可视化的向量相连接或者相减。实验结果发现,使用多通道原始损失度量作为输入的随机森林模型准确率最高。

不同模型的预测结果

响应式可视化推荐系统原型

该工作提出了一个推荐响应式可视化的原型系统,其处理流程如图所示。

推荐系统流程图

对于给定的原始可视化的Draco声明,使用部分声明方法枚举移动设备屏幕上的目标可视化,根据目标可视化的各通道渲染值计算损失度量。系统最后通过排序模型对这些目标可视化进行排序,并展示给用户推荐的结果。

目标可视化样例和度量值

结论

该工作提出了响应式可视化转化时的洞察损失度量和排序模型,可以自动推荐响应式可视化的设计。作者们认为该工作的度量可以继续扩展,例如增加聚类、异常值等;随着数据集的增长,可以使用深度学习模型等新方法;可以招募用户进行更多的用户实验以获取人在推理洞察损失时使用的准则和基于人类感知的基线洞察损失。

参考文献

  • [1] H. Kim, R. Rossi, A. Sarma, et al. An Automated Approach to Reasoning About Task-Oriented Insights in Responsive Visualization. IEEE Transactions on Visualization and Computer Graphics, Early access, 2022.
  • [2] Ç. Demiralp, M. S. Bernstein and J. Heer, Learning Perceptual Kernels for Visualization Design. IEEE Transactions on Visualization and Computer Graphics, 20(12): 1933-1942, 2014.

评论关闭。