讲习班首日下午的第二位讲者是来自山东大学的汪云海教授。他大家带来了题为《任务驱动的自动可视化构建(Task-driven Automated Visualization)》的讲座。

图1 山东大学汪云海教授报告
提到可视化这一概念,很多人的第一印象可能是美观的图表、炫酷的动画、流畅的交互等等。汪教授指出,视觉展示(presentation)毋庸置疑是可视化的一项重要任务。但可视化更主要的作用,在于辅助用户进行数据分析和相关决策,“使人变得更聪明”。既然有着特定的分析任务,可视化自然也有好坏之分。好的可视化作品,能够准确地传达数据信息、帮助用户高效地执行分析。相反,强差人意的可视化无法有效展现关键的数据特征、甚至会误导读者。汪教授现场展示了数个设计较差的图表,使大家充分认识到合理设计可视化的重要性。
对于缺乏经验的设计者来说,可视化的合理构建往往是一大难题。对于特定的数据和任务,我们有众多不同的可视化方案可供选择,其中每一种又有许多参数留待决定:颜色编码、视图长宽比、数轴范围等等。最重要的是,新手设计者往往缺乏辨别能力,无法准确分辨出可视化中不合理的地方。如何帮助其进行合理的可视化设计,便成了一个重要的研究命题。
在给定数据与分析任务的前提下,是否能够通过算法自动产生设计良好的可视化作品呢?Schulz 等人[1]曾在论文中提出过这一猜想:“Data + Task = Visualization?”。汪教授籍此展开了今天的讲座课题:任务驱动的自动可视化构建(Task-driven Automated Visualization)。该课题主要分为两个研究方向:“以感知为导向的数据转换(Perception-driven Data Transformation)”,和“可视化的自动设计(Automated Visualization Design)”。汪教授主要就后一方向对其近期的研究成果作了简要介绍。
一、时序数据可视化方法的自动选择
现有一份沿正弦曲线分布的时序数据,我们应该什么方法来绘制它呢?折线图抑或散点图?实验发现,用户对可视化方法的偏好会随着异常点、长宽比等数据/视图参数的不同而发生变化(如上图)。当用户希望观察数据趋势时,散点图似乎更有优势,因其受异常点影响较小(如上图(b));而当用户更关注异常点时,折线图则更符合要求(如病人的心电图)。归根结底,究竟是什么因素影响了用户的感知与偏好?我们又该如何实现自动选择算法?
汪云海的研究团队提出了四种可能影响用户感知的因素:噪音(noise)、趋势(trend)、异常点(outlier)、以及长宽比(aspect ratio),并通过合成数据对各个因素进行了建模检验。实验发现,数据趋势并不对用户偏好产生影响,而其余三者中异常点的作用最为明显。由此,汪教授提出了一种基于密度的自动算法[2]:将散点图和折线图统一转化成密度场、并与统计拟合的数据趋势进行对比,最后选择相差较小的可视化方法。用户检验发现,算法结果与用户的实际偏好可达到70%的契合度。
二、视图长宽比的自动选择
对于特定的可视化方法,如何进行参数的择优调整也是一大难题。例如同一幅折线图,不同长宽比下用户对数据特征的感知也有所不同。早年Cleveland等人[3]曾提出“Baking to 45°”的设计原则,即折线图中线段的角度应尽可能接近45度。这一原则被广泛应用于视图长宽比的设计,并衍生出许多规则各异的长宽比自动调整算法(如上图)。然而,这些算法孰优孰劣?它们之间存在怎样的关系呢?汪教授的研究团队通过的数学推演,充分厘清了各类算法之间的相似性与差异[4]。其中三种算法可通过线积分的形式进行表达,并因此具备了采样鲁棒性:即在不同的采样条件下均可得到相同的长宽比结果。
进一步地,汪云海提出了对散点图进行长宽比评估的方法:先将散点图转化至密度场,再对其等值线应用45度规则。该方法的积分形式可应用于任意图片的长宽比选择,具有较好的普适性。
三、颜色方案的自动分配
在多类散点图(Multiclass Scatterplot)中,如何最大程度地区分不同类别的数据,一直是备受关注的研究课题。但现有方法只考虑了数据点的空间位置可分性,并未考虑其颜色可分性。对于给定的多类散点图与颜色方案,如何将各个颜色分配至各个类,才能达到最好的视觉区分效果呢?
针对该问题,汪教授提出了一种色彩自动分配算法,在每个数据点处计算其邻域的位置可分性与颜色可分性,从而对不同的颜色分配方案进行评估。利用遗传算法进行优化迭代,便能找到较为合理的分配方案。实验证明,该算法的结果与专业设计人员的分配方案高度吻合。该工作同样被IEEE Vis 2018接收,并将于2019年发表。除了上述几个研究工作,汪教授还介绍了其团队在词云(Wordle)可视化[5]、图布局优化[6]等方面的研究成果。

图5 陈谊教授为汪云海颁发纪念奖章
最后,北京工商大学的陈谊教授为汪云海教授颁发了纪念奖牌,感谢他所带来的精彩演讲。
参考文献
[1] H.-J. Schulz, T. Nocke, M. Heitzler, and H. Schumann. A design space of visualization tasks. IEEE transactions on visualization and computer graphics, 19(12):2366–2375, 2013.
[2] Y. Wang, F. Han, L. Zhu, O. Deussen, & B. Chen. Line graph or scatter plot? automatic selection of methods for visualizing trends in time series. IEEE transactions on visualization and computer graphics, 24(2): 1141-1154, 2018.
[3] W. S. Cleveland, M. E. McGill, & R. McGill. The shape parameter of a two-variable graph. Journal of the American Statistical Association, 83(402): 289-300, 1988.
[4] Y. Wang, Z. Wang, L. Zhu, J. Zhang, C. W. Fu, Z. Cheng, & B. Chen. Is There a Robust Technique for Selecting Aspect Ratios in Line Charts? IEEE transactions on visualization and computer graphics, 24(12): 3096-3110, 2018.
[5] Y. Wang, X. Chu, C. Bao, L. Zhu, O. Deussen, B. Chen, & M. Sedlmair. EdWordle: Consistency-preserving Word Cloud Editing. IEEE transactions on visualization and computer graphics, 24(1): 647-656, 2018.
[6] Y. Wang, Y. Wang, Y. Sun, L. Zhu, K. Lu, C. W. Fu, & B. Chen, B. Revisiting stress majorization as a unified framework for interactive constrained graph visualization. IEEE transactions on visualization and computer graphics, 24(1): 489-499, 2018.
评论关闭。