2021年北京大学可视化发展前沿研究生暑期学校 – Day 7

2021年7月21日,暑期学校第7天,来自高等技术学院(ETS)的Michael McGuffin教授和来自爱丁堡大学的Benjamin Bach教授进行了报告,内容包括多维多变量可视化、图可视化和Data-Driven Storytelling with Data Comics 。

Michael McGuffin教授首先作了题为多维多变量数据的报告。变量可以分为维度(自变量)和度量(因变量)。McGuffin教授根据适用的变量数目对不同可视化形式做了介绍(图1)。变量数较少(小于等于3)的时候我们可以选择折线图、条形图、散点图、热力图等可视化形式。选择的时候需要考虑变量类型和视觉通道有效性两个方面。比如对于时序数据,折线图能够通过斜率展现数据的微小变化,因此优于条形图和饼图。视觉通道的有效性也与变量类型有关,在定类定序和定量三种类型中,位置都是最有效的视觉通道。

图1:不同可视化方法的适用情形。

当维数增多时,我们可以使用图标(glyph)、维度的递归细分(dimensional stacking)、平行坐标(parallel coordinates)和散点图矩阵(scatterplot matrix)等方式来可视化。图标通过形状、大小、颜色和位置等属性传达一个或多个数据值。维度的递归细分通过在维度中嵌入其他维度来可视化高维数据。平行坐标把变量映射为彼此平行的垂直轴,数据项映射为轴上相交的多段线,由轴和多段线之间的交点标记数据值。散点图矩阵每行和每列都表示一个变量,每个网格以散点图的形式反映对应两个变量之间的关系。是在散点图矩阵中,如果直接从一个散点图过渡到另一个散点图而不做任何处理,当散点图之间没有共享维度的时候,用户的心像地图很难保持。ScatterDice [Elmqvist et al. TVCG 2008]通过类似掷骰子的方法来帮助完成散点图过渡。过渡仅限于沿矩阵中相同行或列做正交移动,并通过三维旋转完成,而不是简单地通过插值来获取过渡中每个点的位置,从而为点的移动赋予了一定的语义(图2)。

图2:ScatterDice帮助完成散点图矩阵的导航。

然而,上述方法不适用于维度(自变量)较多的情况。McGuffin教授随后介绍了自己在2013年的工作GPLOM [Im et al. TVCG 2013]。在GPLOM中,散点图用于展示成对的连续变量,柱状图用于显示一个连续变量与一个分类变量的关系,热力图用于显示一些选定的连续变量作为一对分类变量的函数(图3)。它能够一次性显示多个分类和连续变量,避免了维度递归细分的组合爆炸。

图3:GPLOM。

随后Michael McGuffin教授介绍了图可视化的相关内容。在图可视化中有各种各样的算法,Michael McGuffin教授介绍了其中几种简单的算法。力导向图布局通过模拟一个物理系统,定义节点之间的引力和斥力,来对图中的节点进行布局。在力导向布局算法的基础上,使用stress majorization方法能保证图布局的收敛。另一种图可视化方法是弧线图 ,它所有节点排列成一条线上,用弧线连接节点,非常易于编程实现。改变节点的排列顺序,可以减少边的长度,改变弧线的弧度,可以减少占用的空间(图4)。由于节点排列在一条直线上,另一个维度可以用来编码其他的信息。

图4:弧线图

另外一种图可视化的方法是邻接矩阵法,如果两个节点相连,则在矩阵中做一个标记。改变矩阵行列的位置,在节点之间增加连边,可以提高邻接矩阵法的效果(图5)。

图5:邻接矩阵法 。

Michael McGuffin教授介绍了一种优化弧线图和邻接矩阵法效果的方法barycentric heuristic,这种方法通过迭代计算更新节点的位置为他的邻居位置的平均值。经过一定次数的迭代后,节点的位置会达到收敛的状态。如下图所示是使用barycentric heuristic方法前后的图可视化效果(图6)。

图6:使用 barycentric heuristic 方法前后的图可视效果对比。

晚上,Benjamin Bach教授讲授的主题是Data-Driven Storytelling with Data Comics,即如何用数据漫画讲述数据驱动的故事。首先将教授澄清了探索数据和解释数据的区别,在使用数据讲故事时,第一是我们不必以数据为中心,而是要以我们的观众为中心;第二是探索时我们需要尽可能多的探索数据,而讲故事时要尽可能的简洁;第三个是探索是要尽可能的运用专业知识,但是在解释是则需要用大众化语言来解释;第四个是在探索时要洞察内在,解释时传递信息;第五个是探索时可以控制实验的条件,解释时要考虑真实情况;第六个是探索时可以尽可能的长篇大论,而解释时需要直击要害;最后是解释时要比探索时更注重精确性(图7)。

图7:数据探索和数据解释的区别。

随后Benjamin Bach教授介绍了一些有趣的案例,例如的名为What Americans THINK The Distribution is 的Data Videos(图8),讲述了美国贫富差距的理想与现实差距,并且说明这一差距比人们想象中的更大。视频使用了很多的动画,通过对比显示、颜色使用与各种各样生动的可视化讲述了data的分布,充满浸入感和冲击力。

图8:优秀数据故事案例-What Americans THINK The Distribution is。

之后,Benjamin Bach教授通过5个活动来帮助暑期课程的各个小组基于各自的项目来使用数据漫画讲述一个故事。在Activity1中,教授介绍了一个好用的故事管理网页,让我们把可能的观众的信息和我们要对他们传递的信息写在上面,从而有助于我们更精准的传达观众感兴趣的信息(图9)。

图9:Activity 1 – Audience。

在Activity2中本杰明教授介绍了miro的另一个功能:用来帮助可视化更好的传达信息。我们可以记录下我们故事中的三个方面,第一是可视化的目标;第二是我们如何使数据更有信服力地传达目标信息;第三是需要为他们介绍的预备知识(图10)。

图10:Activity 2 – Messages。

在Activity3中本杰明教授介绍了写“剧本”的方法,剧本的创作过程应该明确我们的要点。miro帮助我们梳理这个过程。它允许团队成员记录下故事中的关键之处,最后合成团队的完整版本(图11)。

图11:Activity 3 – Scriping。

在Activity4中本杰明教授还介绍了一个实用的可视化工具-Visualization Cheat Sheets:Cheat sheets 致力于支持用户理解数据可视化技术的术语、构成、如何与数据关联等。我们可以使用这个工具来帮助我们在miro中添加将要使用的可视化形式与对他们的解释说明(图12)。

图12:Activity 4 – Visualizations。

最后,本杰明教授在Activity5中,介绍了Storyboarding的使用,这是数据漫画的最后一步,可以记录我们的叙述结构、模型、视图,同时将它们放在我们的STORYBOARDING之中(图13)。

图13:Activity 5: Storyboarding。

评论关闭。