2021年北京大学可视化发展前沿研究生暑期学校 – Day 5

今天(2021年7月19日)的课程是由来自马里兰大学的Zhicheng Liu教授带来的主题为可视化设计中的概念、方法与工具,来自蒙纳士大学Tim Dwyer教授讲授的图可视化和来自塔夫茨大学的Remco Chang教授关于用户分析和交互式机器学习的内容。

Zhicheng Liu教授首先将可视化设计分为两类,一类是直接设计一个为领域专家或大众服务的可视化系统,另一类则是设计可视化创建工具,即对设计工具的设计。无论在哪种设计里,稳健性,实用性和吸引力都是设计者应该关注的内容。

设计的两种类型

首先Liu教授对第一种设计,即对可视化系统的直接设计,进行了一个简要的介绍。他将这一部分的设计的目的分为了三个大类——实践 (practice),探索 (exploration)以及研究 (study),并将设计的流程总结为了三个阶段九个步骤 [1]。

设计流程的框架

而在学习设计时,批判 (critique)与重新设计 (redesign)都是极其重要的提高自身设计能力的途径。

之后Liu教授对可视化创作工具的设计进行了更为详细的介绍。他首先从历史上已有的支持可视化创作的语言与工具进行介绍,Liu教授为我们介绍了这些经典而著名的语言与工具的特点。

可视化语言和工具包

在介绍完这些经典的工具之后,Liu教授提出了另一种的可视化创作工具的设计方向,他认为使用代码编写方式进行设计具有学习曲线陡峭以及难以快速迭代的特点,所以一种积木搭建式的,所见即所得的可视化创作工具将具有更大的优势。接着Liu教授介绍了一些前沿的所见即所得的可视化创作工具,像Lyra [2],iVisDesigner [3], Charticulator [4]等,也包括Liu教授自己的论文Data Illustrator: Augmenting Vector Design Tools with Lazy Data Binding for Expressive Visualization Authoring [5]。

在最后,Liu教授抛出了两个当前可视化创作工具尚未彻底解决的问题,第一个是对数据的假设,大部分工具都要求数据被格式化并存储在一个大的表格中;第二个则是任务的假设,大部分可视化创作工具在其用户没有明确的设计目标或对数据了解很少时,并不能为用户提供较大的帮助。

来自蒙纳士大学的Tim Dwyer教授给我们带来了网络可视化的精彩报告。首先是一些有趣的网络可视化实例,包括经济复杂性地图和昆士兰COVID-19爆发地图。这些可视化不仅能够生动的展示数据,而且能够给我们带来大量的知识。

病例传播图可视化

之后是介绍网络可视化的相关研究工作,这部分工作大部分都集成在基于约束的网络创作系统Dunnart [6]。在该系统中,用户可以创建节点和链接,并调用分层布局或流式布局等布局算法。布局算法优化采用的是受约束的Stress Majorization方法,在一定限制范围内对x和y方向分别进行迭代式优化。为了避免节点之间重叠,作者开发了快速节点重叠去除算法,核心的部分是通过二次规划解决。此外,还支持rubber band routing,也即网络中的链接不一定是直线,而是具有多个关键点的折线。这样的做法可以效果的避免节点和链接以及链接之间的重叠,提高布局的可读性。上述网络可视化技术与工业界结合的一个例子是微软的CodeMap,通过显示代码中函数和变量之间的引用网络,帮助用户找到程序中的漏洞。

Dunnart界面

其他的网络可视化工作包括边数目压缩、大图比较等主题。边数目压缩算法针对的是拥有大量边的网络,通过引入框表示集合的关系来减少边的数目,也即如果一个节点到N个节点之间均有连边,可以使用框圈定N个节点,然后使用一条连边表示它们之间的关系 [7]。针对大图的比较,已有的点边图存在遮挡严重的问题,而邻接矩阵的空间利用率很低,因此Tim Dwyer教授与合作者们提出Graph thumbnail [8],使用气泡图的形式展示和比较大图。

晚上的课程是由来自Tufts University的Remco Chang教授带来的关于用户交互分析的以及交互式机器学习的内容。

Remco Chang教授在第一堂课上为我们介绍了有关用户交互分析的内容。他主要从分析用户交互的动机,用户交互的实质是什么,我们能从用户交互中获取什么,以及未来的用户交互的设计方向四个方面为我们讲述了一场精彩的课堂。

Chang教授首先介绍了研究用户交互的动机。他将一个可视化探索发现的过程抽象为了一个模型,在这个模型中,以可视化设计者的角度看来,数据,可视化,交互以及我们需要探索的问题都是已知的,唯一的未知变量就是用户,我们无法知道可视化系统的用户的思维的特点,也无法知道在一个特定的探索阶段时用户内心的意图是什么,但这些都是对整个探索过程极其重要的,这也就自然地推导出了对用户交互进行分析的重要性,我们需要通过研究用户在可视化系统上的交互,来推导还原其内心的想法,从而是的可视化系统做出自然的顺从用户意图的反应。

之后Chang教授用一个有趣的小例子介绍了交互在用户探索过程中起到的其中重要作用——探索过程中用户的交互可以用户的一种分布式认知(distributed cognition),交互可以实体化地凝结用户的认知与推理,从而减轻用户心中的认知负担。一个简单的例子就是如何设计一个倒着的汉诺塔游戏交互,这个倒着的汉诺塔游戏规则包含(展示的三条,而三种备选的交互设计包括使用三个碗+三个橘子,三根柱子+三个甜甜圈,以及三个咖啡杯。从减少用户的认知负担的角度来说,使用三个咖啡杯是最好的选择, 因为此时规则2和规则3都被物理上的设定所凸显,用户如果没有遵守规则2和3,那么在交互中会得到自然的反馈(如果不遵守规则2,小杯子会落入大杯子中,如果不遵守规则3,用户很难在不已开大杯子的情况下拿到下面的小杯子)。而如果使用橘子+碗的方案,用户每次决策之前都要在脑海中检查三条规则,才能做出正确的选择。

在认识到用户的交互是一种用户心理模型的外在表现之后,Chang教授使用几个真实的实验为我们展示了从交互之中还原用户心理的可能性。例如他在IEEE VAST 2014上发表的论文Find Waldo: Learning about Users from their interactions [9]就进行了这样一个实验,他们收集了许多用户在完成一个看图找物的游戏Finding Waldo的交互过程,并依据交互记录中的许多特征来预测用户的完成游戏时间的快慢以及用户的性格等,发现是具有较好的效果的。

同时Chang教授在SIGMOD 2016上发表的论文Dynamic Prefetching of Data Tiles for Interactive Visualization [10]中,也展示了通过分析用户交互预测用户之后要访问的数据块的算法的功效。

在最后Chang教授还在交互设计方面构想了一些新的方向,他认为,一种能够直接操纵可视化结果的交互式更加有效的,这种交互相当于将原本分开的输入 (交互调整参数)与输出 (可视化结果)合为一体,能够更加清晰地体现用户发出交互的内心意图,从而能够更加有效地完成整个探索分析流程。

Remco Chang教授第二节课的主题是交互式机器学习,包括两个方向:可视化支持机器学习 (VIS4ML),目的是使用可视化来优化建模和模型,和机器学习支持可视化 (ML4VIS),目的是使用机器学习建立新的可视化或提升可视化的能力。

Chang教授首先定义了数据、训练测试过程以及机器学习的组成,包括算法、参数、超参数、模型。之后他介绍了探索式数据分析的历史,以及可视化支持的统计。可视化支持机器学习是一种自然的拓展,同时又包含数据量巨大和以预测为目的的不同特点。数据量巨大使得直接可视化全部数据变得困难,此时需要借助机器学习总结数据和进行投影。

可视化支持机器学习有五个主要的目标,包括数据检查或准备、特征或参数分析、学习过程理解、比较分析和结果或模型质量分析,这五个目标与机器学习流程的各部分相关。

机器学习流程

Chang教授介绍可视化可以帮助观察数据分布和异常值,和数据清洗的工作Data Wrangler [11]。他认为可视化在数据准备和清洗方面的工作还有很大的空间。在特征或参数分析方面,他讲解了关联矩阵以去除相关的冗余维度,但是这类工作不能帮助理解属性的语义和因果性。理解学习过程的工作包括机器学习教育、模型调试和模型训练引导,例如CNNExplorer帮助理解不同神经元的输出。比较分析任务的目的是选取合适的模型和参数。结果和模型质量分析包括可解释、准确性或错误分析、模型结构和解释、模型行为检查等。例如Google的Waht-if工具允许用户改变数据并观察结果的改变,从而理解对于模型,什么属性是重要的。Chang教授还介绍了可视化支持AutoML的工作 [12]。AutoML可以根据数据寻找优化的模型和超参数,但是它缺乏问题背景和领域知识,任务定义困难,并且需要进行模型的比较。AutoML的性能优于人类,而可视化支持的AutoML则优于AutoML方法。

机器学习支持可视化可以获得更好的设计、开发和评估,包括五个主题:数据处理、自动数据可视化映射、风格迁移、可视化交互和解释与评估,它们与可视化参考模型的组成大致一致。数据处理包括降维和半自动数据清洗;数据可视化映射包括可视化推荐、构建流程简化等,例如VizML [13]和Data2Vis [14];风格迁移包括颜色选择、布局学习等,例如网页风格转化、故事线自动布局;可视化交互包括学习用户的意图;解释和评估包括提取可视化的内容、预测人类感知,例如预测人在观察信息图时的注意力分布,帮助设计者改进设计 [15]。

预测视觉重要性

参考文献

  1. M. Sedlmair, M. Meyer and T. Munzner. Design Study Methodology: Reflections from the Trenches and the Stacks. IEEE Transactions on Visualization and Computer Graphics, 18(12): 2431-2440, 2012.
  2. A. Satyanarayan and J. Heer. Lyra: An Interactive Visualization Design Environment. Computer Graphics Forum, 33(3): 351-360, 2014.
  3. D. Ren, T. Höllerer and X. Yuan, iVisDesigner: Expressive Interactive Design of Information Visualizations. IEEE Transactions on Visualization and Computer Graphics, 20(12): 2092-2101, 2014.
  4. D. Ren, B. Lee, and M. Brehmer. Charticulator: Interactive Construction of Bespoke Chart Layouts. IEEE Transactions on Visualization and Computer Graphics, 25(1): 789–799, 2019.
  5. Z. Liu, J. Thompson, A. Wilson, M. Dontcheva, J. Delorey, S. Grigg, B. Kerr, and J. Stasko. Data Illustrator: Augmenting Vector Design Tools with Lazy Data Binding for Expressive Visualization Authoring. In Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, Paper 123, 1–13.
  6. T. Dwyer, K. Marriott, and M. Wybrow. Dunnart: A Constraint-Based Network Diagram Authoring Tool. In Proceedings of 16th International Symposium on Graph Drawing (GD’08), LNCS 5417, 420–431, 2009.
  7. T. Dwyer, N. H. Riche, K. Marriott, C. Mears. Edge Compression Techniques for Visualization of Dense Directed Graphs. IEEE Transactions on Visualization and Computer Graphics, 19 (12): 2596-2605, 2013.
  8. V. Yoghourdjian, T. Dwyer, K. Klein, K. Marriott and M. Wybrow, Graph Thumbnails: Identifying and Comparing Multiple Graphs at a Glance. IEEE Transactions on Visualization and Computer Graphics, 24(12): 3081-3095, 2018.
  9. E. T. Brown, A. Ottley, H. Zhao, L. Quan, R. Souvenir, A. Endert, R. Chang. Finding Waldo: Learning about Users from their Interactions. IEEE Transactions on Visualization and Computer Graphics, 20(12): 1663-72, 2014.
  10. L. Battle, R. Chang, and M. Stonebraker. Dynamic Prefetching of Data Tiles for Interactive Visualization. In Proceedings of the 2016 International Conference on Management of Data (SIGMOD ’16), 1363–1375.
  11. S. Kandel, A. Paepcke, J. Hellerstein, J. Heer. Wrangler: Interactive Visual Specification of Data Transformation Scripts. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 3363-3372, 2011.
  12. D. Cashman, S. R. Humayoun, F. Heimerl, et al. A User-based Visual Analytics Workflow for Exploratory Model Analysis. Computer Graphics Forum, 38(3): 185-199, 2019.
  13. Kevin Hu, Michiel A. Bakker, Stephen Li, Tim Kraska, and César Hidalgo. 2019. VizML: A Machine Learning Approach to Visualization Recommendation. In CHI Conference on Human Factors in Computing Systems Proceedings, 1-18, 2019.
  14. V. Dibia and Ç. Demiralp. Data2vis: Automatic Generation of Data Visualizations Using Sequence-to-Sequence Recurrent Neural Networks. IEEE Computer Graphics and Applications, 39(5): 33-46, 2019.
  15. Z. Bylinskii, N. W. Kim, P. O’Donovan, et al. Learning Visual Importance for Graphic Designs and Data Visualizations. In Proceedings of the 30th Annual ACM symposium on User Interface Software and Technology, 57-69, 2017.

评论关闭。