IGAL可视化讲习班-3:数据科学工作流的可视化设计 – 赵健

12月26日下午的第一个可视化前沿讲习班的报告是由赵健研究员报告数据科学工作流的可视化设计。赵健研究员来自美国FX Palo Alto实验室,他的研究兴趣主要包括信息可视化、人机交互以及数据科学。数据科学工作流是指利用可视化的方法提高整个工作流的工作效率。主要分为以下4步:准备输入数据,进行数据探索,模型创造和结果展示。赵健老师主要围绕后三个步骤分析数据科学工作流。

图1  数据工作流

图2  好的可视化系统

如何实现一个好的可视化系统是一个复杂的问题。每个领域的问题都有各自的特点,很难建立一个通用的可视化方法解决所有问题。对于具体的问题,需要具备特定的领域知识。设计一个易用有效的系统也是必要的考量。

图3  数据工作流

数据科学工作流的每个阶段作用的对象不同。在模型创造阶段主要研究的问题是,如何用可视化的方式让数据模型和用户联系的更紧密。

图4  ChronoLenses

首先,在数据层面,我们常常需要在很大的信息空间内进行探索。而在这个过程中我们常采用探索式数据分析,即EDA。赵健老师在这里讲述了他的一篇基于时间序列EDA的工作,ChronoLenses[1]。这篇工作利用透镜的形式对数据进行处理。动态分析的基本单元是透镜,透镜将输入数据进行一次操作,并给出输出数据。我们既可以将多个透镜串联在一起,形成线性结构,也可以将透镜按层次排列,形成层次结构。这样,我们就可以用若干个透镜的操作以及组合方式,对数据进行处理,从而达到对数据探索的目的。

图5  MOOCex

而在我们探索数据的过程中,有时一些辅助分析的模型会给出一些探索的建议。目前的推荐界面,比如搜索引擎的搜索结果,以及视频网站上相关视频的推荐,都是基于线性的排序表。但是,线性排序表在很多情况下是不够的。赵健老师对于这个问题,并以慕课为基础,提出了MOOCex系统[2]。对于用户正在听的一节课,该系统将这节课、这节课前后的两节课,以及推荐的课,计算他们之间的相似度,用MDS生成二维空间布局。这样,具有较高相似性的两节课在空间布局中的距离也会较小。这样用户就可以根据自身需求,来自由选择接下来要听的课。

图6  FluxFlow

对于模型创造阶段,赵健老师介绍了FluxFlow系统[3],帮助machine learning专家查看模型输入输出以及产生的中间变量,它应用了OCCRF这个类马尔科夫模型,包含了8个隐藏变量。通过可视化一条推特转发的路径,探索谣言的发生演变过程。运用用circle packing算法,图背后的条形代表了model里产生的hidden state。通过可视化我们可以看出不同消息之间的模式,谣言与非谣言之间的差异。在这个例子中,用户变得越来越异常。从结果来看,模型认为hushtag和url是造成异常的主要原因,并且需要更多的语义信息。

图7 T-Cal

对于展示交流见解阶段,赵健老师介绍了T-Cal这一工作,展现了企业里员工的沟通方式。现在企业中员工之间交流多利用即时沟通app,对于交流信息的呈现存在以下几个问题,信息过多,数据复杂,对话交错,内容是多媒体的。对于年,T-Cal采用日历样呈现企业里团队的对话[4]。对于星期,系统采用弯曲的线来展示对话的频率,参与者及时间。

最后赵健老师指出,在未来,我们希望解决数据、模型和用户三个方向之间的交互问题。对于单一用户与数据之间的关系,我们希望对大数据有更加智能的可视化探索方法;对于单一用户与模型之间的关系,我们希望用可视化的方法让模型更具有可解释性;对于多用户与数据之间的关系,我们希望对数据的分析更像是story telling的形式;对于多用户与模型之间的关系,我们希望利用可视化的方法增强在建模和分析的过程中用户之间的交流。

图8 赵健与学员交流

参考

[1] Zhao J, Chevalier F, Pietriga E, et al. Exploratory analysis of time-series with chronolenses[J]. IEEE Transactions on Visualization and Computer Graphics, 2011, 17(12): 2422-2431.

[2] Cooper M, Zhao J, Bhatt C, et al. MOOCex: Exploring Educational Video via Recommendation[C]//Proceedings of the 2018 ACM on International Conference on Multimedia Retrieval. ACM, 2018: 521-524.

[3] Zhao J, Cao N, Wen Z, et al. # FluxFlow: Visual analysis of anomalous information spreading on social media[J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(12): 1773-1782.

[4] Fu S, Zhao J, Cheng H F, et al. T-Cal: Understanding Team Conversational Data with Calendar-based Visualization[C]//Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems. ACM, 2018: 500.

评论关闭。