IGAL可视化讲习班-5:针对元数据和质量管理的可视分析 – 刘世霞

可视化前沿讲习班第二天上午的第一个课程来自清华大学软件学院的刘世霞老师。她曾先后就职于IBM中国研究研究院与微软亚洲研究院,是ACM CHI,IEEE VIS等会议的项目委员。她的近期工作主要集中在文本可视化与可解释机器学习(XAI)。本次课程她结合自己的工作探讨如何有效利用可视分析来解释隐藏知识,为同学们带来了精彩的演讲。

图1. 刘世霞老师在讲授

刘世霞老师主要从以下两个方面来介绍她的工作:

  1. 科研调研:使用半自动方法进行可视分析,理解科研趋势,寻找潜在科研方向。
  2. 机器学习工程化:
    1. 提高众包标记数据的质量;
    2. 基于日志数据解释机器学习训练过程中的内在工作流程,以便模型调整。

科研调研

刘老师提到,在数据驱动的今天,科研论文越来越多,如何针对这些论文进行领域内的调研越来越称为一个问题,这个工作针对这个问题,采用了半自动化的方式调研交叉领域,帮助理解研究趋势,寻找研究方向。

图2. 科学调研可视化系统

在科研调研的工作中,刘世霞老师通过结合半自动的方法和可视化系统来理解交叉领域间的科研趋势,以及寻找潜在的研究方向。

这一工作涉及1992年到2017年涉及文本挖掘的可视化领域的论文和数据挖掘领域的论文。其中263篇可视化的论文是根据多年领域积累从期刊和会议中手工整理而来。而由于数据挖掘领域论文量巨大,刘世霞老师对其进行基于论文元数据的针对性提取,最终得到4346篇。

图3. 概念模式探索

获得需要的数据后,刘世霞老师使用自然语言处理(NLP)技术对论文进行概念的提取,从论文文本的模式逐渐提取到候选的论文中解决的分析任务、挖掘技术,再结合专家意见,得到最终的分析任务和挖掘技术。随后使用k-means对任务和挖掘技术进行层次化聚类,并且结合专家意见不断进行迭代。最终将结果可视化出来。

随后则是工作中一些case study,刘世霞老师依次展示了如何利用该系统用于理解科研趋势和寻找新的科学方向。例如,对于理解科研趋势,可以利用该系统看到,在263篇可视化论文中,共有102篇论文使用的可视化方法为chart,有131篇可视化论文使用的数据挖掘技术为建模;对于寻找新的科学方向,利用该系统可以看到预测性分析是在可视化领域中研究较少的任务,可以考虑将其作为新的研究方向。

机器学习工程化

众包标注质量分析

图4. 根据不同工作者的特点,找出partial spammer worker

在机器学习中,有监督学习的应用最为深刻和广泛,从而获取高质量的标注数据就格外重要。

接下来,刘世霞老师分享了她的另一个工作,用以提高众包标注数据的质量,这可以帮助有监督学习和半监督学习。通过机器学习的方式识别不同标注者的标注状况矩阵,找出其中的partial spammer worker(random spammer难以识别),去除这部分的标记数据重新训练模型,可以获得更好的结果。

机器学习黑盒分析

图5. 少量噪音严重干扰了深度神经网络的判断,导致大熊猫被判断为猴子

在这一部分,刘世霞老师讨论到可解释机器学习对于模型的分析、理解。在深度学习中,鲁棒性逐渐成为今年来研究者关注的问题,由于针对性地添加噪音,就会使模型的判断结果完全不同。

图6. 解释神经网络错误判断大熊猫的原因

为了帮助理解深度学习模型,提升其鲁棒性,刘世霞老师及其团队提取了每幅图片在深度学习中每一层的路径,帮助判断在哪一层或者哪一个特征决定了某次错误的判断。从而帮助人们更好地理解深度学习模型。例如,大熊猫的图片增加噪音后会被判断为猴子,刘世霞老师通过追踪该图片在模型中的路径,找到它在哪一层的判断出现了大规模变动,从而发现噪音中一部分的白色会被判断为猴子脸部的模式。在原有可解释机器学习的工作基础上,刘世霞老师还分享了一些半自动方法分析交叉领域研究趋势的工作,可以发现交叉领域的研究状况并且发掘可能的新的研究方向,对于帮助调研有着非常重要的作用。

 

评论关闭。