标签存档: 机器学习

2018年北京大学可视化暑期学校 – Day 1 (2018年7月17日)

前一天刚参加完精彩的北京大学可视化发展前沿研究生暑期学校十年特别峰会,暑期学校的学员们就在7月17日投入到了紧张而充实的全面学习中。今天的暑期学校邀请的讲者是香港科技大学的屈华民教授和马里兰大学帕克分校的Leila De Floriani, Hanan Samet两位教授。三位老师结合各自所做的工作,从不同的角度向同学们展示了可视化的魅力。 继续阅读 »

基于深度生成建模的数字墨水可编辑化研究(DeepWriting: Making Digital Ink Editable via Deep Generative Modeling)

数字墨水有望结合手写的灵活性和美感,并且可以处理、搜索和编辑数字文本。在已有的工作中,字符识别将手写文本转换为数字表示,这将会损失个性化特征。同样的文字在不同人的笔触下会产生不同的结果,这些结果蕴含了用户的书写风格。此工作提出了一种新的神经网络架构,将内容和风格进行分离。从而使得书写结果可以在机器上得到编辑:包括改变书写风格或者内容。

对一个手工书写可以分解为两部分,内容和风格。如上图所示,手工书写表示成为x,可以分解成为风格z和内容π,如果可以对其进行划分,就可以将一个书写的风格和另一个书写的内容相结合构成新的书写。这样就达到的可编辑的目的。

继续阅读 »

喷气机引擎模拟数据之原位预测驱动特征分析(In Situ Prediction Driven Feature Analysis In Jet Engine Simulations)

在喷气机发动机转子中,局部气流不稳可能会对发动机产生不可逆的损坏,这种局部气流不稳称为滞障(Stall)。发动机运行过程中,相关领域的专家希望观察气流滞障的产生过程以及实时观测探究不同参数设置对滞障产生过程的影响。本工作主要探究的参数设置为矫正块流率(CMFcorrected mass flow rate)。

滞障没有明确定义及解析表达,判断某区域是否处于滞障状态只能依靠专家的经验知识。而依靠人力进行判断在大规模数据多时间步实时探究的要求下不可行。因此本工作提出了预测驱动的特征分析。在此预测驱动是指通过机器学习方法,学习专家对滞障状态的解析表达的判断。

继续阅读 »

Podium:用混合驱动的可视分析对数据排序(Podium: Ranking Data Using Mixed-Initiative Visual Analytics)

对数据进行排序是数据分析中基础的操作之一。人们使用排序来理解大数据集中最重要的元素、根据数据属性进行决策、或者给原本没有排名的数据增加排名以表达某种含义。例如,人们会按照统计数据给球队排名,会根据电影的特性或者票房给电影排序等等。人们也会将一些排名和自己的认识进行对比,例如球队的粉丝可能希望理解专家发布的排名是基于什么样的准则。

继续阅读 »

对TensorFlow中数据流图的可视分析(Visualizing Dataflow Graphs of Deep Learning Models in TensorFlow)

对TensorFlow中数据流图的可视分析

TensorFlow是谷歌开发的、当下最流行的机器学习软件库之一。它采用数据流图(Dataflow Graph)来表达机器学习算法的计算过程,用户可以定制不同的数据流图来构建自己的算法。然而,随着深度学习的兴起与流行,各类神经网络渐趋大规模、复杂化。算法开发者仅凭借自身的理解与记忆、很难把握算法的各部分体系结构,相互之间也难以进行沟通。为此,这篇文章[1]提出了可视化工具TensorFlow Graph Visualizer,通过可视分析帮助用户在TensorFlow中进行算法分析与开发。值得一提的是,该文章荣获了IEEE VAST 2017的最佳论文奖(Best Paper Award)。

继续阅读 »

一种基于三维卷积稀疏编码的体渲染智能系统方案 (An Intelligent System Approach for Probabilistic Volume Rendering using Hierarchical 3D Convolutional Sparse Coding)

图8:Kiwi数据和Aneurysm数据的体渲染结果,分别为[2]、[3]和本文方法

直接体渲染是一种表现三维体数据的强大可视化手段。过去数十年间,研究者们进行了大量的研究,来提高体渲染的速度与质量。其中,传递函数的设计是影响这两个指标的一个重要因素。传递函数将体素的值映射到诸如颜色、不透明度、可见性等光学性质。然而,要设计一个好的传递函数通常面临着很大的困难,对非专业使用者更是如此。绝大多数传递函数设计的方法都依赖用户大量的交互,用户需要根据数据的统计特征,通过不断试错,以求达到好的效果。这里的统计特征通常是数据某些属性的直方图。在本文中,作者提出了一种基于机器学习方法:三维卷积稀疏编码,能对体素进行精确分类,从而得到优秀的体渲染结果。同时,基于智能系统的交互方式,能让用户通过直观的输入,来完成传递函数设计过程。

继续阅读 »

DeepEyes: 用于深度神经网络设计的递进式可视分析系统 (DeepEyes: Progressive Visual Analytics for Designing Deep Neural Networks)

深度神经网络,在模式识别问题上,取得非常不错的效果。但设计一个性能好的神经网络,需要反复尝试,是个非常耗时的过程。这个工作[1]实现了用于深度神经网络设计的可视分析系统,DeepEyes。该系统可以在DNNs训练过程中,提取数据,从网络整体效果,神经层和神经元角度,分析神经网络运行状态,进而协助用户更新DNNs。

继续阅读 »

更好的理解分析深度卷积神经网络(Towards Better Analysis of Deep Convolutional Neural Networks )

深度卷积神经网络(CNNs)在特征识别相关任务中取得的效果,远比传统方法好。因此,CNNs常用于图像识别、语音识别等。但是,因为CNNs结构庞大,一般都会包含几十个神经层,每一层,又有数百至数千个神经元;同时,CNNs任意两层之间神经元的相互影响错综复杂。这两个主要的因素,导致CNNs难以理解、分析。为此,用户很难从失败或成功的例子中学习到如何设计一个好的卷积神经网络。因此,设计一个效果好的神经网络,往往需要依靠大量的尝试。

这篇文章提出了一个可视分析系统,CNNVis,支持机器学习专家更好的理解、分析、设计深度卷积神经网络。 继续阅读 »

解释器:结合定制化降维投影的数据探索 (Explainers: Expert Explorations with Crafted Projections)

数据的降维是高维数据可视化的重要一环,它使得抽象不可感的高维数据结构能在低维空间里部分地展现出来。现有诸多降维方法如PCA、MDS等都是基于数据统计属性的最优化得到的,它们能最大限度地减少降维过程中的信息损失,却无法提供关于降维结果的清晰的语义信息,增加了数据的解读难度。相对地,用户可能掌握着丰富的背景知识,或是了解数据的语义内涵,但这些都未被传统的降维方法所考虑,从而降维结果可能和用户的认知相去甚远,降低了降维方法的实用性。总而言之,现有的数据降维方法存在着语义性差、脱离用户背景的问题,这在数据建模、理论构造、解释论证等各方面给数据的分析和应用带来了困难。

继续阅读 »