标签存档: 深度学习

利用深度神经网络生成上下文图像以增强视觉体验(ExtVision: Augmentation of Visual Experiences with Generation of Context Images for Peripheral Vision Using Deep Neural Network)

上下文图像(context image)是指展示图像周围的信息的图像。在用户的周边视野中展示上下文图像可以使用户获得更加沉浸和令人激动的观看体验(例如:观看视频,游戏时)。然而,周边视野展示系统并未被广泛使用,这是因为实时地提供上下文图像很难。已有的相关工作中,飞利浦公司的AmbilightTV[2]在屏幕周围添加LED灯条,灯光颜色与屏幕边缘像素颜色相同;飞利浦公司的AmbiLuxTV[3]在屏幕背后添加投影仪,将放大的模糊图像投影到背景墙上。Jones Brett等人[4]提出IllumiRoom,使用两个摄影机在相同角度同时拍摄主要视频以及上下文视频,在使用时,展示主要视频的同时,使用投影仪将上下文视频投影到背景中。Aides Amit[5]提出MultiScale方法,将视频中的每一帧根据其相邻帧的内容外推出周边区域的内容,这种方法计算较为精准,但每处理一帧需要花费数分钟,不具有实时性。

图1 图像及上下文图像

继续阅读 »

基于深度学习的垂直菜单用户选择行为预测(Predicting Human Performance in Vertical Menu Selection Using Deep Learning)

在个人电脑和其他智能设备的交互中,基于垂直菜单的选择交互一直占有重要的地位。研究用户与这一类垂直菜单的交互行为本身具有很大的意义,同时基于模型预测预测用户的交互行为又可以大大降低使用真实用户来测试交互系统时的巨大开销。而当下的模型大多基于信息论以及实验心理学内容,仅仅局限于用户交互的某一个方面,而且对于可能涉及的新的因素,很难对模型进行有效的拓展以增加适应性。本文将深度学习引入此问题的分析中,提出一个基于长短时记忆网络的模型来解决这一问题。

继续阅读 »

分析深度生成模型的训练过程 (Analyzing the Training Processes of Deep Generative Models)

DGMTracker系统界面

深度生成模型是针对非监督学习和半监督学习的一种强有力的解决方案。通过深度生成模型,深度学习在没有外部数据标签或者带标签数据集过小的情况下仍然能继续工作。与其他的深度模型,比如卷积神经网络,更强有力的深度生成模型,也意味着其训练过程对训练者的要求更高。一方面,生成模型既有着确定性的函数,又包含随机变量;另一方面,生成模型是一种自上而下不断生成细节的过程,而诸如卷积神经网络则是从细节中不断提取高层特征的自底向上的过程。综合这两方面,如果理解深度生成模型的训练过程,以及如何对其过程进行诊断就变得尤其重要。本文就考虑用可视分析的手段来帮着这个分析过程。

继续阅读 »

LSTMVis:一个递归神经网络中隐含状态动态变化的可视分析工具 (LSTMVis: A Tool for Visual Analysis of Hidden State Dynamics in Recurrent Neural Networks)

图3:LSTMVis的用户界面

深度神经网络已经在计算视觉、自然语言处理等许多领域中取得了卓越的性能表现。深度神经网络能够自动地学习输入数据的隐含特征表示,用于相关任务。之所以称之为“隐含”特征表示,是因为这些特征表示难以以原始输入数据的形式表示出来,从而让使用者难以理解深度神经网络到底学习到了数据的什么信息。现有的研究中,有许多深度神经网络被广泛应用:标准的前馈神经网络、用于图片任务的卷积神经网络、以及用于对序列数据建模的递归神经网络等等。本文主要关注一类递归神经网络——长短期记忆(Long Short-Term Memory, LSTM)模型中隐含状态表示的可视化。

继续阅读 »