上下文图像(context image)是指展示图像周围的信息的图像。在用户的周边视野中展示上下文图像可以使用户获得更加沉浸和令人激动的观看体验(例如:观看视频,游戏时)。然而,周边视野展示系统并未被广泛使用,这是因为实时地提供上下文图像很难。已有的相关工作中,飞利浦公司的AmbilightTV[2]在屏幕周围添加LED灯条,灯光颜色与屏幕边缘像素颜色相同;飞利浦公司的AmbiLuxTV[3]在屏幕背后添加投影仪,将放大的模糊图像投影到背景墙上。Jones Brett等人[4]提出IllumiRoom,使用两个摄影机在相同角度同时拍摄主要视频以及上下文视频,在使用时,展示主要视频的同时,使用投影仪将上下文视频投影到背景中。Aides Amit[5]提出MultiScale方法,将视频中的每一帧根据其相邻帧的内容外推出周边区域的内容,这种方法计算较为精准,但每处理一帧需要花费数分钟,不具有实时性。

图1 图像及上下文图像
本工作使用基于pix2pix的深度卷积对抗生成神经网络(DCGAN)学习由原图像生成带有上下文信息的图像的过程。训练集中及测试集中,输入为放缩或裁剪后的256*256大小的图像,输出为同样256*256大小的上下文图像。由于本工作在模型方面未作出重大改动及创新,模型结构及参数等细节不再赘述。

图2 pix2pix模型的输入图像
针对此模型,本工作提出两种训练方法,两种方法的主要不同点为训练输入的不同。方法一:训练集为同一种类的图像(如:海洋、天空等),此方法训练的模型与图像种类相关,仅可预测生成相同种类的图像的上下文图像;方法二:使用视频中一些帧作为训练图像,训练的模型与图像种类不相关,可预测任意类型图像的上下文图像。两种方法训练结果如下图所示,方法一针对相对静态的背景有较好的训练结果,方法二针对背景频繁变化的场景有较好的训练结果。

图3 两种训练方法在不同数据集上的表现(左为输入,中为方法一的生成结果,右为方法二的生成结果)
相比于上文中提到的MultiScale方法,本模型生成的结果基本达到相似的准确度,且生成同等大小图片速度约提升360倍,下图为本工作方法一与MultiScale的生成结果对比。且本工作生成256*256大小的图像可达到30帧/秒,达到一般视频的帧数,具有实时性。

图4 方法一与MultiScale方法在不同数据集上的表现(左为输入,中为方法一的生成结果,右为MultiScale方法的生成结果)
在案例分析中,本工作使用6段视频作为播放视频,使用投影仪将由上下文图像组成的视频投影至55英寸屏幕的四周。作者招募了12人作为用户进行测试,每个用户观看两种效果的每段长约90秒的视频。一种效果中无上下文图像,即灰色背景;另一种效果中具有由上述深度神经网络生成的上下文图像。在每组两段视频结束后,用户将在一致性、沉浸感、舒适感、享受程度等6个方面共10个问题作出评价。下图为用户的评价结果,用户认为具有上下文图像效果的视频更令人沉浸与激动,且用户认为使用深度学习生成的图像在帧间具有很高的连续性。但用户在观看一段电视剧视频(此视频主要展示两人在狭小的房间里争论,镜头频繁在两人间切换)时感受到不适,用户认为上下文图像干扰了视频的观看。

图5 问题的统计结果,每一行中由左至右分别为反对、中立、赞成的用户所占百分比
总的来说,本工作提出一种基于深度学习的上下文图像的生成方法,且方法具有实时性。
参考文献:
[1] Kimura N, Rekimoto J. ExtVision: Augmentation of Visual Experiences with Generation of Context Images for a Peripheral Vision Using Deep Neural Network[C] Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems. ACM, 2018: 427.
[2] 飞利浦AmbilightTV, https://www.philips.co.uk/c-m-so/tv/p/ambilight
[3] 飞利浦AmbiLuxTV, https://www.philips.co.uk/c-m-so/tv/p/ambilux
[4] Jones B R, Benko H, Ofek E, et al. IllumiRoom: peripheral projected illusions for interactive experiences[C] Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. ACM, 2013: 869-878.
[5] Aides A, Avraham T, Schechner Y Y. Multiscale ultrawide foveated video extrapolation[C] Computational Photography (ICCP), 2011 IEEE International Conference on. IEEE, 2011: 1-8.
评论关闭。