深度热成像:一种通过深度学习实现的的表面温度模式的近程材料识别(Deep Thermal Imaging: Proximate Material TypeRecognition in the Wild through Deep Learning of Spatial Surface Temperature Patterns)

在当今的研究中,近端的传感器感知问题备受关注,旨在感知近距离内物体的存在。可以使用的传感器包含超声波传感器、电容传感器、雷达传感器、光电传感器等。在人机交互方向应用的工作中,已有有许多工作借助这类传感器实现近端物体感知的任务。如帮助建筑工人避免危险,帮助自闭症患者感受周围的环境以及监测用户的手势或行为以实现用户在与大屏幕或其他设备更高层次的交互。这一类工作关注于提升对周围环境的感知,一方面仅仅标注出周围有物体的存在,另一方面旨在检测预定义的材料或物体,如人的皮肤。这样显然是不够的,我们可以通过使用传感设备实现对材料的感知来获得更加丰富的环境信息,同时引入更加新颖的交互方式。同样一些已有的工作通过一些传感信号实现了对于材料的分类任务。如基于光敏电阻的,基于低价的简易雷达系统的、基于手机的前向摄像头或闪光灯以及基于摩擦力和加速度计的工作。然而当前的工作中存在一系列的不足。一方面,许多材料探测识别的方式需要传感器和材料表面的近距离的接触,这样的行为可能是有风险的,亦或是不能为社会所接纳的,同时还会影响反馈的实时性。一些避免了接触的工作通常使用可见光频段的成像探测设备,这样的设备对于光照十分敏感,难以给出稳定的输出。基于以上原因,本文提出一种基于深度学习的使用可见光频段外的信号,使用热学成像的方式来实现材料的识别分类问题。

以上是本文的流程图。首先通过移动设备实现对于不同材料的数据收集,对数据进行预处理后,生成数据集训练模型。对于新数据输入,经预处理后放入训练好的模型,得到材料的识别和分类的结果。接下来本文将详细给出几个部分的技术细节。

数据收集和预处理部分,本文采用了一个廉价的光学照相机,成像分辨率为160*120。对于成像的图像结果,本文首先进行了裁剪,仅仅选取中心的75*75的窗口作为我们的兴趣区域。这样的操作减少移动热成像中引起镜头引起的校准错误,在图像的边缘区域可能会呈现出极高或者极低的温度。接着本文对于兴趣区域的数据进行动态范围量化,使用线性变换的方式将原始的数据范围映射到目标的范围。通过这样的方式可以避免直接去测量实际的温度,而是关注于在整个材料表面的热力辐射的分布情况,从而使得数据更加稳定更具不变性。再者,这样的变换使得相邻温度差扩大,可以创造出更加不同的空间热力场的模式。

深度学习模型部分,本文采用的网络为空间变换网络(Spatial Transformer Network)。网络基本思想是将网络的变换过程建模为一个仿射变换。仿射变换的核函数并不是预先决定的,而是在训练的过程产生。网络的基本结构为一个跨层连接的形式,分为三个子网络结构,具体结构如下图所示。

Localisation Network部分由特征图出发进行变换,产生描述仿射变换的一个矩阵。Grid Generator部分部分地执行仿射变换,对于产出图片的每一个像素寻找参与执行变换的多个特征图中的原始像素点。Sampler部分对于寻找到的原始像素点位置进行插值,最终计算完成变换后的生成图像。

文章选择该模型的理由包含以下两点。首先,空间变换网络可以十分高效地对于原始的图像提取出一些仿射不变量,这对于本文需要处理的数据十分有帮助,因为本文待识别的材料在数据采集的过程中受到很多因素的影响。其次,该网络结构对于地分辨率的数据仍然具有很强的适应性,这又与本文采用的廉价的、易于集成的摄像头采集的低分辨率图像数据相适应。本文的深度学习网络基于MatConvNet实现,同时还给出了一系列训练中的参数。如设置学习率为0.001,迭代350次,批大小为256,同时采用Dropout的训练策略。本文在后续部分论述了其重要性,在实验2中可以提升10%的准确率。

最终的系统实现基于一个客户端和服务器的主从模型,客户端采用一个集成了热力学摄像头的智能手机采集拍摄图像数据。同时对数据采取一定的预处理,如裁剪和动态范围量化方式。将处理后的热力图像数据通过基于TCP-IP的协议传输给服务器,构建训练的数据库集合,训练深度学习模型。当待识别数据由客户端采集后,传输到服务器端运用深度学习模型进行分类后传回客户端得到分类结果。具体流程如下图所示。

本文构建的实验数据集分为两部分,分别为室内材料和室外材料。室内材料一般在房子或者办公室的背景下,有一个稳定的、控制良好的环境。而室外的材料则在温度、纹理、几何形状等方面有多变的几何形状,因为其可能暴露在多变的热力学环境下,同时可能附着其他的材料。气候的因素同样会产生重要的影响。数据集中具体选取的材料如下图所示。

对于这些选定的材料,我们考虑在不同的因素下,采集热力学图像。最终的数据集保证对于每一个确定的材料收集一系列多种多样的不相类似的图片,以保证模型具有最大化的泛化能力。本文考虑的因素包括以下多个方面,如不同的视角和采样距离、不同的采样地点、每天不同的采样时间,不同的气候温度条件等。

在室内的材料数据集中,本文共计包含15种不同的材料共计14,860个标注的热学图像。本文采用10折交叉验证来验证模型的预测正确性和该数据集赋予模型的表达能力。模型表现非常好,预测的正确率非常高,这充分证明了模型在室内环境下的有效性和稳定性。

在室外的材料数据集中,本文共计包含17种不同的材料共计26,584个标注的热学图像。本文同样采用10折交叉验证来验证模型的预测正确性和该数据集赋予模型的表达能力。预测的结果较之前的实验有所下降,但考虑到基于RGB图像来进行材料分类的工作50%左右的预测准确率,这同样充分证明了模型在室外环境下的有效性和稳定性,但由于数据的复杂性带来的准确率下降,我们仍需给出更多情形来覆盖模型的表达能力。

在室外的材料数据集中,还给出了一些模型未曾学习到的场景下的数据进行测试。模型的预测正确率非常低。说明本文给出的模型完全是数据依赖的,如果数据集没有给出类似的场景,模型无法外推出正确的结果。

在文章的最后,本文给出了一系列本文技术应用场景,如AR场景内的标注、协助式机器人、地图标注等。

总的来说,本文提出一种材料识别的新技术,即采用热力学成像来解决该问题。本文应用的设备为一个低成本的热力学摄像头,可以被简单的集成到手机上。同时本文考虑多种因素,建立了一个丰富的数据集,为之后的工作奠定基础。本文使用的模型同样非常适应于该任务,尽管输入数据分辨率很低,却仍然给出了很好的表现,但模型对于新数据适应能力不强。

 

评论关闭。