基于深度学习的垂直菜单用户选择行为预测(Predicting Human Performance in Vertical Menu Selection Using Deep Learning)

在个人电脑和其他智能设备的交互中,基于垂直菜单的选择交互一直占有重要的地位。研究用户与这一类垂直菜单的交互行为本身具有很大的意义,同时基于模型预测预测用户的交互行为又可以大大降低使用真实用户来测试交互系统时的巨大开销。而当下的模型大多基于信息论以及实验心理学内容,仅仅局限于用户交互的某一个方面,而且对于可能涉及的新的因素,很难对模型进行有效的拓展以增加适应性。本文将深度学习引入此问题的分析中,提出一个基于长短时记忆网络的模型来解决这一问题。

下图是一个智能手机上的常见的菜单,其组织形式形如一个垂直列表,每一行是一个表项,同时用一些文字予以标注说明这个表项的功能。一个常见的菜单交互过程可以按如下的方式进行建模。在每一个时间步骤中,用户被要求选择菜单中一个特定的表项。在下一个时间步内,用户可能会面对一个内容完全不同的菜单,同时被要求再次选择另一个表项,直到整个任务序列结束。我们的任务就是在每一个时间步内分析的模拟人的行为,并给出这个步骤内的用户进行交互的时间预测。

过往的工作中涉及许多经典的基于经验性分析方法的模型来进行预测,包括Fitts定律,Hick定律以及许多模型的混合等。本文跳出了传统的思路,选用了深度学习中的LSTM来实现。选择这一模型的原因一方面基于问题的输入是边长的菜单数据,而递归神经网络可以很好地处理这样的数据,另一方面是因为这一方法着眼于人的学习和记忆,而长短时记忆网络可以很好地模拟出人对于数据的记忆和遗忘的认知过程。本文中提出的模型包含两部分模型的级连,分别是编码网络和预测网络。

编码网络的数据涵盖了表单信息和任务信息。表单信息中每个表项的信息以表项中单词的长短和单词的语义来表达。单词的语义特征提取采用了word2vec工作的方式,本文中将每一个单词映射为了一个50维向量,并通过主成分分析进行信息压缩来加速训练过程。任务信息指每一个时间步内用户被要求选择的表项的编号。上述两部分构成了表单中每一个表项的信息,用做于输入向量。由于表单的长度不定,需要将这样的不定个数向量映射为定长的表达形式。这一过程仍然用循环神经网络来实现,结构如上图。即在每一个时间步内按次序输入表单的一个表项,在输入完所有的表项之后,我们用此时LSTM单元中的隐层的向量来表示这个菜单中所有表项和任务的信息。表单的组织结构信息没有直接作为输入而是用一个一位有效向量的向量来编码附加在编码网络的输出中一起作为预测网络的输入。

如图所示,预测网络和编码网络的结构相类似都是标准的LSTM单元。在每一个时间步内,网络输入该时间步内呈现给用户的表单信息。网络的输出层后包含一个非线性的映射,将输出向量整合为该时间步内对应的用户交互时间的预测。在隐层输入时,模型加入一个线性整流单元来增强模型的表达能力。模型训练的损失函数基于评价用户行为预测的判据R2,有些类似于MSE,只不过给予了一个缩放参数来间接调整学习率。

本文的实验数据集包含一个公开的台式电脑上的交互数据集和由本文平台搭建的一个智能手机的平台采集的数据。两个数据集中包含的测试记录数分别约为4万和16万条。两个数据集都包含了不同长度的菜单数据和对于同一个菜单的长序列实验数据。长序列实验要求用户对于同一个菜单重复进行覆盖该菜单所有表项的选择任务序列,并研究在每一个实验组(blocks)中用户的行为。实验的测试数据将上述数据集的一半作为训练数据,并将另一半作为测试,最终采用两种水平下的衡量来作为衡量标准,并与Bailly提出的模型在上述标准下的结果进行对比。在台式电脑的测试结果结果如下:

可以看出在第一种评估方式下,本文的效果大大超过了之前提出的模型,而在第二种评估方式下,两者相差无几。总体上说,该方法在公开数据集上表现更优。而对于智能手机的数据集,本文没有给出量化的结果,而是给出了在不同长度的菜单作为输入时,在不同的实验组中,预测的时间和实际观察的用户交互行为时间的对比图。

可以看到该方法对于观察数据的拟合仍然效果显著。同时两条曲线走势的降低是因为随着实验组数量增多,用户对于菜单的信息产生记忆,从而加快了交互的效率。

对于模型的结果分析,本文还给出了一些其他的发现。用于神经网络在这个问题的背景下可以理解为将向量的输入映射为输出的一个变换函数,因此我们可以计算出输出响应对于每一个输入向量维度的偏导数,从而可以得到雅克比就矩阵。文中没有对这样的响应的计算给出详细化的计算方式,但其给出了在不同的实验组数中寻找同一个目标响应量随实验组数的变化,如下图所示。可能是通过计算雅克比矩阵的范数得到的这样的一维标量。可以发现越近期的实验组的响应越高,而刚开始的一些实验组对于其几乎没有响应。这可以理解为人认知过程中的记忆与遗忘过程,是非常合理的。同时我们观察到,在三种表的组织形式对比上,无序的表对于寻找同样目标的响应最为强烈,这可能是因为具有一定次序的表组织含有一系列隐含的线索帮助了记忆。

总的来说,本文提出了一个基于深度学习的方法来建模人对于菜单交互的行为,该模型具有很强的可拓展性和适应性。同时在讨论模型行为时,本文给出了一些分析探究了人的过往经验对于交互行为的影响,并给出了一些合理的发现。

Reference:

[1] Li Y, Bengio S, Bailly G. Predicting Human Performance in Vertical Menu Selection Using Deep Learning[C]//Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems. ACM, 2018: 29.

评论关闭。