Orko: 使用多模交互方式探索分析图可视化(Orko: Facilitating Multimodal Interactions for Visual Exploration and Analysis of Networks)

现有的可视化系统往往是在桌面环境下设计交互方式,越来越多的研究者开始考虑如何在大屏幕、平板等设备上设计交互方式。一部分工作利用可穿戴设备、VR/AR等设备检测人的手势、肢体动作实现与大屏幕的交互,还有一部分工作将自然语言作为交互输入方式。这项工作[1]尝试在可视化中利用多模输入(multimodal)的方式,将触摸(touch)和语音输入结合作为图可视化的交互方式,并且分析在多模输入环境下的用户交互行为特点。

已有大量的相关工作使用语音或者触摸的方式作为可视化交互的输入方式,然而这些工作都专注于其中一种交互方式。HCI领域的研究表明,多种模式的输入方式能够增强用户体验并且提高系统的可用性。因此,这项工作尝试探索在图可视化中引入语音和触摸的交互方式,分析这样的多模式交互方式是否能够有效完成图可视化的任务,提高用户体验。

首先,作者进行了前导性调研(Pilot Study)来探索用户面对一个图可视化系统可能作出的语音查询操作。图数据是欧洲足球运动员的网络,节点表示球员,并且有所在球队、国家、年龄、收入等属性,如果两个球员在一个球队或者同一个国家,那么会在他们对应的节点之间连边。数据中共有552个节点,6772条边。作者搜集了用户面对这个的数据做出的语音查询操作并且进行了分类,如图1所示。

图1 用户不同类型的自然语言输入

对于“Find Ronaldo”这样的输入,系统能够明确的解析并且做出响应,定义为显示的输入(Explicit);而对于“Are any of these players right footed”这样的输入,系统必须依赖之前的输入或者当前系统的状态才能做出响应,定义为Follow-up & Contextual输入;对于“How are France and Italy connected”类输入,其问题很宽泛,可以做出多种不同的响应,被定义为High-level输入,对这类输入的响应需要更深度的自然语言理解技术,超过了这项工作的研究范畴,所以在设计系统时只针对前两种输入做出响应。同时,对于相同的目的,用户可以采取不同的输入方式,比如查找和Ronaldo有连接的球员,用户可以输入“Show nodes connected to Ronaldo”, “Show Ronaldo’s connections”, “Find Players linked to Ronaldo”等。如何理解用户的输入成为系统的设计的一大挑战。

如图2为系统的交互界面,包含A)输入框,可以通过键盘或者语音的方式输入查询;B)网络视图,展现图布局;C)交互图标,可以点击清除选择,固定节点或者重新布局;D)细节视图,显示当前选择节点的信息;E)总览视图,展现所选节点的属性分布;F)过滤框,提供对属性值的过滤功能;系统界面显示在大屏幕上,用户可以通过手势触摸选择节点、过滤等。

图2 Orko系统交互界面

为了理解用户的语音输入,系统的框架如图3所示。其中Query Parser为核心部分,用来理解用户的自然语言输入。开始前,系统依据之前调研的输入语音对系统进行训练,Grammar Parser可以识别用户输入中交互操作,比如输入“Show Connections of Ronaldo”,Grammar Parser会识别其中的“Show Connections”,而把针对目标“Ronaldo”传递给Lexicon-based Parser。Lexicon-based Parser也负责对Follow-up & Contextual输入做出响应。

图3 Orko系统框架

系统支持语音和触摸两种输入方式,当用户面对一个任务,他可以只用其中一种交互方式或者同时使用两种交互方式。比如对于任务“Find connections of a set of top goal scoring players for England”,用户只用触摸的方式,先通过过滤组件依据国家和进球数过滤,然后点击过滤的节点展现他们的连接;也可以直接输入语音“Show connections of English players with more than 20 goals”;还可以同时使用两种输入方式,

  • 通过触摸过滤出节点,然后语音输入展现连接
  • 通过语音输入过滤节点,然后触摸输入展现连接
  • 同时使用触摸和语音输入与系统交互

为了评估系统的可用性以及用户的交互行为方式,作者进行了评估实验。一共有6位参与者,10项关于欧洲球员网络的任务(比如找到一个巴萨中场球员,再找到至少两位和他有连接的非巴萨中场球员),参与者需要在30分钟内完成任务,然后填写反馈意见。

图4 参与者完成任务使用的交互方式

图4为总结了6为参与者完成任务时使用的交互方式。表中每一行代表一个任务,每一大列代表一个参与者。S代表语音输入方式,T代表触摸输入方式,ST代表在一个交互过程中先使用语音然后使用触摸,TS代表先使用触摸然后使用语音。表中的数字代表用户在完成任务时使用该交互方式的次数。从上图中可以得到以下发现:

  • 没有一个用户在完成任务时在一个交互中同时使用了语音和触摸的交互方式。这一点和人的行为方式有关,语言学研究表明人在交流时手势会先于语言。
  • 相比触摸+语音(3次),用户更倾向使用语音+触摸(30次)的交互方式。作者在实验中发现,用户往往先通过语音来搜索,过滤节点,然后通过触摸的方式展现节点的连接。
  • 语音输入占据了一半的输入方式。这表明用户很喜欢系统提供的语音输入交互方式。

最后的问卷中,参与者对系统的易用性,语音输入方式,语音和触摸输入结合的交互方式都做出了很高的评价。

总的来说,这项工作了结合了自然语音输入和触摸的交互方式帮助用户完成图可视化中的任务,并且评估了两种输入方式结合的效果,为后续工作开展提供了参考,比如可视化的交互设计可以更多考虑语音输入的方式,减少用户的交互负担。

参考文献:

[1] Arjun Srinivasan and John Stasko. IEEE Transactions on Visualization and Computer Graphics (InfoVis’17), 24(1):511-521, 2018.

评论关闭。