EmoCo: 视频中的情感一致性可视化分析 (Visual Analysis of Emotion Coherence in Presentation Videos)

在人们的日常交流中,情感扮演了重要的角色。情感的表达可以通过多种方式,如表情、声音、文字、肢体动作等。人们会通过同时利用多种表现方式来传递自己的情感,然而有时这些方式所传递的信息并不是一致的。该工作[1]通过利用视频中讲者的表情、文字、声音,来分析讲者在这个三个通道上情感表达方式的特征,从而帮助学习者提示自己的演讲技巧。

该工作关注讲者在表情、声音、文字三个通道上的情感表达方式。对于演讲的视频(如TED上分享),作者会提取讲者的面部,文字以及声音的情感特征。对于讲者说的一句话,可以处理得到文本情感,音频情感(包括说出这句话过程中声音音调、强度、振幅的变化),以及整个过程中讲者表情的变化。为了将这三个通道在统一的粒度下进行分析,作者将一句话中的主导表情作为表情通道上的情感特征。最后,作者总结了8种情感,愤怒(anger)、厌恶(disgust)、恐惧(fear)、快乐(happiness)、悲伤(sadness)、惊讶(surprise)、轻蔑(contempt)和中性(neutral)。

图1 EmoCo系统界面

为了分析这些情感在三个通道上的一致性,作者设计EmoCo系统,从视频、句子、词语三个层级,提供自顶向下的分析流程。在图1(a)顶部中展现了视频中的情感颜色编码方式,中部视频列表展现了视频的名称、类别以及总览信息,底部是原始视频的内容。视频的总览设计采用了图2所示的柱状图方式, 横纵代表时间,每个条柱代表一句话在三个通道所表现出的情感态度,上方的折线图展示了三个通道的一致性,如果三个通道上的情感态度都相同,那么值为2,如果都不相同值为0,只有一对相同值为1。

图2 总览三个通道情感信息设计

为了展现各个通道具体信息,作者基于桑基图提出了一个新的设计(图3)。在桑基图中,每个点代表一个通道上的情感类别,点与点之间的连线表示讲者说的话在两个通道上分别所表现的情感。在最左侧的表情通道上,作者添加了一个树图表示每个点包含的不同面部表情;中间的词云展现了句子的重要关键词;右侧的直方图则可以显示句子的音频在音调、强度、振幅上的分布等特征。

图3 基于桑基图的方式展现各个通道上特征

在桑基图中,用户可以选择一条边查看句子的详细细节信息。选中的句子会在图1(d)中高亮出来,以及图4的细节视图中高亮出来。在图4中,顶部是和总体视图类型的柱状图,选中的句子会在图中高亮出来,同时用户可以选择其中的句子查看详细内容。选中的句子会在图4的底部显示,折线图展现了句子中的音频特征,同时通过一个图标表现讲者在过程中的表情变化。除了选中的句子,句子的前两句以及后两句也显示出来。用户可以刷选折线图,刷选的文本也会高亮中。图1(e)则列出视频中的常见词汇,以及讲者说出这些词汇时表情的分布情况。

图4 细节视图展现每句话的详细特征

总的来说,该工作针对演讲视频中的情感表达一致性问题设计了一套可视分析系统,所解决的问题新颖有趣,并且在可视化的设计方面许多可以借鉴的地方。

 

参考文献:

[1] Haipeng Zeng, Xingbo Wang, Aoyu Wu, Yong Wang, Quan Li, Alex Endert and Huamin Qu. EmoCo: Visual Analysis of Emotion Coherence in Presentation Videos. VAST 2019.

评论关闭。