AILA:基于 Attention 的深度神经网络进行文本类别标注 (AILA: Attentive Interactive Labeling Assistant for Document Classification through Attention-based Deep Neural Networks)

文本分类(Text Classification)已经运用到越来越多的自然语言处理任务(Natural Langurage Processing,NLP)上,如垃圾邮件检测(Span Detection), 假新闻过滤(Fake news filtering),情感分析(Sentiment Analysis)等等。基于深度学习的这类任务都需要大量的标注数据,然而标注是一个十分耗时耗力的过程,需要标注者长时间的注意力。特别地,对于一些特定领域的数据,如法律、医学等等,更要求标注者有着一定的专业知识。如果系统能够自动的高亮出文本中对于文本类别影响较大的关键词可以一定程度上减轻标注者的任务。

因此,这篇文章 [1] 为此类任务提供了一个文本标注的平台,主要贡献如下:

1. 提出了一个交互的 Attention 模块,IAM (Interactive Attention Module)。

该模块使用的是自然语言处理领域近期一个比较热门的模型 Transformer 中的 Multi-head Attention 模块,其中他们的改进在于增加了用户自定义的 Attention 这一监督信息,基于此增加了一个Task 2 从而实现了一个多任务的基于 Attention 的深度神经网络模型,具体模型结构图如下:

图1 交互 Attention 模块

为了验证这个模块的有效性,他们做了一组对比实验来证明经过他们的模型的有效性。实验中,他们提取出了文本中每个词语的 Attention 权重,如果所有词语的 Attention 权重分布的标准差(Standard Deviation, SD)越大,说明模型能够更加准确的提取中相关的关键词,模型效果更好。实验结果如下(R1/M1表示没有使用IAM,R2/M2表示使用了IAM):

图2 词语的权重分布

图3 模型的标准差

通过实验结果我们可以看出,使用 IAM 模块的文本中词语的 Attention 权重的标准差更大。

2. 构建了一个交互的标注系统,AILA (Attentive Interactive Labeling Assistant)。

基于提出的 IAM 模块,他们构建了一个相应的交互系统。在设计过程中确定了系统的要求如下:

  • 支持对文本一一标注

由于文本标注之后的数据大部分都会用作训练集去进行模型训练,因此对数据的质量要求很高。系统必须支持标注者对每一条数据进行标注。

  • 实时对模型进行更新

在标注的过程中更新模型,能够有效地提高 IAM 模型的预测效果,通过相应的预测得分以及 Attention 权重提升用户标注的效率。

  • 对文本有一个有效地排序

不同的文本可能表达了不同的含义,也有不同的标注难度,因此能够支持用户从简到难地进行标注也能够在一定程度上提升标注的效率。因此系统根据模型预测的得分以及文本中词语的词语权重的分布将问题分为3类,第1类是高预测得分&低权重熵,第2类是高预测得分&高权重熵,低预测得分&低权重熵,第3类是低预测得分&高权重熵。这3类的难度依次增加,因此按照第1类、第2类、第3类进行排序即可。

  • 支持用户查询

最终,系统的界面如下:

图4 AILA系统界面

左侧的是文档集整体视图,通过 t-SNE 来进行降维可视化,其中圆点表示用户已经标注好的数据,圆圈表示没有标注过的数据。用绿色的圆环高亮的是用户当前选择的文档。右侧的文档列表视图,词语的红色的背景表示模型预测的每个词语的 Attention 权重。红色的框表示用户当前的标注的词语(图中表示的是”wannacry”)。

3. 通过用户实验有效地验证了他们的方法的有效性。

最终,他们通过两个实验证明他们系统。第一个实验是让用户在10分钟之类标注数据,C1表示没有使用IAM进行标注,C2表示使用IAM进行标注。通过下图可以看出,相同时间内,使用IAM用户标注了更多的文档。

图5 相同时间内标注的文档数目

第二个实验是根据 NASA TLX [2] 的问卷针对系统的有效性对用户进行了调查,下图中的实验结果展示了用户们认为系统能够帮助他们使用更少的努力得到相同的结果。

图6 系统有效性

总的来说,这篇文章通过结合自然语言处理领域的 Attention 机制构建了一个交互式的用户标注系统,能够有效地提升标注者标注数据的效率。

引用:

[1] Choi, Minsuk, et al. “AILA: Attentive Interactive Labeling Assistant for Document Classification through Attention-Based Deep Neural Networks.” Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems. ACM, 2019.

[2] Sandra G Hart and Lowell E Staveland. 1988. Development of NASA-TLX (Task Load Index): Results of empirical and theoretical research. In Advances in psychology. https://doi.org/10.1016/S0166-4115(08) 62386-9

 

 

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>