NEREx:多方会话中的实体关系探索(NEREx: Named-Entity Relationship Exploration in Multi-Party Conversations)

本文提出了NEREX,为逐字会话脚本提供了一种探索性的交互式可视化分析方法。NEREX的切入点是从多方对话不同的角度给出了分析,通过链接的详细视图提供高层次的概述和提供机制的形成和验证假设。使用定制命名实体抽取,我们将重要实体抽象为十类,并用距离约束实体关系模型提取它们之间的关系。该模型符合逐字记录往往不合语法的结构,涉及两个实体是否在同一个句子中出现一个小的距离窗内。我们的工具使多方对话的探索性分析使用几个链接的意见,显示在文本的主题和时间结构。除了远程阅读,我们还为文本层次调查过程整合了密切的阅读观点。超越时空对话的探索性分析,NEREX帮助用户生成和验证假设并进行多元对话的比较分析。我们通过三名来自政治科学领域专家的定性研究,证明了我们的方法在2016届美国总统辩论中对真实世界数据的适用性。

多人会话,如政治辩论或口头的法庭辩论,其特征在于由一个快速交换意见、观点、信息、生产长逐字文字记录丰富的中断,语,重复,和不经常发现在高度的文本编辑等特点。这些事件往往具有持久的政治、经济和社会意义,也是许多分析的主题。除了探讨对话的基本社会动力之外,调查发言者参与讨论的过程,辩论的主题演变,以及不同的辩论策略都是社会科学的兴趣所在。

Fig 1. 多人会话

从半结构化数据中提取结构化信息可能耗时,需要仔细阅读,注释重要的段落和关键词,并有意义地构造这些信息。构建这种信息的一种常用方法是使用文本中提取的关键字创建列表和思维导图。关键字是文本中的元素,反映其内容并指向特定的概念、表达式或缩写。在数据挖掘中,文本语料库中这种元素的自动分类称为命名实体抽取。命名实体通常被分组为类别,如人员、位置和组织。

Fig 2. 实体提取模型

我们开发了NEREX,命名实体关系的探索交互式可视化分析框架的工作。我们的方法是在语言学家和政治学学者定期参与的指导下,在不断完善的迭代设计过程中发展起来的。

我们的方法是为了支持对多方对话的探索和分析,特别是为未知数据提供一个概述和切入点。寻址的描述要求,NEREX提供了几个联系的角度对文本数据,以及强大的交互功能。用一个两级抽象的文本构建的语义结构本身相关的关键词及其关系的高级视图。首先,从文本层次自动抽象,使用命名实体预牵引、分组和分类。第二,提取的实体到概念簇的交互聚合支持用户的特定分析任务。我们的框架是文本类型和独立于语言的,但是,它的设计和本文中的示例以具有会话特性的文本数据为目标。我们结合监督和无监督学习方法来提取和分类命名实体和其他相关关键字,如日期、地点或测量单位。为了分析分类实体的语义结构,我们应用距离限制实体关系模型来构造命名实体对。NEREX采用六个联动视图支持以下任务:数据探索分析,假设生成、时序分析、假设检验,并比较分析。

Fig 3. NEREX的工作流程

他们使用监督和无监督学习技术和启发式方法相结合来从文本中提取相关元素。基于现有算法。通过在第一步中提取基本实体,我们为将这些实体分类为与分析相关的类别奠定了基础。这些类别是文本类型依赖的。对于会话文本数据,我们导出了10个一般类别。这些是通过规则相关的基本实体组合而产生的。

Fig 4. 实体类别

为了探索实体之间的关系,我们使用距离限制模型来创建实体对。以前的工作将实体之间的关系视为基于语言知识的语义关系,或视两个实体因其存在于同一文档中而相关。在逐字逐句的文字记录的话语往往不合语法的结构(包括非标准词汇、句法、中断、重复,和串扰)需要一个简单的语言模型。为了克服这些局限性,我们提出一个模型,边界的范围,我们认为两者是相关的,使用距离阈值(maxdist)。我们的方法创建一个实体对如果在同一句话在maxdist彼此出现的实体。

Fig 5.  传统实体关系提取模型的弊端

使用这个定义,我们可以确保所有实体对的有效计算。计算实体对一个滑动窗口,maxdist字宽,沿每个句子和为每个实体都落在窗户下面的实体和句子边界。由于我们对实体对关系的方向感兴趣,所以我们只在窗口中寻找每个实体的所有后续实体。探索我们的模型提取的实体对的洞察实体之间的关系的方向,并允许更好地了解文本语料库的语义结构。最频繁的实体对可能代表讨论的主题,并且频繁的对说话者可能暗示他们的立场。

Fig 6. 距离限制实体关系提取模型

文本层面(TLV)提供了与实体的上下文中的文本阅读,而实体层面(ELV)显示实体序列。构造实体图(EG)将频繁实体对合并为交互式图形结构和扬声器图(SG),通过使用通用实体对来连接扬声器。概念图(CG)是由用户指定的概念创建的,在第二个抽象层次聚合命名实体。为了方便任务驱动的数据分析,本工作签署了各种交互技术,如数据搜索和假设生成的搜索和过滤选项,以及假设验证的可视化查询。使用概念图的动画重建,时间图(TG)允许时间分析的演变的谈话随着时间的推移。

Fig 7. 视图组件

为了减少EG中的视觉杂波,并提高视图的可伸缩性,我们介绍了三种分组节点的方法,即同义词、关系和手动分组。如图所示,我们使用不同的节点轮廓来表示节点组的类型。设计等高线,以便它们可以被覆盖以表示节点中的组合分组。它们可以被覆盖以表示节点中的组合分组。

Fig 8. 三种节点合并方法

组合节点合并方法

 

为了方便和探索用涅瑞克斯的分析,我们实施了一系列的相互作用。除了针对每个视图讨论的特定交互(例如参数调整、链接和刷选等),我们还提供了进一步的交互,这些交互在框架的所有组件中都可用。

Fig 10. 交互方法

本文的主要贡献是使用六个链接视图对多方对话进行探索性分析,以提供对数据的不同观点。我们介绍了一种针对会话文本的命名实体的分类方案和一种距离限制模型来提取它们之间的关系。此外,我们还提出了一种通过节点分组来减少图杂波的技术,以提高概述的可伸缩性。最后,我们从领域专家的定性研究中讨论我们的发现。

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>