cite2vec: 基于词嵌入模型的引用文档研究 (cite2vec: Citation-Driven Document Exploration via Word Embeddings)

目前而言,对于文档集的探究,主要有以下三个方面的目标:

  1. 对文档集的概览,了解文档集中的主题等。
  2. 能够让用户探究感兴趣的文档集。
  3. 提供对于文档之间的比较功能。

然而,在进行文档集探究之前,我们首先需要选择一个适当的方式来“表示”文档集,这对于文档探究是十分重要的。在之前的文档集探究方法中,大多致力于将文档可视化来说明文档集是什么,也就是通过可视化的方式了解文档的内容。然而,这篇文章[1]从一个全新的视角,通过文档间的引用关系来将文档可视化,进而说明文档集的用途。

为了便于探究文档的具体的用途,本文将”文档”当做“词语”来处理。通过词嵌入模型,将文档集和词映射到同一个二维平面中。如此一来,鉴于使用的是word2vec模型,保留了词之间的语义信息和词向量的线性结构。同时,也可以根据文档和词之间的距离来获取文档的具体用途。

系统实现流水线

在实现过程中,首先对文档(如:论文)中的引用进行处理。需要将引用替换成一个具体的ID,保证引用相同文章时替换的ID相同。需要特别注意地是,这篇文章中忽略了文档本身的内容,而将引用的文档进行可视化。在对原始文档处理之后,系统针对文档和词语学习一个词嵌入模型。本文中使用的是Skip-gram模型。使用给定词周围的词语来对该词的词向量进行预测,如下图所示。

Skip-gram模型

具体Skip-gram模型的目标函数如下。对于下面给定的例子中:“embedded”词向量的预测与 “modeling”,“data”, “subspace” 的词向量相关(在进行计算词向量模型时会作停用词处理)。最终会使得“data”的向量与这三个的“距离”比较小,投射到二维平面可以很直观的看到。其中N(X)是为了在计算词向量时尽可能地让“非相关”的词距离较远,如“pose”,“attribute”和“data”。

Skip-gram模型词向量计算目标函数

在计算出词向量之后,显然将所有的词语都投射出来会导致大量的覆盖,因此需要对词进行采样。采样的原则如下:

  1. 文档集中的一般主题相关的词。
  2. 在语义上与其他不同的词。
  3. 包含多种使用方式含义的词语。

如此一来,将词映射到二维空间中后对文档也进行相应的处理。由于之前已经将其替换为具体的ID,因此在扫描完文档集中的所有文档之后,可以得出所有的ID的临近词,使用这些词语来进一步的计算这篇文档的“词向量”,就可以将其投射到相同的二维空间中。具体计算方式如下。

文档临近词

Skip-gram模型文档向量计算目标函数

用户可以根据系统将文档集可视化的结果进行对文档集的探究。在设定了一个探究的Concept之后,鉴于word2vec的线性结构,我们将Concept中的每个词的词向量相加得到一个新的词向量,然后根据这个词向量重新计算文档的向量,进而进行位置更新。具体的更新方法如下:

根据Concept更新文档向量

最后,本文也提供了对不同Concept的进行比较,通过不同的颜色来标注不同的Concept。

Concept比较

 

引用:

[1]Berger M, McDonough K, Seversky L M. cite2vec: citation-driven document exploration via word embeddings[J]. IEEE transactions on visualization and computer graphics, 2017, 23(1): 691-700.

评论关闭。