检测文本之间的相似性是一种很常见的文本挖掘任务。由于文本相似性的衡量方式很多,而且很多衡量方式对于不同的语料集的敏感性不同,所以通常使用机器学习等检测器难以根据特定的语义环境来平衡不同的度量方式。因此,为了促进文本相似性检测的准确性,把相关领域的专家加入到检测过程中,自主的设计对应的衡量方法时检测结果更佳。
首先我们定义了一个“Commonplace”,这里我们可以认为两段文本之间的Commonplace 表示的就是两段文本之间的结构的相似性,也就是说引文之间的位置结构。文本可以看做为一个单词序列,我们可以将文本表示T = {t1, t2, . . . , tl} , 其中ti 表示文本中的每个词语。当我们需要比较两段文本之间的相似性时得出相似矩阵。借用相似矩阵,我们可以将其看作为二维的图像,因此可以使用图像处理的方式来进行文本相似性探究。

图1 文本相似性可视化方式
本文提出了两个进行相似性探究的视图,Bipartite Graph 和 Dot plot 。在Bipartite Graph 中,两段文本用两个平行线表示,其中这两段平行线之间的连接线表示的是文本之间的相似性,但是这样会存在很多的线段重叠部分。因此采用了第二种视图,Dot plot 直接将两段文字的相似矩阵映射成灰度图像,但是这个视图对于探究文本相似性不如前者直观。因此采用两种视图结合的方式,利用交互的方式便于用户去探究。

图2 Dot Plot 视图分析
正是由于Dot Plot 的不直观性,我们需要进一步分析不同的视图代表两段文字对齐的方式。在图1(b)中,完美的对齐方式表现为一条连续的线段;在图1(c)中,文本删除表现为线段在水平方向存在间隙;在图1(d)中,文本增加表现在垂直方向上存在间隙;在图1(e)中,文本位置交换表现为两条对齐的线段。
对于系统的“可构造性”,本文设计了四类工具,分别是 Word Matching (M), Language Processing (L), Visual Processing (V) 和 Operator (O),所提供的工具总共有41种,如图3所示。

图3 系统框架中提供的41种工具
用户可以根据自己的需求有选择的选择部分方法组成一个特定地可视分析系统,这也就说明了本篇文章中说明的系统的“可构造性”。终上所述,本篇文章中设计了一个可视化分析系统,VITA,在线链接为 http://www.ovii.org/vita/。

图4 ViTA主要的可视化界面 (i)二分图展示两段文本之间的连接关系 (ii)处理方式概览图 (iii)用于表示相似矩阵的点阵图

图5 文本处理流水线中的方法编辑器 (iv)ViTA提供的工具选择框 (v)8*3的网格面板可用于展示用户自定义方法的流水线 (vi)属性面板用于修改当前工具的属性值
在ViTA的使用过程中,用户可以根据自己的需求选择相应的工具来设计自己的文本相似性比较方法,然后将所有的方法组成一条流水线,每个工具的输入为相似矩阵或者文档初始值,然后根据最终得出的相似矩阵在点阵图中表示出来。
案例分析-图像处理方式进行文本相似性探究
在此案例分析中,主要向大家介绍了如何使用图像处理中常用的滤波器等方式来帮助用户更快、更清晰地探究文本相似性。

图6 (b)三元分词匹配 (c)一元分词匹配 & 词长度 & 过滤 (d)在(c)的基础上增加对角线模式来扩大匹配长度的影响 (e)用交集运算结合(b)(d)两条流水线
在图6中,(b)流水线只是简单的使用了“Any Word”工具,可以看出对角线中有很多部分连续的线段;(c)流水线增加了“Word Length”和“Darkening”工具,除去了一些噪音;(d)流水线在(c)的基础上增加了“Diagonal Grow”工具,将断开的线段连接起来;最终(e)流水线使用(b)(d)取“Intersection”的方式获得清晰的文本相似性比较结果,进而可以进行文本相似性分析。
结论
通常而言,单一地使用机器学习的方式并没有取得很好的结果。本文构建了一个工具库可供用户自主地选择和设计自己的文本相似性衡量方法,并且巧妙地结合了图像处理的方式使得分析过程更为便捷,探究结果更为清晰。
References:
[1] Abdul-Rahman1, G. Roe3, M. Olsen4, C. Gladstone4, R. Whaling4, N. Cronk2, R. Morrissey4, and M. Chen1 Constructive Visual Analytics for Text Similarity Detection.
评论关闭。