随着信息科技的发展,文本的数据量在急剧扩大,如何有效地从文本集中提取有意义的信息成为了一个十分重要的问题。主题模型目前已经被大量地应用于文本分析中,尤其是 LDA 算法更是被广泛使用。然而,将 LDA 算法应用于文档可视分析上时会产生有两个不足:一是该算法多次运算时结果不稳定,差异较大;二是 LDA 算法收敛速度较慢。为了解决这两个不足,本文提出了一个主题模型可视分析系统UTOPIAN (User-driven Topic modeling based on Interactive Nonnegative Matrix Factorization) 。该系统利用非负矩阵分解算法 (NMF, Nonnegative Matrix Factorization) 算法进行主题模型的计算,同时可视化地展示了文档集的主题信息,并支持用户通过多种交互手段对主题模型的结果进行修正和提高。
NMF 算法的目标是将一个大矩阵分解成两个小矩阵相乘的积,其最终效果与 LDA 相似,因此通过一些较为简单的修改即可应用于主题模型之上,而同时它又克服了 LDA 算法的两个缺点,能够得到稳定一致的结果并且具有较快的收敛速度。
在 NMF 算法的基础上,作者又提出了半监督的 SS-NMF 算法 (Semi-supervised NMF)。它能够在用户指定部分结果的情况下,尊重用户的意愿计算主题。因此,该半监督算法使得UTOPIAN系统能够支持用户对主题模型结果进行修改并重新运算。
UTOPIAN系统可视化地展示用点边图的形式展示了文档之间的关系,用颜色表示文档的主题,从而直观展示了文档集中文档的主题分布。在布局算法上,UTOPIAN采用了改进版的 t-SNE (t-distributed stochastic neighborhood embedding) 算法。 t-SNE 算法与 MDS 类似,也是将高维空间中的点映射到二维平面上,并尽可能保持它们的相对距离一致。 但是由于普通的 t-SNE 算法生成的结果并不能很好地展示主题聚集的效果(如图2A),因此作者对其进行改进,拉进了相同主题下的文档距离,从而使得同主题的文档分布更加集中,也更便于分析(如图2B)。
图2 原始 t-SNE 布局算法与改进的 t-SNE 布局算法对比
除了对文档主题信息的可视化,UTOPIAN更重要的是支持用户通过交互修改主题结果。由于有了 SS-NMF 算法,系统支持用户进行如下操作:改变主题关键词的权重,主题合并,主题分裂,文档驱动的新主题生成,关键词驱动的新主题生成。
下面以一个示例来展示用户如何使用UTOPIAN来分析文档主题并按照用户的兴趣进行主题修正。该示例采用了 InfoVis-VAST 数据集。图3A展示了 NMF 计算的初始结果。观察结果后发现,图3A中由圆点标出的两个主题 (treemaps, layout, hierarchical; trees, hierarchy, node) 都是针对的是层次数据,因此可以将这两个主题合并,而另外我们希望将三角形标出的主题 (dimensions, multivariate, parallel) 分裂成与维度约减和聚类两个主题。图3B 展示了主题合并和主题分裂的结果。另外,我们还希望在正方形标出的主题 (graph, layout, edge) 中挑出与 edge 相关的主题,因此进行关键词驱动的新主题生成,在图3C中生成了新的与边捆绑技术相关的主题 (edge, bundled, adjacencies)。
图3 使用 UTOPIAN 改进主题模型结果
这篇论文将非负矩阵分解算法应用到主题模型上,并提出了半监督的 NMF 算法。同时,UTOPIAN 可视分析系统支持用户对文档主题的分析和交互修正。
[1] Choo J, Lee C, Reddy C K, et al. Utopian: User-driven topic modeling based on interactive nonnegative matrix factorization[J]. Visualization and Computer Graphics, IEEE Transactions on, 2013, 19(12): 1992-2001.
评论关闭。