标签存档: 主题模型

任务驱动的主题模型比较 (Task-Driven Comparison of Topic Models)

task_driven_topic_comparison_tiser_lg

主题模型算法是文本处理与数据挖掘中一个非常重要的方法,它可以有效地从文本语义中提取主题信息。目前,主题模型已经被广泛地应用于文本分析领域。目前,有不少有效的工具来分析主题模型生成的结果,但却很少有工作去用可视化的手段来比较两个不同的主题模型。这篇论文就是从主题模型的比较入手,通过多种可视化方法来更有效地对不同主题模型的结果进行比较。

继续阅读 »

FLDA:基于LDA主题模型的非定常流场分析 (FLDA: Latent Dirichlet Allocation Based Unsteady Flow Analysis)

lda_a

LDA主题模型是文本分析中常用的工具。在LDA模型中,一段文本被当作是一个词包(bag of words),通过分析这些词包,LDA模型可以提取出文本中潜在的主题,并基于所提取的主题分析文本间的关系。例如,考虑这两句话:“苹果最新发布了iPhone6和iPhone6 Plus”和“三星本季度利润大幅度下滑”。如果只从词语角度对这两句话进行分析,那么计算机很难发现这两者间的关系。但是,如果计算机通过分析大量文本之后,能发现两句话实际上都是与“科技”“手机”等主题相关,那么就比较容易判断两者的关系了。因此,主题模型实际上是在文本和词语之间增加了一层抽象层,而使得对文本间关系的分析能更加准确全面。而我们要介绍的这篇论文[1]则创新性地将LDA主题模型引入到流场分析中,利用流场主题这一抽象层,基于迹线来对流场进行分析。这篇文章由我们实验室与国防科技大学合作完成,并即将发表在今年的IEEE VIS年会上。

继续阅读 »

HierachicalTopics:通过层次化的主题可视化探索大文本集 (HierarchicalTopics: Visually Exploring Large Text Collections Using Topic Hierarchies)

ht4

随着信息时代的到来,数据产生的速度越来越快,大量的文本数据也给人类的分析造成了困难。然而,这些海量文本数据的背后,其实蕴藏着丰富的价值,但它们却还未被我们挖掘出来。

基于主题的文本分析技术和可视分析技术可以较好地总结文本内容,但随着数据量的增加,为了更好地展示文本内容,自动提取主题的数量也越来越多,这大大影响了人们的理解与分析。

继续阅读 »

UTOPIAN: 用户驱动的基于可交互非负矩阵分解的主题模型(UTOPIAN: User-driven Topic Modeling Based on Interactive Nonnegative Matrix Factorization)

utopian1

随着信息科技的发展,文本的数据量在急剧扩大,如何有效地从文本集中提取有意义的信息成为了一个十分重要的问题。主题模型目前已经被大量地应用于文本分析中,尤其是 LDA 算法更是被广泛使用。然而,将 LDA 算法应用于文档可视分析上时会产生有两个不足:一是该算法多次运算时结果不稳定,差异较大;二是 LDA 算法收敛速度较慢。为了解决这两个不足,本文提出了一个主题模型可视分析系统UTOPIAN (User-driven Topic modeling based on Interactive Nonnegative Matrix Factorization) 。该系统利用非负矩阵分解算法 (NMF, Nonnegative Matrix Factorization) 算法进行主题模型的计算,同时可视化地展示了文档集的主题信息,并支持用户通过多种交互手段对主题模型的结果进行修正和提高。

继续阅读 »