标签存档: 主题模型

事件线程:视觉总结阶段的事件序列数据分析(EventThread: Visual Summarization and Stage Analysis of Event Sequence Data)

事件序列数据,如电子健康记录、一个人的学术记录或汽车服务记录,都是一段时间内发生的一系列事件。分析事件序列的集合可以揭示常见的或语义上重要的序列模式。例如,事件序列分析可能揭示了常用的治疗疾病的护理计划,教授的典型出版模式,以及导致维护良好的汽车的服务模式。然而,在视觉上探索大量事件序列或大量事件类型的序列是具有挑战性的。现有的方法侧重于通过统计分析来提取事件的明确匹配模式,以创建随时间变化的事件进程的阶段。然而,这些方法未能捕捉到相似但不完全相同的事件序列演化的潜在簇。在本文[1] 中,我们引入了一个新的可视化系统命名事件线程集群事件序列为基于张量分析线程和可视化的潜伏阶段分类和演化模式的交互的线程分组相似到特定时间集群。通过用户与专家的访谈,在三个不同应用领域的使用场景,我们证明了事件线程的有效性。

继续阅读 »

PhenoLines: 通过主题模型来对疾病亚型的症状进行比较可视化(PhenoLines: Phenotype Comparison Visualizations for Disease Subtyping via Topic Models)

主题模型主要用于对文档集的主题探究,也有不少的工作将主题模型应用到医学领域,但是目前的工作主要专注于提取特定患者的事件并将其可视化。基于这个层面,用户很难从中得到病症是如何随着时间发展和演变的,也难以理解这些症状的层次结构。因此,这篇文章[1]从一个新的视角,将主题模型输出的非结构化的结果用层次结构表示,并使用时间轴来比较和解释主题内和主题之间症状随时间的演变。

继续阅读 »

任务驱动的主题模型比较 (Task-Driven Comparison of Topic Models)

主题模型算法是文本处理与数据挖掘中一个非常重要的方法,它可以有效地从文本语义中提取主题信息。目前,主题模型已经被广泛地应用于文本分析领域。目前,有不少有效的工具来分析主题模型生成的结果,但却很少有工作去用可视化的手段来比较两个不同的主题模型。这篇论文就是从主题模型的比较入手,通过多种可视化方法来更有效地对不同主题模型的结果进行比较。

继续阅读 »

FLDA:基于LDA主题模型的非定常流场分析 (FLDA: Latent Dirichlet Allocation Based Unsteady Flow Analysis)

LDA主题模型是文本分析中常用的工具。在LDA模型中,一段文本被当作是一个词包(bag of words),通过分析这些词包,LDA模型可以提取出文本中潜在的主题,并基于所提取的主题分析文本间的关系。例如,考虑这两句话:“苹果最新发布了iPhone6和iPhone6 Plus”和“三星本季度利润大幅度下滑”。如果只从词语角度对这两句话进行分析,那么计算机很难发现这两者间的关系。但是,如果计算机通过分析大量文本之后,能发现两句话实际上都是与“科技”“手机”等主题相关,那么就比较容易判断两者的关系了。因此,主题模型实际上是在文本和词语之间增加了一层抽象层,而使得对文本间关系的分析能更加准确全面。而我们要介绍的这篇论文[1]则创新性地将LDA主题模型引入到流场分析中,利用流场主题这一抽象层,基于迹线来对流场进行分析。这篇文章由我们实验室与国防科技大学合作完成,并即将发表在今年的IEEE VIS年会上。

继续阅读 »

HierachicalTopics:通过层次化的主题可视化探索大文本集 (HierarchicalTopics: Visually Exploring Large Text Collections Using Topic Hierarchies)

随着信息时代的到来,数据产生的速度越来越快,大量的文本数据也给人类的分析造成了困难。然而,这些海量文本数据的背后,其实蕴藏着丰富的价值,但它们却还未被我们挖掘出来。

基于主题的文本分析技术和可视分析技术可以较好地总结文本内容,但随着数据量的增加,为了更好地展示文本内容,自动提取主题的数量也越来越多,这大大影响了人们的理解与分析。

继续阅读 »

UTOPIAN: 用户驱动的基于可交互非负矩阵分解的主题模型(UTOPIAN: User-driven Topic Modeling Based on Interactive Nonnegative Matrix Factorization)

随着信息科技的发展,文本的数据量在急剧扩大,如何有效地从文本集中提取有意义的信息成为了一个十分重要的问题。主题模型目前已经被大量地应用于文本分析中,尤其是 LDA 算法更是被广泛使用。然而,将 LDA 算法应用于文档可视分析上时会产生有两个不足:一是该算法多次运算时结果不稳定,差异较大;二是 LDA 算法收敛速度较慢。为了解决这两个不足,本文提出了一个主题模型可视分析系统UTOPIAN (User-driven Topic modeling based on Interactive Nonnegative Matrix Factorization) 。该系统利用非负矩阵分解算法 (NMF, Nonnegative Matrix Factorization) 算法进行主题模型的计算,同时可视化地展示了文档集的主题信息,并支持用户通过多种交互手段对主题模型的结果进行修正和提高。

继续阅读 »