事件序列数据,如电子健康记录、一个人的学术记录或汽车服务记录,都是一段时间内发生的一系列事件。分析事件序列的集合可以揭示常见的或语义上重要的序列模式。例如,事件序列分析可能揭示了常用的治疗疾病的护理计划,教授的典型出版模式,以及导致维护良好的汽车的服务模式。然而,在视觉上探索大量事件序列或大量事件类型的序列是具有挑战性的。现有的方法侧重于通过统计分析来提取事件的明确匹配模式,以创建随时间变化的事件进程的阶段。然而,这些方法未能捕捉到相似但不完全相同的事件序列演化的潜在簇。在本文[1] 中,我们引入了一个新的可视化系统命名事件线程集群事件序列为基于张量分析线程和可视化的潜伏阶段分类和演化模式的交互的线程分组相似到特定时间集群。通过用户与专家的访谈,在三个不同应用领域的使用场景,我们证明了事件线程的有效性。
标签存档: 主题模型
事件线程:视觉总结阶段的事件序列数据分析(EventThread: Visual Summarization and Stage Analysis of Event Sequence Data)
PhenoLines: 通过主题模型来对疾病亚型的症状进行比较可视化(PhenoLines: Phenotype Comparison Visualizations for Disease Subtyping via Topic Models)
任务驱动的主题模型比较 (Task-Driven Comparison of Topic Models)
FLDA:基于LDA主题模型的非定常流场分析 (FLDA: Latent Dirichlet Allocation Based Unsteady Flow Analysis)
LDA主题模型是文本分析中常用的工具。在LDA模型中,一段文本被当作是一个词包(bag of words),通过分析这些词包,LDA模型可以提取出文本中潜在的主题,并基于所提取的主题分析文本间的关系。例如,考虑这两句话:“苹果最新发布了iPhone6和iPhone6 Plus”和“三星本季度利润大幅度下滑”。如果只从词语角度对这两句话进行分析,那么计算机很难发现这两者间的关系。但是,如果计算机通过分析大量文本之后,能发现两句话实际上都是与“科技”“手机”等主题相关,那么就比较容易判断两者的关系了。因此,主题模型实际上是在文本和词语之间增加了一层抽象层,而使得对文本间关系的分析能更加准确全面。而我们要介绍的这篇论文[1]则创新性地将LDA主题模型引入到流场分析中,利用流场主题这一抽象层,基于迹线来对流场进行分析。这篇文章由我们实验室与国防科技大学合作完成,并即将发表在今年的IEEE VIS年会上。
HierachicalTopics:通过层次化的主题可视化探索大文本集 (HierarchicalTopics: Visually Exploring Large Text Collections Using Topic Hierarchies)
UTOPIAN: 用户驱动的基于可交互非负矩阵分解的主题模型(UTOPIAN: User-driven Topic Modeling Based on Interactive Nonnegative Matrix Factorization)
随着信息科技的发展,文本的数据量在急剧扩大,如何有效地从文本集中提取有意义的信息成为了一个十分重要的问题。主题模型目前已经被大量地应用于文本分析中,尤其是 LDA 算法更是被广泛使用。然而,将 LDA 算法应用于文档可视分析上时会产生有两个不足:一是该算法多次运算时结果不稳定,差异较大;二是 LDA 算法收敛速度较慢。为了解决这两个不足,本文提出了一个主题模型可视分析系统UTOPIAN (User-driven Topic modeling based on Interactive Nonnegative Matrix Factorization) 。该系统利用非负矩阵分解算法 (NMF, Nonnegative Matrix Factorization) 算法进行主题模型的计算,同时可视化地展示了文档集的主题信息,并支持用户通过多种交互手段对主题模型的结果进行修正和提高。
近期评论