作者存档: Yun Han

CrystalBall: 对于社交媒体数据进行未来事件识别和分析的可视分析系统 (CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data)

社交媒体数据可以为世界各地发生的事件提供宝贵的见解,且事件本质上是时间和空间的。现有的文本可视分析系统专注于探测和分析过去和正在进行的事件,很少有人利用社交媒体信息来寻找未来可能发生的事件。在本文中,我们提出了一个交互式可视化分析系统CrystalBall,它可以自动识别和排列来自Twitter的未来事件。 CrystalBall集成了新的方法,通过交互式可视化发现事件,从而可以识别未来事件。该方法利用有关的时间,地点,社交网络和消息,整合了七种不同的方法来识别和表征未来事件。同时,可视化界面与计算方法紧密结合以提供未来可能事件的简明摘要。

继续阅读 »

PhenoLines: 通过主题模型来对疾病亚型的症状进行比较可视化(PhenoLines: Phenotype Comparison Visualizations for Disease Subtyping via Topic Models)

主题模型主要用于对文档集的主题探究,也有不少的工作将主题模型应用到医学领域,但是目前的工作主要专注于提取特定患者的事件并将其可视化。基于这个层面,用户很难从中得到病症是如何随着时间发展和演变的,也难以理解这些症状的层次结构。因此,这篇文章[1]从一个新的视角,将主题模型输出的非结构化的结果用层次结构表示,并使用时间轴来比较和解释主题内和主题之间症状随时间的演变。

继续阅读 »

cite2vec: 基于词嵌入模型的引用文档研究 (cite2vec: Citation-Driven Document Exploration via Word Embeddings)

目前而言,对于文档集的探究,主要有以下三个方面的目标:

  1. 对文档集的概览,了解文档集中的主题等。
  2. 能够让用户探究感兴趣的文档集。
  3. 提供对于文档之间的比较功能。

然而,在进行文档集探究之前,我们首先需要选择一个适当的方式来“表示”文档集,这对于文档探究是十分重要的。在之前的文档集探究方法中,大多致力于将文档可视化来说明文档集是什么,也就是通过可视化的方式了解文档的内容。然而,这篇文章[1]从一个全新的视角,通过文档间的引用关系来将文档可视化,进而说明文档集的用途。

继续阅读 »

ConceptVector: 基于词嵌入的交互式词典构建进行文本可视分析 (ConceptVector: Text Visual Analytics via Interactive Lexicon Building using Word Embedding)

目前而言,许多文本分析方法的核心都是一个Concept:一组表征特定对象、现象或主题的语义相关的关键词。另外,Word Embedding的不断发展允许用户通过一小部分的关键词来构建一个Concept。然而,由于自然语言的多义性,直接使用这种技术可能导致错误。为了降低这个问题,这篇文章[1]提出了一个名为ConceptVector的可视分析系统,来指导用户构建这些Concepts,然后使用它们来分析文档。这篇文章使用现实生活中的数据集来进行案例分析,展示了ConceptVector的细粒度分析。为了支持这个“种子关键词”的概念,他们引用了双极概念模型,并且支持不相关的单词。

文本可视分析中涵盖了很多领域的方法:1. 词关系与层次结构;2. Word Embedding;3.基于单词层次的文本可视分析。

继续阅读 »

用于文本相似性检测的可构造可视分析(Constructive Visual Analytics for Text Similarity Detection)

检测文本之间的相似性是一种很常见的文本挖掘任务。由于文本相似性的衡量方式很多,而且很多衡量方式对于不同的语料集的敏感性不同,所以通常使用机器学习等检测器难以根据特定的语义环境来平衡不同的度量方式。因此,为了促进文本相似性检测的准确性,把相关领域的专家加入到检测过程中,自主的设计对应的衡量方法时检测结果更佳。

继续阅读 »

流式文本的在线可视分析(Online Visual Analytics of Text Streams)

现如今的互联网上有大量的流式文档,一个很普遍的问题就是如何检测和跟踪这种文本流中的新兴事件。目前在挖掘和可视化文本流方面已经取得了很大的进步。然而,大多数现有的方法都是离线方法。离线的方法是基于所有文档来计算结果的。每次当新文件流入时,这些方法都会先将新文档与旧文档合并,然后重新计算模型。目前使用的这些离线方法存在两个主要的问题:
1. 重新计算模型时间消耗太大;
2. 由于模型被重新计算,结果在一定程度上发生了变化,这对用户来说可能是难以理解的。
这篇文章[1]提出了一种在线的可视化分析方法,帮助用户探索和了解大量流式文档中的层次主题演化。

继续阅读 »