作者存档: Yun Han

ConceptVector: 基于词嵌入的交互式词典构建进行文本可视化分析 (ConceptVector: Text Visual Analytics via Interactive Lexicon Building using Word Embedding)

目前而言,许多文本分析方法的核心都是一个Concept:一组表征特定对象、现象或主题的语义相关的关键词。另外,Word Embedding的不断发展允许用户通过一小部分的关键词来构建一个Concept。然而,由于自然语言的多义性,直接使用这种技术可能导致错误。为了降低这个问题,这篇文章[1]提出了一个名为ConceptVector的可视分析系统,来指导用户构建这些Concepts,然后使用它们来分析文档。这篇文章使用现实生活中的数据集来进行案例分析,展示了ConceptVector的细粒度分析。为了支持这个“种子关键词”的概念,他们引用了双极概念模型,并且支持不相关的单词。

文本可视化分析中涵盖了很多领域的方法:1. 词关系与层次结构;2. Word Embedding;3.基于单词层次的文本可视化分析。

继续阅读 »

用于文本相似性检测的可构造可视分析(Constructive Visual Analytics for Text Similarity Detection)

检测文本之间的相似性是一种很常见的文本挖掘任务。由于文本相似性的衡量方式很多,而且很多衡量方式对于不同的语料集的敏感性不同,所以通常使用机器学习等检测器难以根据特定的语义环境来平衡不同的度量方式。因此,为了促进文本相似性检测的准确性,把相关领域的专家加入到检测过程中,自主的设计对应的衡量方法时检测结果更佳。

继续阅读 »

流式文本的在线可视分析(Online Visual Analytics of Text Streams)

现如今的互联网上有大量的流式文档,一个很普遍的问题就是如何检测和跟踪这种文本流中的新兴事件。目前在挖掘和可视化文本流方面已经取得了很大的进步。然而,大多数现有的方法都是离线方法。离线的方法是基于所有文档来计算结果的。每次当新文件流入时,这些方法都会先将新文档与旧文档合并,然后重新计算模型。目前使用的这些离线方法存在两个主要的问题:
1. 重新计算模型时间消耗太大;
2. 由于模型被重新计算,结果在一定程度上发生了变化,这对用户来说可能是难以理解的。
这篇文章[1]提出了一种在线的可视化分析方法,帮助用户探索和了解大量流式文档中的层次主题演化。

继续阅读 »