标签存档: 文本可视化

ConceptVector: 基于词嵌入的交互式词典构建进行文本可视化分析 (ConceptVector: Text Visual Analytics via Interactive Lexicon Building using Word Embedding)

目前而言,许多文本分析方法的核心都是一个Concept:一组表征特定对象、现象或主题的语义相关的关键词。另外,Word Embedding的不断发展允许用户通过一小部分的关键词来构建一个Concept。然而,由于自然语言的多义性,直接使用这种技术可能导致错误。为了降低这个问题,这篇文章[1]提出了一个名为ConceptVector的可视分析系统,来指导用户构建这些Concepts,然后使用它们来分析文档。这篇文章使用现实生活中的数据集来进行案例分析,展示了ConceptVector的细粒度分析。为了支持这个“种子关键词”的概念,他们引用了双极概念模型,并且支持不相关的单词。

文本可视化分析中涵盖了很多领域的方法:1. 词关系与层次结构;2. Word Embedding;3.基于单词层次的文本可视化分析。

继续阅读 »

用于文本相似性检测的可构造可视分析(Constructive Visual Analytics for Text Similarity Detection)

检测文本之间的相似性是一种很常见的文本挖掘任务。由于文本相似性的衡量方式很多,而且很多衡量方式对于不同的语料集的敏感性不同,所以通常使用机器学习等检测器难以根据特定的语义环境来平衡不同的度量方式。因此,为了促进文本相似性检测的准确性,把相关领域的专家加入到检测过程中,自主的设计对应的衡量方法时检测结果更佳。

继续阅读 »

流式文本的在线可视分析(Online Visual Analytics of Text Streams)

现如今的互联网上有大量的流式文档,一个很普遍的问题就是如何检测和跟踪这种文本流中的新兴事件。目前在挖掘和可视化文本流方面已经取得了很大的进步。然而,大多数现有的方法都是离线方法。离线的方法是基于所有文档来计算结果的。每次当新文件流入时,这些方法都会先将新文档与旧文档合并,然后重新计算模型。目前使用的这些离线方法存在两个主要的问题:
1. 重新计算模型时间消耗太大;
2. 由于模型被重新计算,结果在一定程度上发生了变化,这对用户来说可能是难以理解的。
这篇文章[1]提出了一种在线的可视化分析方法,帮助用户探索和了解大量流式文档中的层次主题演化。

继续阅读 »

TextTile:给结构化数据和无结构文本提供无缝探索性分析的交互式可视化工具 (TextTile: An Interactive Visualization Tool for Seamless Exploratory Analysis of Structured Data and Unstructured Text)

在实际的很多应用中,数据集由无结构文本和结构化数据组合而成。比如购物网站上,顾客会给商品的质量、物流服务质量、商家态度等条目打分,也可以写一段关于商品的评论。前者就是结构化数据,后者则是无结构文本数据。分析者面对这些数据时,往往需要同时分析二者。既可能先指定结构化数据字段的过滤条件(如对于北京的餐馆),总结文本信息(如,用户评价这类餐馆时最经常使用哪些关键词);也可能先指定无结构文本(如用户评价中含有“非常满意”),再观察这些数据在结构化数据字段的分布(如,这样的评论的地理分布)。然而,分析者面对这类数据时,面临两大问题:(1)没有一种系统的方式来组织和连接这些操作;(2)缺少完整地集成了这些操作的可视化系统,能够支持用户灵活地进行分析。 继续阅读 »

VAiRome:罗马历史可视分析系统 (VAiRoma: A Visual Analytics System for Making Sense of Places, Times, and Events in Roman History)

古罗马帝国有着悠久的历史和灿烂的文明,然而它复杂的历史同样让不少人头疼。如何高效地学习、了解古罗马的历史,掌握相关的地点和时间呢?这篇论文向大家介绍了VAiRome,这是一个可视分析系统,运用了文本分析技术和多种直观地可视化视图,向大家展示了罗马的历史,揭露了其中重要的时间、地点、事件以及它们之间的关系。

继续阅读 »

HierachicalTopics:通过层次化的主题可视化探索大文本集 (HierarchicalTopics: Visually Exploring Large Text Collections Using Topic Hierarchies)

随着信息时代的到来,数据产生的速度越来越快,大量的文本数据也给人类的分析造成了困难。然而,这些海量文本数据的背后,其实蕴藏着丰富的价值,但它们却还未被我们挖掘出来。

基于主题的文本分析技术和可视分析技术可以较好地总结文本内容,但随着数据量的增加,为了更好地展示文本内容,自动提取主题的数量也越来越多,这大大影响了人们的理解与分析。

继续阅读 »