作者存档: Zhenhuang Wang

基于二部图的双聚类可视分析 (Interactive Visual Co-Cluster Analysis of Bipartite Graphs)

二部图(Bipartite Graph)是图论中的一种模型,图的顶点集V可以分割成两个互不相交的子集,图中每条边两端的顶点都属于不同的两个子集,并且同一个子集中的顶点不相邻。二部图出现在不少实际情况中,例如研究者和研究课题可以看做是两个不相交的子集,而研究者和研究课题间可以形成联系;议员与议案之间也存在类似的关系。双聚类(Co-Clustering)可以对二部图的两个子集同时进行聚类。

继续阅读 »

IEEE Pacific Visualization 2016 Day 1

IEEE PacificVis 2016于4月19日到22日在台北的台湾科技大学举行。会议的第一天是PacificVAST议程。和后面几天的会议不一样,这一天会议的报告都是邀请制,成为一个供可视分析相关的研究者共享与他们的研究的一个很好的平台。本次PacificVAST由天津大学张加万教授与纽约大学Klaus Muller教授共同组织,邀请了12名可视分析领域的专家学者进行报告。报告分为4个部分,包括”交通轨迹与城市”、”看得更深”、”可视分析中的因果推断”、”日志与文本”。首先是这次PacificVis的logo,将中国的书法与英语结合,不仅不觉得生硬,反而有一种特色的美感。

继续阅读 »

任务驱动的主题模型比较 (Task-Driven Comparison of Topic Models)

主题模型算法是文本处理与数据挖掘中一个非常重要的方法,它可以有效地从文本语义中提取主题信息。目前,主题模型已经被广泛地应用于文本分析领域。目前,有不少有效的工具来分析主题模型生成的结果,但却很少有工作去用可视化的手段来比较两个不同的主题模型。这篇论文就是从主题模型的比较入手,通过多种可视化方法来更有效地对不同主题模型的结果进行比较。

继续阅读 »

VAiRome:罗马历史可视分析系统 (VAiRoma: A Visual Analytics System for Making Sense of Places, Times, and Events in Roman History)

古罗马帝国有着悠久的历史和灿烂的文明,然而它复杂的历史同样让不少人头疼。如何高效地学习、了解古罗马的历史,掌握相关的地点和时间呢?这篇论文向大家介绍了VAiRome,这是一个可视分析系统,运用了文本分析技术和多种直观地可视化视图,向大家展示了罗马的历史,揭露了其中重要的时间、地点、事件以及它们之间的关系。

继续阅读 »

Perfopticon: Visual Query Analysis for Distributed Databases (Perfopticon: 针对分布式数据库的可视检索分析工具)

随着数据量的日益增大,分布式数据库逐渐被广泛采用。数据库开发人员和用户在进行数据库检索时,会不时碰到检索速度慢等问题,需要有力的工具来帮助人们分析检索的瓶颈。而在分布式数据库中,执行情况的分析变得更加复杂。这篇论文提供了Perfopticon工具,来帮助人们追踪、分析分布式数据库检索的执行过程,从而高效地定位问题所在。

继续阅读 »

社交行为的相近时间关系可视分析 (Visual Analysis of Proximal Temporal Relationships of Social and Communicative Behaviors)

发展心理学专家在研究儿童的社会和交流行为时,通常关注于他们在相近时间上的行为表现,例如婴儿对自己名字的反应。心理学家希望通过这些行为的分析来来提前发现儿童的自闭症、发育障碍等问题。
继续阅读 »

渐进可视分析:用户驱动的逐步探索分析 (Progressive Visual Analytics: User-Driven Visual Exploration of In-Progress Analytics)

可视分析通过视觉和交互的手段,可以有效地帮助人们提高数据分析的效率。一般来说,可视分析的流程是这样的:选择数据集,设置参数,运行分析算法,获得完整的运算结果,可视化结果,进行可视分析(如图1所示)。然而,人们正面临着数据量越来越大的困扰,这将大大增加算法运算的时间。同时,随着分析任务越来越复杂,算法的复杂度也在逐步增加。
继续阅读 »

在众包数据分析中识别信息冗余和检验信息来源 (Identifying Redundancy and Exposing Provenance in Crowdsourced Data Analysis)

在很多分析工作中,分析师们需要针对图表进行分析任务,例如分析某个城市就业率曲线的增减。也许分析少数几张图表并不是什么难事,但假若我们要分析上百个甚至上千个城市的就业率曲线时,这便成为一个任务量巨大的工作。分析师们可以利用众包完成分析任务,例如在 Amazon Mechanical Turk 上付点小钱让工人们 (crowd workers) 每人完成一两个小任务,聚集起大家的分析结果就可以完成整个分析任务。但是,通过众包方式获得的结果也存在一些问题:1) 工人们提供的信息中含有冗余信息,这增加了分析师们的工作量 2) 由于工人的知识水平不同,他们的答案准确性也有差别。这篇论文工作的目标是帮助分析师们再一次用众包的方法来分析由众包提供的答案。

继续阅读 »

HierachicalTopics:通过层次化的主题可视化探索大文本集 (HierarchicalTopics: Visually Exploring Large Text Collections Using Topic Hierarchies)

随着信息时代的到来,数据产生的速度越来越快,大量的文本数据也给人类的分析造成了困难。然而,这些海量文本数据的背后,其实蕴藏着丰富的价值,但它们却还未被我们挖掘出来。

基于主题的文本分析技术和可视分析技术可以较好地总结文本内容,但随着数据量的增加,为了更好地展示文本内容,自动提取主题的数量也越来越多,这大大影响了人们的理解与分析。

继续阅读 »

UTOPIAN: 用户驱动的基于可交互非负矩阵分解的主题模型(UTOPIAN: User-driven Topic Modeling Based on Interactive Nonnegative Matrix Factorization)

随着信息科技的发展,文本的数据量在急剧扩大,如何有效地从文本集中提取有意义的信息成为了一个十分重要的问题。主题模型目前已经被大量地应用于文本分析中,尤其是 LDA 算法更是被广泛使用。然而,将 LDA 算法应用于文档可视分析上时会产生有两个不足:一是该算法多次运算时结果不稳定,差异较大;二是 LDA 算法收敛速度较慢。为了解决这两个不足,本文提出了一个主题模型可视分析系统UTOPIAN (User-driven Topic modeling based on Interactive Nonnegative Matrix Factorization) 。该系统利用非负矩阵分解算法 (NMF, Nonnegative Matrix Factorization) 算法进行主题模型的计算,同时可视化地展示了文档集的主题信息,并支持用户通过多种交互手段对主题模型的结果进行修正和提高。

继续阅读 »