月度存档: 四月 2014

2014年第六届北京大学可视化发展前沿研究生暑期学校

研究生教育创新计划 – 2014年第六届北京大学可视化发展前沿研究生暑期学校招生简章

网址及报名地址:http://vis.pku.edu.cn/s14
授课地点:   北京大学
主办单位: 北京大学
承办单位: 北京大学机器感知与智能教育部重点实验室
协办单位: 中国计算机学会大数据专家委员会
课程主题:   大数据可视分析

课程日期: 7月 17-24 日
申请截至日期: 2014年6月15日 (如报名超过教室限额,按照报名先后录取)

继续阅读 »

利用可视分析进行时间序列模型选择(Visual Analytics for Model Selection in Time Series Analysis)

图2 TiMoVA系统界面。

时间序列分析在医疗、气象、金融等领域非常常用。常见的分析任务包括:判断一个变量是否存在明显的随时间上升或下降趋势,根据过去的变化趋势预测未来的值。为了完成这些分析任务,人们发展了许多时间序列模型,包括时间域模型和频率域模型。本文将要提到的SARIMA模型就是一种常用的时间域模型。该模型有7个超参数需要分析人员结合自己的经验手动指定,而指定这些参数的过程称为模型选择。统计学家发展了一套标准的适用于SARIMA模型的模型选择流程,称为Box-Jenkins方法。现有的常用分析软件(例如R)已经支持基于Box-Jenkins方法的模型选择流程,然而该过程需要分析人员手动输入多条命令,在不同的显示图表之间切换,并且手动比较多个模型。进行这些操作并不方便。本文的作者基于R中已有的算法,使用Java重新设计了一个支持模型选择的可视分析界面TiMoVA[1](Time series analysis, Model selection, and VA),能够支持更流畅的模型选择流程。

继续阅读 »

超图查询系统对多维数据高阶联合关系的可视分析 ( Visual Analysis of Higher-Order Conjunctive Relationships in Multi-Dimensional Data Using a Hypergraph Query System )

对多维数据的可视分析是可视化中一个非常重要的话题,已经有相当数量的工作研究如何通过可视分析探索多维数据中的维度关系。在这篇文章[1]之前,多维数据的可视分析大都集中在对低阶(2-3个维度)关系的探索,即使有像属性关系图上的交叉筛选 [3] 等技术,对高阶维度关系的探索也不够直观和高效。本文在前面交叉筛选 [2] 和属性关系图 [3],提出了一种基于超图的可视查询语言,来解决高阶维度关系的探索,包括维度间关系和维度内关系。文章对该语言的表达能力做了分析,以及如何使用交叉筛选对其表达能力进行扩展。

继续阅读 »

在众包数据分析中识别信息冗余和检验信息来源 (Identifying Redundancy and Exposing Provenance in Crowdsourced Data Analysis)

crowdsourced3

在很多分析工作中,分析师们需要针对图表进行分析任务,例如分析某个城市就业率曲线的增减。也许分析少数几张图表并不是什么难事,但假若我们要分析上百个甚至上千个城市的就业率曲线时,这便成为一个任务量巨大的工作。分析师们可以利用众包完成分析任务,例如在 Amazon Mechanical Turk 上付点小钱让工人们 (crowd workers) 每人完成一两个小任务,聚集起大家的分析结果就可以完成整个分析任务。但是,通过众包方式获得的结果也存在一些问题:1) 工人们提供的信息中含有冗余信息,这增加了分析师们的工作量 2) 由于工人的知识水平不同,他们的答案准确性也有差别。这篇论文工作的目标是帮助分析师们再一次用众包的方法来分析由众包提供的答案。

继续阅读 »

通过表格数据的视图关联技术实现对合作者操作的理解(Supporting Awareness through Collaborative Brushing and Linking of Tabular Data)

1

在与别人合作进行数据分析时,我们需要理解对方执行的操作。尤其当分析者没有坐在一起,而是远程协作的时候,明确别人正在做什么对启迪自己的思路以及避免重复劳动都用重要价值。怎么样能够实时感知别人正在进行的工作,了解操作的进程?如何避免他们的分析干扰自己的工作?这篇来自2013年VAST的文章[1]针对笔刷关联技术,通过用户实验比较了三种向用户传达合作者操作行为的方法。研究表明笔刷关联技术对帮助用户理解别人分析的进程很有帮助,并不会对他自己的分析产生显著影响。
继续阅读 »

用于稠密有向图中的边压缩技术 (Edge Compression Techniques for Visualization of Dense Directed Graphs)

三种边压缩技术, (a)标准点边图,(b)近邻匹配结果,(c)模块分解结果,(d) 复杂图分解结果

概况

在图绘制领域,由点和边的重叠、交叉而引起的视觉混乱是经常碰到的问题。在本篇文章中,作者对边压缩技术进行了总结,提出了基于约束编程的优化技术,并且通过实验逐层验证了边压缩在解决视觉混乱中所起的作用。 继续阅读 »

深入理解叙述可视化中的顺序 (A Deeper Understanding of Sequence in Narrative Visualization)

algorithm

在传统的叙述中,讲述的顺序对于读者的理解和记忆是有很大影响的,顺序安排的好,循序渐进,会让人更容易理解和记忆。但是在叙述可视化中,可视化出现的顺序是否对理解和记忆有影响我们就知之甚少了。本文首先研究了大量优秀的叙述可视化案例,对可视化进行分类总结;随后提出了一个基于图的寻找有效的叙述可视化序列的方法,并做用户实验分别验证了此方法在局部和全局最优上的效果。

继续阅读 »

SketchStory:通过任意描绘讲述参与感更强的故事 (SketchStory: Telling More Engaging Stories with Data through Freeform Sketching)

sketchstory

近年来,大部分的可视化工作多关注于如何将数据中的模式或关系通过图形图像的形式表现出来。而向听众展现数据中的发现,讲述数据背后故事,同样是数据探索的一个主要目标之一。可视化作为讲述数据故事的媒介已经引起了人们的关注,叙述可视化(Narrative Visualization)方向就探讨如何通过新颖、有创意的可视化及可视分析方法来讲数据中的故事。本文作者受白板板书叙述方式的启发,提出了一种使用电子板,以笔和触摸为输入的叙述方式,帮助演讲者叙述故事,提升演讲者和听众的参与感[1]。

继续阅读 »

HierachicalTopics:通过层次化的主题可视化探索大文本集 (HierarchicalTopics: Visually Exploring Large Text Collections Using Topic Hierarchies)

ht4

随着信息时代的到来,数据产生的速度越来越快,大量的文本数据也给人类的分析造成了困难。然而,这些海量文本数据的背后,其实蕴藏着丰富的价值,但它们却还未被我们挖掘出来。

基于主题的文本分析技术和可视分析技术可以较好地总结文本内容,但随着数据量的增加,为了更好地展示文本内容,自动提取主题的数量也越来越多,这大大影响了人们的理解与分析。

继续阅读 »

UTOPIAN: 用户驱动的基于可交互非负矩阵分解的主题模型(UTOPIAN: User-driven Topic Modeling Based on Interactive Nonnegative Matrix Factorization)

utopian1

随着信息科技的发展,文本的数据量在急剧扩大,如何有效地从文本集中提取有意义的信息成为了一个十分重要的问题。主题模型目前已经被大量地应用于文本分析中,尤其是 LDA 算法更是被广泛使用。然而,将 LDA 算法应用于文档可视分析上时会产生有两个不足:一是该算法多次运算时结果不稳定,差异较大;二是 LDA 算法收敛速度较慢。为了解决这两个不足,本文提出了一个主题模型可视分析系统UTOPIAN (User-driven Topic modeling based on Interactive Nonnegative Matrix Factorization) 。该系统利用非负矩阵分解算法 (NMF, Nonnegative Matrix Factorization) 算法进行主题模型的计算,同时可视化地展示了文档集的主题信息,并支持用户通过多种交互手段对主题模型的结果进行修正和提高。

继续阅读 »