月度存档: 十月 2017

对基于聚类的集合天气预报分析的鲁棒性可视化 (Visualizing Confidence in Cluster-based Ensemble Weather Forecast Analyses)

图1 可视分析流程图,包含多个部分,主要是鲁棒性可视化

在天气预报领域,其数据往往包含多个在不同模型或者模型初始条件下生成的成员,这些成员组成了一个集合。在这些集合数据中,气象学家经常需要确定某个区域内成员的主要走势,从而可以进行气象预测。随后的一些分析也建立在这些发现上。为了确定这种主要走势,人们通常使用聚类分析,在某些特定的区域将集合数据中类似的成员进行聚类。但是,集合聚类也存在着一些挑战。聚类结果高度依赖于某些参数,例如所选区域和聚类个数等,其往往对这些参数非常敏感。因此,我们能够多大程度信任聚类结果,这些聚类结果的在参数有小的改变时鲁棒性如何,这些都是需要解决的问题。针对这些问题,今年VAST的一篇文章[1],提出了一种可视分析的流程,使用一系列多个层面上的可视化来分析聚类结果在所选区域变动下的鲁棒性。

继续阅读 »

非线性点图(NonLinear Dot Plot)

柱状图(histogram)和点图(dot plot)是展现数据分布的两种不同的可视化方法。传统的点图使用节点大小一致的节点,直接将数据元素放置到对应的x轴位置处,相对于柱状图的可视化方法,点图是一个更加精确的可视化表现形式,使得其更加容易被用户理解,同时可以支持用户更加简单直观地得到元素的数量。对于大规模的高动态范围数据,在很多情况下用户希望获取数据量较小的数值,但是为了支持用户对于这一范围数据的感知与分析,柱状图支持用户将传统的柱状图转换为非线性的柱状图进行表示。但是对于点图却没有一个合适的可视化方法支持用户的分析,本文的工作提出了一种新的可视化形式,非线性点图,从而支持用户对于大规模的高动态范围的数据进行可视化,更好的感知数据集中数据量较小的异常值。[1]

继续阅读 »

主题建模参数的渐进式学习:可视分析框架(Progressive Learning of Topic Modeling Parameters: A Visual Analytics Framework)

主题分析模型是典型的非监督学习算法,广泛应用于文本主题组成分析。虽然主题模型应用广泛,且效果尤佳,但对于许多使用者来说,该模型的计算结果和参数调整对结果的影响,是很难理解的。换而言之,主题模型是个黑盒子。为此,文章提出了一个模块化的可视分析框架,通过用户驱动的强化学习过程,在不要求使用者对主题模型的底层算法具有深入理解的情况下,帮助用户学习到可理解性和可调节性更强的主题模型。

继续阅读 »

Pattern Trails: 对子空间中数据变化的可视分析(Pattern Trails: Visual Analysis of Pattern Transitions in Subspaces)

在高维数据中,任意维度的组合都形成一个子空间,数据关系则因维度考量的不同而发生改变。举例来说,虎与狼在肉食性、体型、栖息地等方面相近,但在基因组成、群聚性上,虎与猫则更为相近。然而,维度的组合极其繁多,其数量随维度的增多而呈指数级增长。对于如此大量的子空间,我们该如何发掘其中数据关系的变化呢?针对该问题,这篇发表于IEEE VAST 2017的文章[1]提出了Pattern Trails,一种基于可视化的交互式分析方法。

继续阅读 »

将视频和移动数据结合来增强体育运动分析(Bring it to the Pitch: Combining Video and Movement Data to Enhance Team Sport Analysis)

对体育比赛进行分析,可以观察球员或球队的战略和战术行为。当前的分析工作流通常基于人工观看比赛视频分析。但是观看视频通常是一个耗时的过程,分析人员需要记住和注释场景。这项工作将球队视频与轨迹数据的抽象可视化相结合来帮组我们理解 [1]。

继续阅读 »

LSTMVis:一个递归神经网络中隐含状态动态变化的可视分析工具 (LSTMVis: A Tool for Visual Analysis of Hidden State Dynamics in Recurrent Neural Networks)

图3:LSTMVis的用户界面

深度神经网络已经在计算视觉、自然语言处理等许多领域中取得了卓越的性能表现。深度神经网络能够自动地学习输入数据的隐含特征表示,用于相关任务。之所以称之为“隐含”特征表示,是因为这些特征表示难以以原始输入数据的形式表示出来,从而让使用者难以理解深度神经网络到底学习到了数据的什么信息。现有的研究中,有许多深度神经网络被广泛应用:标准的前馈神经网络、用于图片任务的卷积神经网络、以及用于对序列数据建模的递归神经网络等等。本文主要关注一类递归神经网络——长短期记忆(Long Short-Term Memory, LSTM)模型中隐含状态表示的可视化。

继续阅读 »

TOPKUBE: 一种支持实时时空数据探索的序敏感数据立方体 (TOPKUBE: A Rank-Aware Data Cube for Real-Time Exploration of Spatiotemporal Data)

针对时空数据的查询中一类关于前k相关客体的查询,该论文[1]提出了能达到交互性要求的数据结构及相应算法,解决了相关工作没有关注此类查询或者没有关注可交互性的问题。

继续阅读 »

用故事曲线可视化非线性的叙述(Visualizing Nonlinear Narratives with Story Curves)

叙述说明了故事中的事件被讲述的方式。非线性叙述是一个跳出以时间先后顺序来描述事件的叙述技巧。例如,叙述可以隐瞒一些信息来保持神秘感。最终,叙述可以闪回到故事的开端,来释放紧张感。这种非线性叙述技巧被广泛的应用于多种讲述故事的体裁中,包括文学、戏剧、电影、小说和电子游戏。

继续阅读 »

通过对OD数据的空间时间抽象来揭示大规模移动数据的模式和趋势(Revealing Patterns and Trends of Mass Mobility Through Spatial and Temporal Abstraction of Origin-Destination Movement Data)

Origin-destination (OD)移动数据没有具体的描述移动的轨迹,而是仅具有起点,目的地,开始和结束时间以及其他属性。为了研究大规模移动数据的时空模式和趋势,常常把单个轨迹通过时间间隔聚合成流。时变的OD流数据为可视化和分析提出了两个难题。首先,流可以连接任意位置,从而形成的具有许多边缘交叉遮挡的难以理解的表达。第二个挑战是需要分析长时间序列的多个空间状态。这篇文章[1]提出一种方法,通过空间和时间抽象来促进对长时间序列流数据的探索。它通过一种特殊的数据聚合方式,允许通过图表而不是流图来表示空间状态,从而减少流图所具有的交叉和遮挡问题。聚合数据用于通过空间状态的相似性对时间间隔进行聚类。聚类结果的时间和空间可视化表达有助于发现大规模移动行为的周期性模式和长期趋势。

继续阅读 »

cite2vec: 基于词嵌入模型的引用文档研究 (cite2vec: Citation-Driven Document Exploration via Word Embeddings)

目前而言,对于文档集的探究,主要有以下三个方面的目标:

  1. 对文档集的概览,了解文档集中的主题等。
  2. 能够让用户探究感兴趣的文档集。
  3. 提供对于文档之间的比较功能。

然而,在进行文档集探究之前,我们首先需要选择一个适当的方式来“表示”文档集,这对于文档探究是十分重要的。在之前的文档集探究方法中,大多致力于将文档可视化来说明文档集是什么,也就是通过可视化的方式了解文档的内容。然而,这篇文章[1]从一个全新的视角,通过文档间的引用关系来将文档可视化,进而说明文档集的用途。

继续阅读 »