SMARTexplore: 通过基于表格的可视分析方法简化高维数据分析(SMARTexplore: Simplifying High-Dimensional Data Analysis through a Table-Based Visual Analytics Approach)

高维数据通常以表格形式提供,可视化高维数据通常会将它转换为抽象表示。常见的高维数据可视化方法有散点图矩阵,平行坐标,线性和非线性投影。虽然这些方法对于高维数据的分析是有效的,但是它们与记录和维度的交互却不够直观。分析人员需要心理的努力来将原始格式的记录,维度和值与可视化中的表示相互关联,反之亦然。因此,非可视化专家通常需要培训才能掌握这些可视化方法,而且这种抽象表示也会影响他们对所揭示模式的信任。因此,本文[1]提出了可视分析系统SMARTexplore,希望通过熟悉的基于表格的可视化分析方法,简化高维数据中相关性、聚类、异常值以及其他模式的识别和理解。

继续阅读 »

MotionRugs:集体趋势时空可视化(MotionRugs: Visualizing Collective Trends in Space and Time)

了解集体的运动模式,如鸟群或鱼群,是一个有趣的开放研究问题。集体由共同目标驱动或对个体方向变化和外部影响因素和刺激作出反应。可视化集体运动数据的挑战是同时显示数百个运动的空间和时间,以便能够检测时空模式。本文[1] 提出了MotionRugs,一种用于可视化移动实体组的新型空间高效技术。在已建立的空间划分策略的基础上,我们的方法将每个时间步骤中的空间维度减少到单个实体的一维有序表示。通过设计,MotionRugs提供了无重叠,紧凑的群体运动随时间发展的概述,从而使分析师能够直观地识别和探索群组特定的时间模式。我们证明了我们的方法在鱼群分析领域的有用性,并报告了集体行为领域领域专家的初步反馈。 继续阅读 »

DXR:创建沉浸式数据可视化的工具(DXR: A Toolkit for Building Immersive Data Visualizations)

沉浸式技术,诸如虚拟现实和增强现实,已经为数据的展示、交互、探索提供了一种新型有效的形式。人们对沉浸式可视化与可视分析的应用产生了越来越多的需求,但目前为沉浸式环境构建应用程序和原型可视化设计仍然具有挑战性。现在大部分的沉浸式可视化应用都是依赖于Unity 3D环境编写的,多数编程人员还在编写底层代码进行数据解析、物体摆放和可视化映射等操作;同时,设计者需要在沉浸式环境中查看可视化,这导致迭代设计的效率十分低下。这篇文章[1]提出了DXR(Data visualization for eXtend Reality),一个开源的沉浸式可视化快速构建工具。该工具由大量的预制件和脚本包组成,如图1,能够为构建和重用三维可视化设计提供高级接口,用户可使用类似Vega-Lite的语法快速编写可视化映射,支持文本编辑器和内置原位GUI,并支持用户自定义marks和channels以满足更复杂的可视化设计。 继续阅读 »

SwiftTuna: 对大规模高维数据的快速响应的增量式可视化探索 (SwiftTuna: Responsive and Incremental Visual Exploration of Large-scale Multidimensional Data )

对于大规模数据的交互式探索,经常使用预处理方案(例如,数据立方体)来概括数据并提供低延迟响应然而,这种方案由于查询涉及更多维度而遭受过大量的内存占用,并且在查询之前必须从数据构建特定数据结构的强大先决条件。在本文[1]中,我们介绍了SwiftTuna,这是一个整体系统,简化了大规模多维数据的视觉信息搜索过程。SwiftTuna利用内存计算引擎Apache Spark来实现可扩展性和性能,而无需构建预先计算的数据结构。该论文还提出了一种新颖的交互式可视化技术,即尾部图表,以促进大规模的多维数据探索。为了支持对大规模数据的响应式查询,SwiftTuna利用增量处理方法,提供即时低保真响应(即快速响应)以及延迟的高保真响应(即增量响应)。性能评估表明,SwiftTuna允许对具有40亿条记录的真实数据集进行数据探索,同时在几秒钟内保留增量响应之间的延迟。

继续阅读 »

利用在线评论轻松比较本地企业 (Towards Easy Comparison of Local Businesses Using Online Reviews)

随着电子商务的快速发展,越来越多的在线评论网站,如Yelp,帮助客户做出更好的购买决策。查看其他客户的在线评论,包括评级得分和文本评论,并进行不同业务之间的比较是做出最佳决策的关键。然而,由于在线评论数量巨大,用户评级标准存在潜在差异,以及评论的时间、长度、细节和质量等各有不同,客户很难实现快速和全面的比较。本文[1]介绍了基于在线评论的精心设计的可视化分析系统E-Comp,用以帮助客户不同详细程度地比较本地企业。

继续阅读 »

Chart Constellations: 对合作和多用户分析的有效图表总结(Effective Chart Summarization for Collaborative and Multi-User Analyses)

考虑一个大而复杂的数据集。如果你的任务是分析此数据集,你可以通过绘制几个图表进行探索性可视分析(EVA)。这种迭代的图表驱动方法很受欢迎,并得到Tableau等软件和Kaggle Kernels等数据科学笔记本的支持。不幸的是,由于数据集的深度或宽度,这样的任务对于一个人来说可能太多了。从这些领域中提取有趣知识的问题的直接解决方案并不清晰。一种方法是让多个分析师共同工作以发现结论,无论是作为一个团队(即协同工作)还是独立(每个分析师进行自己的调查)。但现在的问题是,我们如何理解并从这一分析中学习?

继续阅读 »

面向用户的主动学习算法(Towards User-Centered Active Learning Algorithms)

数据的标记在机器学习(ML)和可视分析中(VA)中都是一个非常基础的过程。但是,标记是一个很费时间的工作。所以需要一些更高效的标记策略。主动学习(AL)是一个旨在减少用户交互的一个机器学习的方法。它采用了候选选择策略(Candidate selection strategies),通过模型为用户选择出一些数据来进行标注。但是,用户并没有直接参与到实例的选择的过程中。数据标记同时也应用在可视分析中。可视分析中的实例选择和标记是用户驱动的。之前的工作曾经提出过可视化交互标记的想法来通过用户和模型来给出候选的数据。而这个工作[1]旨在进一步缩小AL和VA之间的距离。该工作做出了如下的贡献:(1)形式化用户的策略。(2)将用户的策略划分为11个低级别的模块。(3)在4个数据集上比较用户策略和AL策略。

继续阅读 »

大规模地理空间的源-目的地移动数据的视觉抽象(Visual Abstraction of Large Scale Geospatial Origin-Destination Movement Data)

大量的移动数据集以源 – 目的地(OD)形式表示,例如出租车旅行,移动电话位置等。作为可视化OD数据的常用方法,流图(flow map)经常因为大量的遮挡和交叉问题而难以发现移动的模式。过滤,聚类和边捆绑都可以减少流图的视觉混乱​​,但是OD流之间的相关性经常被忽略,这使得简化的OD流图呈现很少的语义信息。该工作[1]将OD流表征为单词和语句后通过Word2Vec模型来向量化处理。然后采用t-SNE对转换的高维向量进行降维,并设计了迭代的多目标采样方案以在矢量化表示空间中选择OD流。为了增强采样后OD流图的可读性,作者设计了抽象的流图以及flow wheel等呈现OD流的相互作用,并且整合了一组定量比较技术来评估样本流。基于真实数据集的案例研究和领域专家的访谈证明了该系统在减少视觉混乱和增强OD流量相关性方面的有效性。

继续阅读 »

Gaussian Cubes: 在大规模多维数据的可视化探索中实时建模 (Gaussian Cubes: Real-Time Modeling for Visual Exploration of Large Multidimensional Datasets)

大规模数据的可视化探索中存在着两个互相矛盾的需求:表达能力和计算效率。近来提出的一些方法,比如Nanocubes和imMens,使得大数据集上的实时交互探索成为可能。然而,它们支持的分析种类有限,只能快速得到直方图和heatmaps等。为了改善这一情况,文章提出了Gaussian Cubes,可以对数据进行交互式地建模,包括线性最小二乘法,主成分分析等。

与基于data cubes的方法不同,在它们的基础上,除了预先计算数据子集的数量 (count),Gaussian Cubes还提前计算了数据子集的多元高斯分布,这使得它能够在一秒内对具有百万点的数据拟合数百个模型。

继续阅读 »

SparseLeap:一种大规模体绘制中高效的空体素跳跃方法(SparseLeap: Efficient Empty Space Skipping for Large-Scale Volume Rendering)

体渲染是体数据可视化中的一项重要的任务,体渲染主要分为等值面体渲染(Iso-surface Volume Rendering)及直接体渲染(Direct Volume Rendering), 而在直接体渲染中,最为广泛使用的是光线投射算法(Ray-casting)。对于大规模的体数据,在使用光线投射算法进行体渲染时,若不跳过空白区域,即进行空体素跳跃,则会产生极大的运算量。然而大规模体数据,如神经元、皮肤数据,往往具有精细复杂的结构,这使得空体素跳跃变得极为困难。

继续阅读 »