
对高维数据进行可视化,一个常用的方法是散点图。对于具有2个以上维度的数据,可以使用散点图矩阵(scatterplot matrix, SPLOM),其中每一个视图是某2个维度的散点图。随着数据量的增加,在散点图中可能出现点的重叠问题(overdrawing),影响后续的分析。有许多方法用来缓解这种问题,比如调整散点图中的符号(marker),改变它的大小、透明度、位置等;使用密度图;进行数据采样等。本文提出了一种在散点图矩阵中对多类别数据进行多视图联合优化的数据采样方法。
对于体数据的探索十分困难。一方面,体数据中蕴含着丰富的特征,探索过程中容易有所遗漏。另一方面,体数据中又充斥着噪声和用户不感兴趣的区域,需要精心进行特征的提取和筛选。对于体数据进行基于特征选择的探索方式通常基于体素聚类。在以往的工作中,交互式地聚类方式,需要用户对于聚类边界进行细致的调整,给用户带了巨大的负担。而由此衍生的多重聚类(Multiple Clustering),则通过对于聚类算法超参数的采样,获取尽可能多的聚类结果。而在此过程中,需要大量的试错式的尝试,才能得到良好的参数采样才能得到最终良好的聚类结果,同时由于采样的问题,特征的提取可能不够穷尽而导致有所遗漏。本文提出了一种基于穷举聚类的体素聚类方式,其命名而“特征乐高”,因为其在探索过程中能够提供给用户穷尽的特征聚类结果,就像基本的积木一样,用户可以有效的进行特征选择,加以组合,最终生成定制化的体数据可视化结果。
可视化大规模的高维数据在数据分析中扮演着越来越重要的角色。在众多的技术中,基于像素的可视化是一类非常有效的可视化方法。基于像素的可视化方法是在将对象的每一个数据属性映射到有限的屏幕空间内的一个像素点上,从而可视化尽可能多的可视化数据对象,并且通过排列像素点体现出数据中所存在的模式。近些年来,基于像素的可视化技术在很多具体场景中得到了广泛的应用并且充分验证了方法的有效性。本文的主要目的是讨论基于像素的可视化技术中的常见问题,对于设计该类可视化方法提供理论依据,本文所采用的方法是将基于像素的可视化技术中的设计转换为约束条件,求解约束条件进而得到设计决策,本文发现基于求解约束所得到的设计决策能够得到高效的可视化设计方法。 继续阅读 »
近期评论