标签存档: 数据立方体

Gaussian Cubes: 在大规模多维数据的可视化探索中实时建模 (Gaussian Cubes: Real-Time Modeling for Visual Exploration of Large Multidimensional Datasets)

大规模数据的可视化探索中存在着两个互相矛盾的需求:表达能力和计算效率。近来提出的一些方法,比如Nanocubes和imMens,使得大数据集上的实时交互探索成为可能。然而,它们支持的分析种类有限,只能快速得到直方图和heatmaps等。为了改善这一情况,文章提出了Gaussian Cubes,可以对数据进行交互式地建模,包括线性最小二乘法,主成分分析等。

与基于data cubes的方法不同,在它们的基础上,除了预先计算数据子集的数量 (count),Gaussian Cubes还提前计算了数据子集的多元高斯分布,这使得它能够在一秒内对具有百万点的数据拟合数百个模型。

继续阅读 »

时间格:支持交互式可视分析大规模时间序列的数据结构(Time Lattice: A Data Structure for the Interactive Visual Analysis of Large Time Series)

物联网设备的广泛使用生成了大量的时间序列数据,通常会有几十至几千的传感器同时生成时间序列。交互式的可视化框架在分析这些数据时非常重要。进行分析时需要复杂的查询,包括在不同时间分辨率下对时间序列数据的取值进行限制,进行聚集等。

继续阅读 »

ConcaveCubes: 支持基于聚类的大规模地理数据可视化 (ConcaveCubes: Supporting Cluster-based Geographical Visualization in Large Data Scale)

城市数据越来越容易获取,且规模不断扩大。现有的信息可视化方法在处理大规模数据时,需要占用大量的存储空间,交互时间过长,并且会由于渲染过多的图元而加重用户的认知负担。

继续阅读 »

TOPKUBE: 一种支持实时时空数据探索的序敏感数据立方体 (TOPKUBE: A Rank-Aware Data Cube for Real-Time Exploration of Spatiotemporal Data)

针对时空数据的查询中一类关于前k相关客体的查询,该论文[1]提出了能达到交互性要求的数据结构及相应算法,解决了相关工作没有关注此类查询或者没有关注可交互性的问题。

继续阅读 »

Nanocubes: 对时空数据的事实探索 (Nanocubes for Real-Time Exploration of Spatiotemporal Datasets)

随着信息爆炸时代的到来,数据量越来越大,人们对时空数据的实时处理和探索显得越加困难。想象一下,假如你有一个微博数据集,它记录每条微博发布的时间、地点和发布设备。那么,你如何可以快速地知道到微博的地理分布呢,是上海还是北京的用户发的微博更多?人们是工作日里发的微博多还是周末发的多?每天微博发布的高峰时间是什么时候?人们用什么手机系统发的微博多呢,是iPhone还是Android?在2009年时候是什么情况呢?那么在2012年这种情况发生了变化吗?这些问题涉及到了各个维度上的聚合统计,并且在时间和空间维度还涉及到了不同的粒度。要回答这些问题,最简单的方法或许是扫描一遍数据集,然后获得统计值。但这在日益增长的数据量和实时性的要求下,这种方法显然不适用。

继续阅读 »