径向集:大规模重叠集合的可交互可视分析 (Radial Sets: Interactive Visual Analysis of Large Overlapping Sets)

集合在数学上的定义是包含若干不重复元素的一个整体抽象概念,现实中的很多数据都可以以集合的形式展现,不管是论文数据、电影数据等。然而定义在相同数据集上的集合可能产生重叠,重叠的部分对数据分析有着很大的影响。最基本的分析集合的方式是文氏图,但是当集合数量增大时集合之间的关系会变难以观察(如图1)。针对大规模集合交集中的问题,本文[1]提出了可交互的径向集可视化方法。

radialSet3

图1 集合的文氏图

相关工作

研究人员针对集合分析的不同需求发明了多种可视化方法,总结以前的方法大致可以分为四类:

  • 1. 类欧拉图(图 2a),如气泡集合图、线集合图、欧拉图等,这类方法的问题是当重叠部分的集合数目和元素增大时,混乱的重叠区域会严重影响用户的观察。
  • 2. 点边图(图 2b),研究人员将点边图进行改进,增加锚节点(anchor node)代表集合,普通节点代表集合中的元素,使用他们之间的边来展示包含和重叠关系。点边图最大的缺点就是边数目增大时带来的视觉混乱。
  • 3. 基于矩阵方法(图 2c),在使用矩阵展示集合关系时,每行代表一个元素,每列代表一个集合,通过观察矩阵的两列用户可以大概了解集合的重叠情况,不过基于矩阵的方法比较依赖集合元素的排序,不同的排序方法对最后的效果有很大影响。
  • 4. 最后一种方法是基于频率的方法(图 2d),每一行表示一个集合,将元素聚集起来以条形来展示,在这种方法中用户能有效地观察不同集合的重叠情况,在这篇文章中作者间接采用了这种方法。
radialSet2

图2 各类集合可视化方法

 

径向集界面

  • 整个径向集界面(图 3)分为三个部分,左边部分(图 3a,图 3b)用来展示数据的总体情况,在图 3a中每一个bar代表一个集合,图 3b中每一个bar代表有相同度的元素个数。
  • 中间部分是本文的主要贡献所在(图 3c),作者用排列在圆环上的区域表示不同集合,用集合之间的边来表示集合之间的交集情况。
  • 右边部分是用来显示数据集细节信息的区域(图 3d,图 3e),用户可以通过选择集合或重叠区域,然后在列表中查看其中所包含的元素。

    radialSet

    图3 径向图界面

径向集设计

首先,径向集使用了圆环布局(如图 4),排列在圆环上的每一个区域表示一个集合,区域的大小可以是相同的也可以正比于元素的数目,区域大小相同可以更容易比较不同集合的元素比例关系,而不同的区域则更容易比较集合的数目关系。在区域内部,用一个垂直于地底边的直方图来展示集合中的元素,直方图中每一个直方代表具有某个特定度的元素的个数,度的大小由底向上递增,最底下一个直方代表了仅属于这个集合的元素,直方图的颜色可以展示数据的某个属性,如时间等。同时用连接不同区域的曲线来展示集合的重叠情况。

radialSet5

图4 径向集

作者采用了多种方式来展示集合间的重叠。

  • 使用连接区域的曲线表示任意两个集合的交集。边的宽度越大,重叠越多;同时颜色展示了重叠部分与重叠期望的差值。另外,为了减少曲线的相交情况,作者使用了贪心法对集合区域进行了重排,区域关系紧密的集合区域会被排得更加紧密。
  • 当重叠区域包含三个或三个以上集合时,作者使用了超边的方式来代表集合重叠,在圆心区域增加实心点表示集合重叠,实心点连接了重叠区域所包含的集合。在排布实心点时,作者使用了核密度,每一次迭代都尽量让实心点和超边占有的密度最少,通过若干次迭代达到比较均匀的布局情况。
  • 另外,还可以用气泡的方式来展示集合重叠,气泡没有连接重叠的相关集合,但是气泡按照重叠的度以同心圆环的方式排列在径向图中央,点击气泡可以显示重叠区域的相关集合。

使用场景

在这篇文章中,作者使用了两组数据,一组是ACM论文数据,包含了50000篇论文和他们的索引,一共将论文分为11类数据(A-K)。通过分析,可以看出在Hardware中有超过40%的论文是单独成文的,而在Mathematics of Computing中,绝大多数是与其他领域进行合作的论文;同时从直方图的颜色可以看出,Computer Systems论文逐渐从与其他类别论文合作走向独立发展;通过观察曲线,可以看到F和G有很强的关联性,而Hardware和Information Systems很少有交集。另外一组数据是电影数据(如图5),通过分析可以同样得出一些有趣的结论,成人电影和其他电影几乎没有交集,而动画电影几乎都是和其他电影进行合作;新闻类电影在以前与其他类型电影合作较多,近些年有独立发展的趋势;同样可以看到短类型电影和幽默电影重叠较多。

radialSet6

图5 以泡状图展示电影数据

针对集合的重叠问题,本文提出了径向集的可视化方法,通过两组数据的应用,证明了该方法在大规模集合重叠上的有效性,同时也可以看出由于使用了聚集的手段,集合的细节信息需要其他辅助手段才能进行展现。同时作者也提到虽然该工具能观察出集合之间的高层信息,但是细节和精确性表达不够,这将是作者未来的工作方向之一。

参考文献

[1] Bilal Alsallakh, Wolfgang Aigner, Silvia Miksch, Helwig HauserRadial Sets: Interactive Visual Analysis of Large Overlapping Sets. Visualization and Computer Graphics, IEEE Transactions on 19.12 (2013): 2496-2505.

评论关闭。