SIRIUS:交互式对称双向降维技术(SIRIUS: Dual, Symmetric, Interactive Dimension Reductions)

在经典的降维技术中,维度(attributes)一般被视作输入而数据(observations)作为输出,用户通过与数据投影进行交互来了解数据与维度之间的关联。但在许多分析场景中,两者地位平等、相互影响、密不可分。通过分析数据之间的关系,能够揭示维度的重要性与价值,反之亦然。例如在区分西瓜与梨子时,“尺寸”是十分重要的因素。又如在强调糖分与水分的相关性时,“西瓜”便比“糖葫芦”更有说服力。为了帮助用户进行数据与维度的双向关联性分析,这篇发表于IEEE VIS 2018的文章[1]提出了SIRIUS(Symmetric Interactive Representations In a Unified System):即同一系统下的交互性对称双向降维技术。

 

一、设计目标

SIRIUS的设计目标主要有三点:

1). 为用户展示高维数据中的数据相似性(observation similarity)与维度相似性(attribute similarity);

2). 帮助用户调节各个维度/数据的重要性(importance),并观察降维投影中所发生的相应变化;

3). 向用户揭示数据重要性与维度重要性之间的内在联系。

 

二、算法设计

1、展示数据/维度之间的相似性

在相似性的表示上,各类降维技术如PCA、MDS、t-SNE等等都是较好的选择。这些方法有的基于原数据空间(如PCA、t-SNE等),有的则需要距离矩阵作为输入(如MDS)。而无论哪种降维方法,只要将数据与维度的角色对调,便能同时得到表现数据关系的数据投影图、以及表现维度关系的维度投影图。这也是文章题目中、双向(dual)一词的由来。

其中O、A分别代表数据与维度,W是维度的权重向量。除加权距离外,WMDS与经典MDS别无二致。
本文采用了基于加权欧氏距离(weighted Euclidean distance)的WMDS来对数据和维度关系进行投影。以数据投影为例,WMDS对各个维度赋予不同的权重、并反应在该维度的距离计算中:

Cheng等人[2]提出将“数据-数据”、“数据-维度”、“维度-维度”三种关系合而为一、同时进行降维,但这样会不可避免地加重各类关系中的投影失真。为此,本文作者选择同时保留两种对偶投影图(如图1所示),并通过用户交互来驱动其中的联动分析。

图 1. 动物数据的数据投影图(左)与维度投影图(右)

图 1. 动物数据的数据投影图(左)与维度投影图(右)

 

2、调节数据/维度的重要性

在数据的WMDS投影中,权重即反映了各个维度的重要性,反之亦然。用户可通过两种方式调整维度或数据的重要性:即基于参数的交互(parametric interaction, PaI)和基于投影的交互(projection interaction, PrI)。

在PaI方式中,用户可以鼠标悬停于单个数据或维度上,并利用浮现的滑块控件对其权重进行直接修改。数据投影图会随着维度权重的调整而更新,反之亦然。这也是最常见的、改变输入来影响输出的交互方式。而在PrI方式中,用户操纵投影图本身来调整其背后的输入权重。例如,利用鼠标拖拽加大“西瓜”与“梨子”在投影图上的距离,从而使“尺寸”这一维度获得更高的权重。这是改变输出来影响输入。在WMDS框架下,PrI的这一过程可通过如下优化问题来求解(以数据投影为例):

其中hDist、lDist分别指高维、低维空间中的数据距离。

 

3、数据重要性与维度重要性的相互影响

在前述两项上,SIRIUS和许多已有的技术是大同小异[3]。而SIRIUS最主要的创新之一,在于将数据重要性与维度重要性关联起来。这一创新的主要思想则来源于网页检索领域的经典算法HITS(Hyperlink-Induced Topic Search)。

3.1 HITS算法原理

HITS对网页的评分基于两种属性:权威性(authority)与中心性(hub)。其中权威性反映了一个网页与搜索内容的相关程度,是所有指向它的页面的hub分数之和。而中心性则反映了一个网页中包含链接的质量,是它所指向的其他页面的authority分数之和。两种属性相互加强:中心性高的页面,应当指向许多相关页面;而权威性高的页面,应当被很多枢纽页面所指向。

3.2 数据与维度的重要性转化

在高维数据的语境下,权威性和中心性被替换成了数据和维度的重要性:一个重要的数据项,应当在每一个重要维度上都有较高的取值;而一个重要的维度,应当在每一个重要数据上都有较高的分数。举例来说,如果“水分”是重要的维度,则“西瓜”相较于“葡萄干”应当更为重要;如果“西瓜”是重要的数据,则“甜度”相较于“辣度”应当更为重要。当然了,“取值高”并不一定等价为“重要”。在通常的分析场景中,异常高或低的取值往往都值得留意。而在本文中,作者们也只是采取了上述定义来论证HITS思想的可行性。SIRIUS的框架并不排斥其他对于“重要性”的定义。在这一思想的基础上,数据与维度的重要性可以相互转化:

其中维度的重要性可通过数据取值与数据权重推算得到,反之亦然。

3.3 SIRIUS中的权重推演机制

在HITS算法中,hub分数与authority分数之间相互转化,并在逐次迭代中达到收敛平衡。而SIRIUS为了简化算法、增强交互性,通常只对数据与维度的重要性进行一次相互推演。

在初始状态下,数据/维度的权重被设定为均一权重,由此推算得到新的维度/数据权重,并以此进行数据/维度的初始投影,其过程如图2所示。

图 2. 投影初始化的过程

图 2. 投影初始化的过程

在PaI交互中,用户直接修改单个维度/数据项的权重后,SIRIUS将推算数据/维度权重,再反过来更新维度/数据权重,最后由此更新两幅投影图。这里之所以进行了两次推演,是因为用户修改的是单个维度/数据项的权重,其余维度/数据的权重并未因此产生变化。举例来说,用户认为“水分”是重要的变量,由此提高了“西瓜”、“梨子”等多汁水果的权重,反过来也会加强诸如“糖分”等变量的重要性(因为多汁的水果往往含糖量高)。这也从侧面说明了“水分”和“糖分”的高相关性,使得两者的权重相互关联。完整的推演过程如图3所示。

图 3. PaI交互中的权重推演机制

图 3. PaI交互中的权重推演机制

而在PrI交互中,用户对数据/维度的投影关系进行直接修改后,SIRIUS将通过逆向WMDS优化、计算出合理的维度/数据权重,并由此推演数据/维度权重,最后同时更新两幅投影图。其完整过程如图4所示。

图 4. PrI交互中的权重推演机制

图 4. PrI交互中的权重推演机制

 

三、案例分析

在这个基于动物数据的案例中,我们将看到SIRIUS引入如此复杂的重要性推演机制的作用与原因。动物数据记录了13种动物在13个变量上的特征,其初始投影图如图1所示。其中,我们可以观察到一些关系密切的数据和维度(Goal 1):例如蓝鲸(Blue Whale)与海豚(Dolphin)分布相近,而体型(Size)与力量(Strength)也密切相关。但从投影点的大小和不透明度可以看出,各个数据项/维度的重要性之间并无太大差异。

图 5. 通过PrI交互调整数据布局(上)后,得到新的维度投影(下)

图 5. 通过PrI交互调整数据布局(上)后,得到新的维度投影(下)

用户基于自己的认知,将部分动物分成三组:蓝鲸与海豚、奶牛(Cow)与绵羊(Sheep)、老虎(Tiger)与狼(Wolf),并通过PrI交互增大各组之间的投影距离(图5上图)。在更新后的维度投影(图5下图)中,可发现其中三个变量的重要性明显增强(Goal 2),分别是水(Water)、食草动物(Grazer)以及猎食者(Hunter)。这些变量正好一一对应着三个动物分组的主要特性。

得益于重要性推演机制,数据权重也发生了变化、并由此更新了维度投影图的布局(Goal 3)。在新的维度投影中,一些先前隐含的维度关系也显现了出来:例如猎食者与毛发(Furry)、速度(Speed)、敏捷性(Active)等维度有很高的相关性,而食草动物则和斑点(Spots)、条纹(Stripes)、采集行为(Forager)、步态(Walks)等密切相关。这也正符合我们的生活常识:猎食动物往往毛发浓密且十分敏捷,而食草动物则需要斑点、条纹等特征来伪装自己。由案例可见,SIRIUS不但能够帮助用户进行数据/维度的双向分析,更能通过重要性的推演和联动、有效推动认知的进一步深化和拓展。

 

四、总结

SIRIUS对于高维可视分析领域来说,既是已有技术的一次成熟的结合,也是有益的拓展和补充。其中因素与现象的相互强化(mutual reinforcement),更是一个普适性非常强的思路,能够应用于各类数据的关联搜索与分析,值得我们进一步去探索。

 

参考文献

[1] Dowling M, Wenskovitch J, Fry J T, et al. SIRIUS: Dual, Symmetric, Interactive Dimension Reductions. IEEE transactions on visualization and computer graphics, 2018.

[2] Cheng S, Mueller K. The data context map: Fusing data and attributes into a unified display. IEEE transactions on visualization and computer graphics, 2016, 22(1): 121-130.

[3] Self J Z, Vinayagam R K, Fry J T, et al. Bridging the gap between user intention and model parameters for human-in-the-loop data analytics. Proceedings of the Workshop on Human-In-the-Loop Data Analytics. ACM, 2016: 3.

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>