解释器:结合定制化降维投影的数据探索 (Explainers: Expert Explorations with Crafted Projections)

数据的降维是高维数据可视化的重要一环,它使得抽象不可感的高维数据结构能在低维空间里部分地展现出来。现有诸多降维方法如PCA、MDS等都是基于数据统计属性的最优化得到的,它们能最大限度地减少降维过程中的信息损失,却无法提供关于降维结果的清晰的语义信息,增加了数据的解读难度。相对地,用户可能掌握着丰富的背景知识,或是了解数据的语义内涵,但这些都未被传统的降维方法所考虑,从而降维结果可能和用户的认知相去甚远,降低了降维方法的实用性。总而言之,现有的数据降维方法存在着语义性差、脱离用户背景的问题,这在数据建模、理论构造、解释论证等各方面给数据的分析和应用带来了困难。

针对这些问题,Michael Gleicher [1] 提出了能够结合用户知识、产生定制化投影函数的,名为“解释器”(Explainer)的方法,通过建立总体数据特征和各个维度的联系,帮助用户更好地解释观察到的数据现象,建立简单实用的理论模型。譬如,用户指定了两种城市特征:“巴黎性”(Paris-ness)和“纽约性”(New York-ness),如图1所示。解释器方法通过结合各个具体城市指标(如房价、商业、人口等)来产生代表“巴黎性”或“纽约性”的投影函数,从而也能在这些合成的属性上对其他城市对进行评估。而投影函数本身,即能够解释“巴黎性”或“纽约性”的具体内涵,譬如前者的投影中“人文”维度的权重较大,而后者的投影更偏重于“商业”等等。

图1 基于“巴黎性”和“纽约性”的城市分布

图1 基于“巴黎性”和“纽约性”的城市分布

解释器方法主要可分为三部分:首先是接收用户的背景知识并为其建模,然后通过机器学习的方法产生简单投影函数,并使投影结果尽可能地接近已知模型,最后为用户返回一个函数集合,用户可根据实际需要从中选择投影函数。

在第一部分里,用户的背景知识具体表现为数据的分类信息。譬如三个城市的数据:上海、纽约、洛杉矶,分类标准为“美国性”(American-ness),用户指出两个美国城市和非美国城市上海,即完成了背景知识的输入。换言之,用户可针对某一种可观察的数据特征对已有数据作二元划分,投影结果则需要尽可能地体现已知的划分,从而保证投影的“正确性”。

在第二部分里,首先需要指定投影函数的构造准则,用以衡量函数的效果,并简化算法流程。具体来说,n维投影函数可描述为 f(d1, d2, … dn),它需要满足“正确性”、“简单性”、“多样性”三个要求。其中正确性要求“正类”(即具有该数据特征)数据的函数值大于“负类”数据的函数值,它衡量了投影结果在多大程度上符合分类要求,即多大程度上表达了指定的数据特征。对于简单性要求,可约束投影函数为线性函数、各维度的权重为整数值、包含的维度尽可能少(令权重为0)等等,从而简化投影函数,使其更容易被理解和使用。显然地,正确性和简单性是两个相互矛盾的要求(如图2),它们共同构成了问题的基本约束。最后,多样性指的是算法产生的函数集合应该尽可能多样化,从而对同一个问题提供多个可选的视角,提高结果的可用性。这一准则说明,我们并不需要找到“最优”的函数,但应该减少可行解集中的冗余,提供最有代表性的可行投影。基于这些准则,投影函数的生成便转化为最大间隔(正确性)线性(简单性)分类器(用户输入)问题,而后者可以用机器学习领域的支持向量机方法来解决。用户通过调整输入参数来指定不同的投影要求,再经过支持向量机的运算即可得到满足要求的一组函数。

最后一部分里,用户可以根据不同的准则,对前述步骤产生的备选函数集进行排序,并从中选择效果最好、多样性最高的一个子集作为最后的结果。这里的准则可以是正确性或简单性,也可以是其它用户自定义标准,譬如上海的得分比纽约高等等。

图2 莎士比亚戏剧的“喜剧性”分布

图2 莎士比亚戏剧的“喜剧性”分布

我们可以从一些实际应用的例子中看到解释器方法的有效性。如图2所示是用解释器方法为36部莎士比亚的戏剧产生“喜剧性”投影的结果。其中左侧为所有戏剧在得分值上的排序,绿色为真实的喜剧,右侧三个箱图(Box Plot)分别展示了所有戏剧、非喜剧和喜剧的得分分布。左侧图是只包含三个维度、简单整数权重下的投影结果,可见非喜剧和喜剧的箱图有部分交叠;而右侧是22个维度、非整数权重下的结果,可看到两部分得分有很大差距,说明分类效果十分理想。但即使是左图效果较差的情形,投影也成功分出了多数喜剧(约2/3),证明了该方法的有效性。另外,投影函数给出了与“喜剧性”相关的维度和相应权重,有助于用户发现喜剧的具体特征并提出合理的解释。而通过指定维度数量和权重形式,用户可以在正确性和简单性之间作权衡,并在逐步的探索中发现较合适的投影函数。

解释器方法为用户提供了符合已有认知的、形式简单、灵活可调的投影函数产生机制,并因其强大的语义解释能力而有着其他投影方法难以比拟的优势。但该方法也仍有一些不足之处:一方面,支持向量机算法只能解决二元分类问题,因而解释器方法无法同时分离多个类别的数据,用户知识也无法通过分类以外的方式参与投影函数的生成;另一方面,定制的投影能突显特定的数据特征,但容易忽略数据的真实面貌,无法说明该特征是否在统计意义上真正存在且足够明显。总体而言,解释器方法有着较好的创新性和应用潜力,应能在高维数据可视化中发挥其应有的作用。

[1] Michael Gleicher. Explainers: Expert Explorations with Crafted Projections. IEEE Transactions on Visualization and Computer Graphics (TVCG), 19(12): 2042 – 2051, 2013.

评论关闭。