
在高维数据中,子空间指由维度子集构成的数据空间。为了避免数据中的重要模式被无关维度掩盖,分析人员需要选择合适的子空间作为分析对象,而不是在全维度空间进行分析。然而,子空间数量过多是子空间分析的主要挑战。包含d个维度的数据有2d-1个子空间。另一方面,虽然子空间聚类算法可以帮助我们找到包含聚类的潜在有价值子空间,但这类算法存在三个方面的问题:(1)产生的子空间数量依然过多;(2)结果存在冗余,即其中部分子空间十分相似;(3)结果存在偏差,即算法会过度强调某些维度,使它们在产生的子空间中出现的频率显著高于其他维度。面对这些问题,本文 [1]提出从语义角度生成和分析子空间的新范例(图1)。其核心思路是根据维度语义来生成子空间。
继续阅读 »
近期评论