面向用户的主动学习算法(Towards User-Centered Active Learning Algorithms)

数据的标记在机器学习(ML)和可视分析中(VA)中都是一个非常基础的过程。但是,标记是一个很费时间的工作。所以需要一些更高效的标记策略。主动学习(AL)是一个旨在减少用户交互的一个机器学习的方法。它采用了候选选择策略(Candidate selection strategies),通过模型为用户选择出一些数据来进行标注。但是,用户并没有直接参与到实例的选择的过程中。数据标记同时也应用在可视分析中。可视分析中的实例选择和标记是用户驱动的。之前的工作曾经提出过可视化交互标记的想法来通过用户和模型来给出候选的数据。而这个工作[1]旨在进一步缩小AL和VA之间的距离。该工作做出了如下的贡献:(1)形式化用户的策略。(2)将用户的策略划分为11个低级别的模块。(3)在4个数据集上比较用户策略和AL策略。

AL标记策略

AL标记策略可以分为以下五种类别

  1. Uncertainty sampling:找到模型最不确定的实例进行标记
  2. Query by Committee(QBC):衡量分类器的不确定性
  3. Error reduction schemes:找到最能优化模型的实例
  4. Relevance-based strategies:找到最可能跟某一类别有关的实例
  5. Data-driven strategies:独立于模型的策略

以用户为中心的标记策略

之前的工作提出了一些可视化交互界面,来供用户进行数据标记。但是我们并不知道为什么用户选择这个决策来标记数据。为了理解用户决策背后的原因,我们需要形式化用户的决策。

在之前的工作中,提出了10种常见的用户策略。这些策略被用在数据的2D投影上。他们被分为两类:(1)基于数据:用户更加关心数据本身和他们的分布。(2)基于模型:用户更加关心类别的特征。

作者将这些用户策略划分成11个低级别的模块,并用这些模块来组合成用户的决策。

  1. Nearest Spatial Neighbors(NSN):这个模块检索候选实例周围的邻域。kNN是一个比较常见的NSN实现算法。
  2. Spatial Balancing(SPB):这个模块尝试在没有被探索过的区域中寻找候选实例。
  3. Clustering(CLU):这个模块将将一个实例集划分为若干个不相交的集群。
  4. Density Estimation(DEN):这个模块尝试找到最密集的区域。
  5. Outlier Detection(OUT):与DEN不同,OUT尝试在比较稀疏的区域中找到候选实例。
  6. Compactness Estimation(CE):这个模块衡量了实例集合的紧凑性。
  7. Ideal Instance Identification(III):这个模块需要一个用户定义的“理想”的实例集。III衡量了某一个实例与“理想”实例集之间的关联度。
  8. Class Likelihood(CL):这个模块是由分类器给出的某个实例归属于某一个类别的概率向量。
  9. Class Prediction(CP):这个模块给出某个实例的类别的预测。
  10. Local Class Diversity(LCD):这个模块给出在某个实例的邻域内类别预测的多样性。通常我们采用计算这个实例邻域内其他向量类别预测的向量的熵值。
  11. Local Class Separation(LCS):这个模块衡量了在给定实例周围的预测的类别彼此分离的程度。

有了这些模块,就可以用他们组合成用户的策略。如果某个用户策略是由多个模块共同决定的,将给他们分配相同的权值。

更一般的来说,作者用了下面的表格来展示用户决策与模块之间的关系。

实验

在实验阶段,作者用这些模块形式化用户决策,并与AL决策进行比较。除此之外,作者还定义了一个上限的决策和一个下限的决策。作者采用了MNIST,IRIS,Gender Recognition by Voice和Credit Card Fraud四个数据集来应用这些决策。在每一个实例被标记之后,作者用一些分类器来把全部的数据进行分类,并把分类的准确率定义为这个决策的表现。下图是这些决策在标记MNIST数据集的初始阶段的表现。

下面的boxplots表示着用这个决策在每一类都至少标记了一个实例所用的标记轮数的分布。我们可以发现,基于数据的用户决策在初始阶段表现很好。

下图是这些决策在冷启动阶段之后的表现。

我们发现AL决策在后来表现得更好。

根据这些实验,作者评估了各个模块在这些数据集上的表现。左面的表格是在冷启动阶段,右面的表格是在冷启动之后的阶段。

未来的工作

作者提出了一些未来在这个方向上可能的工作。

  1. 在实现模块的时候,需要很多的参数。而这些参数的自动生成也许是一个很有趣的方向。
  2. 可以在应用基于模型的策略的时候考虑到数据的特征。
  3. 在冷启动阶段,基于数据的用户策略表现更好;但AL策略在后来变得更好。如何衡量这个平衡点也是一个有趣的方向。
  4. 用户在标记数据的时候往往并不是只应用一种策略。更复杂的用户策略的形式化如何实现也值得去考虑。
  5. 将AL策略和用户策略结合也许会形成更好地策略。
  6. 目前的实验仅仅基于已经知道种类数的数据集。但在实际生活中我们往往不知道这一点。如何在这种情况下优化这些策略也是一个可能的研究方向。

总结

这是第一个将在用户标记数据的过程中使用到的策略进行形式化的工作。同时作者也指出在接下来的工作中可能会包括对不同决策之间的关系的分析。

参考文献

[1] Jürgen Bernard, Matthias Zeppelzauer, Markus Lehmann, Martin Müller, and Michael Sedlmair, “Towards User-Centered Active Learning Algorithms”, Eurographics Conference on Visualization (EuroVis) 2018.

评论关闭。