对于机器分析和人类分析在分类中的解析 (An Analysis of Machine- and Human-Analytics in Classification)

这项工作跟踪在两个可视化分析应用中的技术和认知过程,并归纳为一个应用软知识的共同理论模型,可以添加到建立一个决策树模型的可视化的分析过程中。

主要贡献

一个信息理论模型解释了为什么人类驱动的对于分类的可视分析模型表现的比纯机器学习模型更好。

综述
  • 考虑两个分析事例的研究。
  • 通过机器学习算法创造一个决策树分类器。
  • 通过由人类的‘soft knowledge’指导的可视分析创造一个决策树分类器。
  • 通过信息理论解释为什么以人为中心的方法比机器学习方法好。
案例分析A(分析面部视频和表情)

输入数据是68个视频,每个表现了生气、惊讶、悲伤、微笑这4个表情中的一个。每个视频提取14个时间序列代表不同的时序面部特征。每个时间序列包含23个数值。每个视频就拥有14×23=322个属性。

Figure 1. 面部表情分析

比较以平行坐标为基础的可视分析系统创造的决策树和通过机器学习算法创造的决策树。

Figure 2. 系统界面

利用由散点图嵌入的平行坐标帮助建造用于面部表情分类的决策树。左侧,用户可以选择面部特征和时间序列属性用于探索。已选择的属性在主界面上表现为平行的轴。每个连接的交叉线代表一个视频,颜色代表它的类别。它们的属性值在每个轴上显示。散点图表现了值和属性的分布。这一系统可以帮助用户循环的建立决策树分类器。

Figure 3. 异常值分析

如Figure 3,M2和M4是参与对于面部特征微笑的分类。在M4上可以看到更强的集群。可是,因为其上有一个异常值(如Figure 3的圈所示),M2就被用于替代它。因为拥有异常值的轴是不可靠的。这种判断原因不能通过机器学习得到。

Figure 4. 以人为中心创造决策树

Figure 5. 以机器为中心创造决策树

利用以人为中心通过可视分析系统创造决策树。利用‘drag-and-drop’的机制去重排轴的顺序,按优先顺序把轴聚集在一起,通过算法C4.5决定分割点。最上方的路径对于微笑进行分类,模型开发者挑出M2,M6和M8用于此条路径。因为通过常识,微笑与M2(眉毛的移动)、M6(嘴的宽度)、M8(嘴的弧度)有关。这种高级别的知识包含在以人为中心的决策树中,而并不能通过机器学习得到。

案例分析B(可视化图像分类)

输入数据是4×49个图像,被分类为bubble-chart,treemap,平行坐标,bar-graphs。每个图像中提取出222个特征。比较以平行坐标为基础的可视分析系统创造的决策树和通过机器学习算法创造的决策树。

Figure 6. 创造决策树

利用平行坐标可视化222-D特征空间。196个特征向量f由交叉线表示,连接了222个轴。交叉线的颜色代表了它们的分类。

比较从两个方法创造出的决策树,以人为中心创造的决策树更优。

以实验为依据的观察结果
  • O1:综述和轴分布
    • 以机器为中心的方法会检验所有轴上的许多分割点,选择最高质量的割点。
    • 人类模型开发者通常最先会获得数据的综述并辨认重要的轴,之后再把注意力放在轴的细节上。
  • O2:在统计中的普遍协议
    • 机器学习算法对于决定分割点只用到一个度量标准。
    • 以人为中心的方法可以估计多个统计值来决定分割点。
  • O3:Look-ahead
    • 人类对结果的洞察力会影响目前的决定
    • 人类长远的眼光能够对多步骤进行评价,然而机器学习只关注于当前的决定。
  • O4:异常值
    • 研究人员会避开有异常值的轴,因为它们不可靠。
    • 这种原因不适用于机器学习算法。
  • O5:轴上的分割位置
    • 在训练集中,人类寻找分割位置会允许每个类别扩张超过当前的例子。
    • 机器学习算法决定分割位置,对于特定的类别在特定的边上。
  • O6:人类的知识
    • 在建立模型的过程中,人类会融入他们自己的知识。
信息流

Figure 7. 信息流

该信息流包含在案例分析A里的两个建立决策树的方法。我们可以把每个文本框看成一个字母表。以人为中心的建立决策树的方法比机器学习方法用到了更多的字母表。

软知识和软模型

软知识:通过机器学习的方法不能获取到的知识。

软模型:利用软知识做决定的模型。如图8.

Figure 8. 软模型

结论

在以人为中心的方法中,有大量信息以软知识的形式存在,然而在机器学习的方法中不能应用软知识。

在机器和人为中心的方法中理解和量化信息流是必要的,以帮助设计出一个工作更好的混合模型。

reference

Tam G K L, Kothari V, Chen M. An analysis of machine-and human-analytics in classification[J]. IEEE transactions on visualization and computer graphics, 2017, 23(1): 71-80.

 

发表评论?

0 条评论。

发表评论


注意 - 你可以用以下 HTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>