主题建模参数的渐进式学习:可视分析框架(Progressive Learning of Topic Modeling Parameters: A Visual Analytics Framework)

主题分析模型是典型的非监督学习算法,广泛应用于文本主题组成分析。虽然主题模型应用广泛,且效果尤佳,但对于许多使用者来说,该模型的计算结果和参数调整对结果的影响,是很难理解的。换而言之,主题模型是个黑盒子。为此,文章提出了一个模块化的可视分析框架,通过用户驱动的强化学习过程,在不要求使用者对主题模型的底层算法具有深入理解的情况下,帮助用户学习到可理解性和可调节性更强的主题模型。

文章的强化学习过程,主要包括三大部分,参数空间分析,主题模型结果可视分析和用户驱动的强化学习(如图1所示)。

图1. 基于用户驱动的强化学习过程示意图

参数空间分析的主要做法,是将文档中的词语进行分类,比如分成名词、动词、停顿词等;同时设置每类词语的权重。此外,根据每个单词在文档中出现的次数,得到原始的主题模型输入矩阵。将该矩阵与每类词语的权重相乘,得到系统的主题模型输入矩阵(如图2所示)。参数空间分析,支持用户根据模型的计算结果,调整每种词语类别的权重,进而更新模型的输入矩阵。

图2. 主题模型输入矩阵的计算过程

主题模型结果的可视分析,主要包含四个视图,分别是:

  1. 主题匹配视图,主要功能是提供总览图,帮助用户快速理解主题模型的结果(如图3所示);

图3. 主题模型匹配图。左侧视图表示模型1的计算结果;右侧视图表示模型2的计算结果。每一栏展示的是每个主题中的关键词。主题之间的连线表示主题之间的相似性,比如绿色表示两个主题不仅关键词相似且其描述的文本也相似。

  1. 主题概要视图,通过主题在具体文本中的表现,帮助用户更好地理解每个主题的含义(如图4所示);

图4. 主题概要视图。A部分展示的某两个主题的主要关键词。B部分是柱形图,每个条柱表示文本集中的一篇文章,长度表示文章的长度;颜色表示该文章是否可以用左侧主题描述(如果可以,则是黄色),右侧主题描述(如果可以,则是紫色),或两个主题都能描述(如果可以,则是绿色)。C部分,用文本集中的句子具体描述每个主题的关键词的具体使用情况。D部分,扇形图,描述该主题能够描述的文本数占总文本数的比例。

  1. 参数分布分析视图,通过对齐排布方式,帮助用户更好地探索分析每种词语类别在各个文本上的分布情况,进而分析词语类别的权重对主题模型结果的影响(如图5所示);

图5. 参数分布分析视图。该视图采用镜像对齐的形式,描述不同的参数在各个文档中的表现。其中,每一行都表示一个文档,条柱的长短表示权重的大小。

  1. 文本相关性反馈视图,主要功能是支持用户分析比较不同主题模型的结果在各个文档上的表现情况,进而调整主题内关键词的权重,以此来更新主题模型(如图6所示)。

图6. 文本相关性反馈视图。视图主要包涵5个部分:A部分是具体的文本信息;B部分展示了某两个主题的关键词列表;C部分decision-slider,用户可以通过D,设置主题偏好。如果用户觉得右侧模型能够更好地描述A部分的文档,可以调整decision-slider偏向右侧;E部分,展示整个文本集的信息。每一列都表示一个文档。

该系统能够根据用户对主题(设置decision-slider的位置)或关键词(直接设置关键词的权重)的偏好,重新计算每个词语在每个文档的权重,得到新的主题。在循环迭代更新的过程中,系统还会根据用户的偏好,重新计算每种词语类别的权重,以加快主题收敛速度,得到更满足用户需求的结果。

总的来说,这篇文章提出了一个基于用户驱动的强化学习框架,通过不同参数获得的结果的比较,帮助用户更好地理解分析主题结果,调整词语权重,获得更优的主题模型分析结果。

评论关闭。