HierachicalTopics:通过层次化的主题可视化探索大文本集 (HierarchicalTopics: Visually Exploring Large Text Collections Using Topic Hierarchies)

随着信息时代的到来,数据产生的速度越来越快,大量的文本数据也给人类的分析造成了困难。然而,这些海量文本数据的背后,其实蕴藏着丰富的价值,但它们却还未被我们挖掘出来。

基于主题的文本分析技术和可视分析技术可以较好地总结文本内容,但随着数据量的增加,为了更好地展示文本内容,自动提取主题的数量也越来越多,这大大影响了人们的理解与分析。

在这篇论文中,作者总结了高效分析文档集所面临的三个挑战:

1.如何组织主题,是人们可以在主题空间内进行高效地分析;

2.如何通过视觉有效地传达主题信息,并且允许用户根据自己的兴趣自行组织主题。

3.如何利用现有的可视隐喻,对其进行改进以更好地展示大量主题的组织结构。

为了解决这三个挑战,本文作者提出了 HierarchicalTopics (以下简称 HT ),它是一个能够支持人们探索分析大文档集的可视分析系统。

面对第一个挑战,作者提出了一种算法 Topic Rose Tree ,简称 TRT ,它能够自动地为主题生成层次结构。该算法的思想类似于层次聚类,迭代地寻找最为相似地两个主题进行合并,直到只剩下一个主题为止。这样,一个主题列表就具有了层次结构。

面对第二个挑战,HT 提供了可视交互界面,允许用户在 TRT 的结果上进行修改,从而得到用户希望的结果。

面对第三个挑战,HT 采用了一种具有层次的主题河的隐喻方法来展示主题结构以及它们的时变性。 ht1

图1 HT系统流程

上图展示了 HT 的处理流程。HT 可以处理多种多样的文本数据,如微博数据、新闻数据、邮件等。A 中的文本数据进入 B 中进行文本处理,并利用主题模型提取出文档集中的主题列表。在 C 中, TRT将对 B 中提取的主题建立起层次结构, 最后通过 D 中的可视分析方法进行主题的展示和交互探索。

HT可视分析系统提供了层次主题视图,方便用户直观地分析带有层次结构的主题,并通过交互进行修改、重新组织主题的层次结构。

ht2

图2 主题层次结构可视化

上图展示了 HT 的处理流程。HT 可以处理多种多样的文本数据,如微博数据、新闻数据、邮件等。A 中的文本数据进入 B 中进行文本处理,并利用主题模型提取出文档集中的主题列表。在 C 中, TRT将对 B 中提取的主题建立起层次结构, 最后通过 D 中的可视分析方法进行主题的展示和交互探索。

HT可视分析系统提供了层次主题视图,方便用户直观地分析带有层次结构的主题,并通过交互进行修改、重新组织主题的层次结构。

ht3

图3 层次主题河

为了能更好地展示主题的层次性以及它们的在时间维度上的演变,这篇论文在主题河的基础上提出了层次主题河。主题河(ThemeRiver)技术已经被广泛应用于时变数据的可视化展示中,而层次主题河在此基础上进行改进,使之更适于表示层次信息。

图3(A)展示了以河流的形式展示了最高层次主题随时间的演变情况,每条河流都表示了一个节点,河流的高度由对应节点的所有叶子节点的总和决定。用户可以点击其中一条河流以查看该主题下的子主题随时间的演变情况。当一条河流被选中时,系统会扩展出如图3(C)所示的子板块,里面展示了被选中节点的下一层主题的情况。同样地,选择其中的一条河流可以在右边扩展出新的板块以观察更低一层的主题。以此类推,通过不断地选择可以逐渐深入到一个高层次主题的内部,观察到更低层主题的信息,而界面上也会形成类似于树形结构的河流,如图3(D)所示。

研究者们用该系统来探索在人机交互和信息检索领域的热点趋势,数据采集自美国国家自然科学基金会的资助项目。分析者在TRT算法的基础上,通过交互对主题层次的结果进行了改进,分成两个大类,即“信息检索与数据挖掘”和“人机交互”两类。

ht4

图4 使用HT系统分析人机交互和信息检索领域的热点趋势

上图展示了主题的层次结构以及主题河。上半部(即紫色系)表示的是信息检索与数据挖掘领域,下半部(即绿色系)表示了人机交互领域的情况。通过层次主题河,我们可以清楚地看出,“互联网搜索与文档检索”(web search and document retrieval,由红色方框标出的部分)一直是信息检索领域的一大研究热点。而在人际交互领域,让人惊讶的是,该领域的研究热度在2007年左右竟然有一个小幅下降。如果进一步探索子主题的热度趋势,会发现“情感计算及情绪相关研究”(affective computing and emotion related studies,由橙色方框标出)在近两年受到广泛关注。

综上所述,HierarchicalTopics可视分析系统在展示了主题的层次结构的同时,还直观地展示了主题随时间的演变趋势,方便了分析者对大规模文档进行探索,解决了在主题数目众多的情况下分析困难的问题。

[1] Dou W, Yu L, Wang X, et al. HierarchicalTopics: Visually Exploring Large Text Collections Using Topic Hierarchies[J]. Visualization and Computer Graphics, IEEE Transactions on, 2013, 19(12): 2002-2011.

评论关闭。