从文章关键字透析VIS领域(Visualization as Seen Through its Research Paper Keywords)

可视化(VIS)领域正处于百花齐放、蓬勃发展的时期。从1990年VIS作为一个独立的领域出现开始,到1995年InfoVis子领域的出现,再到2006年分出的VAST领域。可视化中的研究内容、方法、应用场景丰富多彩,极具多样性。如此的多样性除了让VIS变成一个激动人心的领域之外,也带来了挑战,而统一研究语境、建立主题分类就是其中之一。此前,有很多文章对于子领域进行总结,但却未对VIS整个领域进行总结。本文作者[1]通过对1995年至2015年间可视化领域发表论文的关键词进行分析,从可视化领域中的研究主题、关键词变化的角度对VIS整个领域进行分析。  本文采用两个关键词数据集,其一是收集1995至2015年以来的2431篇VIS发表论文(简称为论文词集),作者从论文中手动提取关键字。由于这些关键字存在着单复数、拼写错误等质量问题,本文五名作者通过多轮迭代式的数据清洗,从原始的4319关键字中提取出180个主题,并将180个主题分为14类。另一个关键字数据集来自PCS(Precision Conference System) 论文提交系统对论文的分类(简称为PCS关键词集)。在PCS系统中,将论文分为14类,一共127个主题。 基于对两个主题词数据集的分析,作者研究VIS领域中的子研究领域、主题词的变迁,乃至对VIS中研究的分类及词汇进行讨论。首先,下图1是对这两个数据集中主题词分布的一个直观的总结,从2000年至2015年间,词频前10名的对比。在论文词集中,由于论文主题词是作者在没有任何限制下给出的对内容的关键描述,不同于PCS词集是在有限的词集中进行选择的情况,因此论文词集的最高词频远小于PCS。 2

图1 两个数据集中的词频前10名主题词

随后,作者将词频作为高维数据进行分析,获得更为深入的理解。针对一个主题词集,进行如下分析:1)构建出文章-主题词表格,表格中的行是文章,列是所有的主题词,每篇文章即为0,1组成数列(1为存在对应关键词,0为不存在);2)基于文章-主题词表格,计算主题词关联矩阵,表示主题词之间的距离;3)将主题词进行层次聚类;4)绘制主题词网络,节点代表主题词,节点之间边表示主题词之间的关联,同时使用节点颜色编码所属类;5)基于主题词网络,计算主题词类的两个测度,类内密度以及类的中心性,将这两个测度作为2个维度,构建出4-象限空间,对类进行分析。 图2是论文词集的层次聚类和主题词网络结果。属于同类中的主题词表示经常结伴出现,例如machine learning & statistics与 uncertainty tech. & vis.等。在主题词网络中,更直观地描绘主题词之间的相关性。 屏幕快照 2016-09-16 下午11.16.30

图2  论文词集的层次聚类和主题词网络

作者分别对两个数据进行分析,图3和图4是论文词集和PCS关键词集的在四象限中的分布结果。在四象限中,第一象限表示类内密度高(类内主题词的联系程度)同时中心性强(与其它类的联系程度)的主流研究内容;第二象限表示类内密度高而中心性低的较为孤立的研究内容。通过对比两个数据集发现,在论文词集中,检测出的主流类很少,有体绘制相关的、流场数据研究等;而在PCS词集中,所主流类较多,有数据转换表示的、也有量化评估的。这是因为实际不同研究主题的论文都与这两个泛主题相关,因此作者在提交时很有可能将此类主题作为标签。

屏幕快照 2016-09-16 下午11.17.46图3 论文词集中的主题类在四象限中的分布

屏幕快照 2016-09-16 下午11.17.56图4 PCS词集中的主题类在四象限中的分布

此外,作者还对主题词的变迁进行了分析。下图5为词频最大的前15名进行的对比,粗体表示两者相同的部分。但是从论文词集中2000~2007和2008~2015这两个时间段来看,会发现主题词由科学可视化方面转换到了信息可视化分析(图6)。

图片 1 图5 两个词集中词频最大的前15名主题词

图片 1

图6 论文词集中2000~2007和2008~2015这两个时间段的主题词变化

有别于其它关于某个子领域的综述,本文采用的是自底向上、通过对关键词进行量化分析的方法,来对VIS整个领域的研究内容进行透视。本文作者认为这是构建VIS分类的一步,由于VIS目前正处于百花奇放的繁荣时期,尚未出现绝对主流的研究主题和主题词,这是VIS领域的活力所在同时也是对VIS进行分类的挑战所在。 参考文献: [1] Isenberg, P.; Isenberg, T.; Sedlmair, M.; Chen, J. & Moller, T.. Visualization as Seen Through its Research Paper Keywords. IEEE Transactions on Visualization and Computer Graphics, 2016

评论关闭。