在历史研究中,群体是指从事共同活动或频繁互动的一群人物,历史学家通过研究历史人物的行为来探讨社会结构的变化和社会流动的趋势。传统的历史群体分析耗费大量的精力和时间,而现有的自动数据挖掘方法则缺乏有效的视觉解释。对此,来自浙江大学的Wei Zhang等人[1]通过与历史学家合作,提出了一种交互式的可视分析方法——CohortVA,使得历史学家能够将专业知识和洞察纳入迭代探索群体的过程中,极大地提高群体识别、人物筛选和假设验证的能力。该论文发表于VIS 2022。
在论文中,作者针对历史群体分析任务总结出了系统设计需求,即:(1)从大规模历史数据库中识别出特定出的群体;(2)为群体的识别结果提供合理的视觉解释;(3)支持对群体的迭代探索与分析。

论文中作者使用的是来自中国历代人物传记资料库(CBDB)的数据,待用户选定初始群体的研究范围后,将数据送入群体识别模型中(图2 A):在数据处理时将其转化为知识图谱的形式(图 2 A1),同时采用meta-path2vec[2]算法来生成知识图谱中实体周围的描述,然后从知识图谱中提取出相关特征(可以为原子特征或者复合特征),并采用 Minimum Redundancy Maximum Relevance(mRMR)[3]算法对特征进行筛选,进一步使用弱监督分类器(线性回归模型+SGD)来学习融合权重以及确定一个历史人物是否属于该群体。

CohortVA系统的可视化界面由群体范围规范、群体识别、群体探索以及人物细节展示4部分组成。群体范围规范(图1 A)为数据查询提供了一个控制面板,帮助历史学家快速定位目标群体。群体识别(图1 B)包含2个子视图,其可视化地展示出系统所推荐群体的特征,以供历史学家选择合适的群体进一步探索。群体特征选择视图中通过颜色、形状、轮廓宽度以及距离对特征及特征间的相似度进行编码(图3);群体来源分析视图则用于解释所选群体的概念与记录迭代探索的版本。

群体探索部分(图1 C,细节展示为图4)以多种可视化的形式支持历史学家从模型和数据角度验证群体。群体概览视图(图1 C1,图4 A)中每一行代表一个历史人物,特征的种类以灰色的深浅进行编码,其长度表示频率乘以相应的融合权重,用户可以对该视图进行刷选,从而在其他视图中(图1 C2,C3)进一步查看选中人物的各项特征指标。历史人物事件验证视图(图1 C;图4 D,E,F),关系矩阵(图1 C3-3,图4 F)中采用Girvan Newman[4]算法进行人物排序布局。

作者开展了2个案例研究,并与8位历史学家进行访谈,验证了CohortVA可以大大提高历史群体识别、数字认证和假设生成的能力。对于未来进一步的计划,该系统可以考虑(1)采用多种数据源;(2)并行生成多个群体,从而便于比较;(3)对系统的评估由定性评估转为定量评估;(4)推广系统至其他领域,增强普适性。
参考文献
[1] W. Zhang et al., “CohortVA: A Visual Analytic System for Interactive Exploration of Cohorts Based on Historical Data,” in IEEE Transactions on Visualization and Computer Graphics, 2022, doi: 10.1109/TVCG.2022.3209483.
[2] Y . Dong, N. V . Chawla, and A. Swami. metapath2vec: Scalable representation learning for heterogeneous networks. In Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 135–144, 2017.
[3] H. Peng, F. Long, and C. Ding. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(8):1226–1238, 2005.
[4] M. E. J. N. M. Girvan. Community structure in social and biological networks. Proceedings of the National Academy of Sciences, 99(12):7821–7826, 2002.
评论关闭。