g-Miner:多变量图上的交互式分组挖掘(g-Miner: Interactive Visual Group Mining on Multivariate Graphs)

想象你是一个大型公司的人力资源部经理,你需要从几千名职员中挑选一群人组成一个项目团队。除了相互熟悉以外,他们也必须具备特定的能力。当有人退出时,你还需要快速地找到替代者,以保证团队的运营。在数据挖掘领域,类似的任务又被称作分组挖掘(Group Mining)。而事实上,每个职员都具备不同的能力,他们之间又有错综复杂的社会关系。你所面对的,其实是一张大规模的多变量图(Large-scale Multivariate Graph)。如何帮助用户在这种图上快速地进行分组数据挖掘,就是g-Miner这一工具 [1] 所要解决的问题。

在进行具体的设计前,文章的作者们开展了一次用户调研,以发掘这一工具所应达到的功能和要求。首先对于大规模数据,有必要进行层次化的数据分组,亦即层次化聚类(Hierarchical Clustering)。对于各个分组,需要概括描述其中的关系网络(Connections)与多变量特征(Attributes),并允许用户加以比较。为了发现符合要求的团队,还需要灵活的数据过滤与查询机制。而在团队成员发生变化时,应帮助用户快速定位到合适的替代着,并修改已有的分组。

针对这些要求,作者们进行了相应的设计与开发。首先,他们根据网络中的连接关系进行了层次化的数据组织与展示(如图1)。用户可以利用这些分组进行初步的数据探索。其中不同的颜色表达了不同的变量,每个节点(个体或小组)都按其“主要变量”进行着色,从而节点的主要特征,譬如擅长文案、擅长编程等等便一目了然。通过上卷(Rolling Up)下钻(Drilling Down)等交互方式,用户可以方便地游历数据的不同层次。

根据连接关系进行的层次化数据分组

图1. 根据连接关系进行的层次化数据分组

有了初步的分组,就需要对其作概括描述。每个小组都有网络关系与多变量两方面的特征,作者们设计了三种不同的方式来表现这些不同的侧面。其中关系图(Relation Map)以邻接矩阵(Adjacency Matrix)的形式表达了组内的连接关系(如图2(b)),特征图(Feature Map)则以数据表格的方式展示了组内成员的多变量分布(如图2(c))。而图片段(Graph Snippet)形式则同时表现了组内网络(环中心的网络示意图)和变量情况(多种颜色的外环)(如图2(a))。外环上弧形的长度概括了小组成员的各个主要变量。利用这些视图,用户可以大致了解每个小组的特点,也能在组与组之间进行不同侧面的比较。

图2. 概括分组特征的三种形式
图2. 概括分组特征的三种形式
图3. 单个小组的可视化展示

图3. 单个小组的可视化展示

以上设计满足了大规模多变量图的探索需求,但真正的交互式分组挖掘,是从数据查询机制开始的。g-Miner提供了两种查询机制,分别是个体查询和模板查询。当团队必须包含特定的核心个体时,用户可以查询该个体,并得到与其有直接联系的所有分组。在个体层次上,每个节点用一张饼图来表示(如图3),其中扇形的角度和半径分别反映变量的比例值与绝对值,角度最大的即为主要变量。

而模板查询机制允许用户自由创建其理想中的分组,并利用算法自动查找相似的数据(如图4)。在模板里,用户可以编辑各个节点的变量值和连接关系。系统利用成员替换算法(Team Member Replacement algorithm, TMR) [2] 逐个匹配模板里的每个节点,就能找到相似的分组。回到最初的场景,基于对项目的了解,你大致知道团队需要哪些技能和关系。将这些概念以模板形式输入,系统定位到真实可用的团队,就已经在一定程度上解决了团队组建的任务。

图4. 模板查询示意图

图4. 模板查询示意图

但计划总是赶不上变化,筛选出来的人选不一定能立即投入到工作中。由于日程冲突、缺乏兴趣等各种原因,你可能需要替换其中的某个成员。此时,你需要迅速地发现合适的替代者,并修改已有的分组。类似于模板匹配的功能,只要将被替换的成员修改至理想的状态,利用TMR算法就能找到一组相似的候选者。从中挑选合适的人选便完成了团队的更迭(如图5)。

图5. 替换小组中的某个成员

图5. 替换小组中的某个成员

最后,作者们邀请了三位不同领域的专家对g-Miner进行了评估。专家们既肯定了该工具在分组挖掘上的能力,也指出了其中的一些不足,详细的评估结果在此不再展开描述。简而言之,g-Miner综合了两方面的可视分析方法:即大规模多变量网络的可视化,以及交互式分组挖掘方法。个人认为,其主要亮点在于灵活的交互式模板查询能力。传统的基于文本和数值的查询往往只适用于性质单一的数据。对于复杂的异质数据,模板查询允许用户建立更为灵活、更加综合的查询条件,以能满足更高层次的查询需求。但即便是结构简单的数据,用户也需要进行模糊查询。而模板本身一般是概念化的,要求用户精确地定制模板的各项特征,往往是不切实际也毫无必要的。如何结合模板查询和模糊查询、这两种各有优势的灵活性,会是一个值得探究的问题。

 

参考文献

[1] Cao N, Lin Y R, Li L, et al. g-Miner: Interactive visual group mining on multivariate graphs. Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems. ACM, 2015: 279-288.

[2] Li, L., Tong, H., Cao, N., Ehrlich, K., Lin, Y.-R., and Buchler, N. Replacing the irreplaceable: Fast algorithms for team member recommendation. arXiv:1409.5512 (2014).

评论关闭。