分析仪表盘在商业智能中广受欢迎,其通过多个可视化图表表达数据,支持见解发现。然而构建有效的仪表盘依赖于用户具有数据分析方面的专业紧跟。用户需要选择数据属性、探索不同种类图表来配置仪表盘。这往往需要反复试错才能构建有效的仪表盘。来自浙江大学和香港科技大学的团队提出通过深度强化学习的方法, DashBot [1], 通过设计智能体网络模仿人类构建过程以自动生成分析仪表盘。图1为DashBot 生成的效果。

强化学习方法通常将整个过程描述为马尔可夫决策过程(Markov Decision Process),即智能体从一个状态(State)出发,以特定的概率(Probability)采取行动(Action),转移到后续的状态,并且获得相应的奖励(Rewards)。DashBot 将图表的组合视作状态;将图表的变化、增加、删除、终止生成视作操作空间。其奖励函数由当前的状态和操作决定。具体而言,奖励函数包括表征奖励和见解奖励两部分。其中表征奖励包括多元性奖励,即鼓励使用不同的的图表类型;而简约性奖励则是控制图表的数目不可太大。见解奖励则是通过计算数据属性之间的统计值来衡量其包含的见解。

DashBot 采用A3C (asynchronous advantage actor-critic) 强化学习框架。如图 2所示,其核心网络包括批评(Critic)网络和行动 (Actor) 网络。批评网络学习一个状态的期望回报,并且训练行动网络在一个状态下选择最好的行动策略。在智能体网络中,DashBot通过列属性的属性名、统计值等参数构建属性的特征,通过属性的特征构建图表的特征,通过图表的特征构建仪表盘的特征,如图3所示。仪表盘内的各个图表通过双向长短期记忆模型进行表征。其输出通过若干全连接网络分类器预测状态值、行动可能性、关键属性可能性等结果。分类器之间存在序列关系,前序输出作为后续输入。此外,可视化知识也作为约束施加于此过程,以过滤不合适的参数。

该工作在若干模型设置和选择中展开了比较试验,如图4。DashBot 和另一种强化学习 DQN(Deep Q-Network)进行比较,效果表明,DQN无法很好支持该学习任务。此外,平行设置几个分类器(DashBot-Ind)的效果也不如序列化的分类器,其原因可能是序列的分类器可以保留相互关系。在不施加约束过滤,而是把无效的可视化作为一种惩罚时,其效果最差,原因可能是智能体无法很好地平衡奖励与惩罚。

在用户试验中,10个参与者在5个数据集上对DashBot 和 MultiVision [2]进行比较,并且在4个维度(整体评分、可理解性、美观性、见解性)上进行评分。四个维度上大多数评分都支持DashBot表现比MultiVision 好,尤其是见解性方面。
参考文献
[1] Dazhen Deng, Aoyu Wu, Huamin Qu, and Yingcai Wu. DashBot: Insight-Driven Dashboard Generation Based on Deep Reinforcement Learning. IEEE Transactions on Visualization and Computer Graphics, Early access, 2022.
[2] Aoyu Wu, Yun Wang, Mengyu Zhou, Xinyi He, Haidong Zhang, Huamin Qu, and Dongmei Zhang. MultiVision: Designing Analytical Dashboards with Deep Learning Based Recommendation. IEEE Transactions on Visualization and Computer Graphics, 28(1): 162-172, 2022.
评论关闭。