IEEE VAST Challenge 2016

国际可视化年会IEEE VIS是可视化领域最顶级的学术会议,而IEEE VIS中的IEEE VAST Challenge是可视化与可视分析领域最重要、规模最大的竞赛。每年VAST Challenge提供的数据的故事背景各异,有生化恐怖袭击、流行病、武器走私、社会骚动、网络攻击等。竞赛题目覆盖可视分析最重要与前沿的研究领域,例如网络安全可视分析、时空数据可视分析与人际关系网络可视分析等。

北京大学可视化与可视分析研究组近4年都参与了VAST Challenge,每年都获有奖项,在今年获得了Outstanding Comprehensive Solution Award。

VAST Challenge举办的目的,一方面是为了提供易于获取的数据集。往年的VAST Challenge的数据集,以及当年参赛者提交的作品,都可以在马里兰大学的可视分析基准库中获取(http://hcil2.cs.umd.edu/newvarepository/benchmarks.php)。可视分析领域的研究者可以利用VAST Challenge中提供的公开的,逼真的数据集,以及数据集涉及的具体场景和分析任务的描述,开展研究工作。另一方面,也是为了帮助可视分析领域的研究者通过处理逼真的人造数据集,更好地理解现实的可视分析问题中的设计难点,发现可视分析中新的研究话题。

VAST Challenge参赛队伍的作品会以论文的评议形式由可视分析领域的专家评审,参赛者也能得到专家的评审意见,其中优秀的参赛作品会被授予奖项。每年IEEE VAST会议会有一个一天的workshop,邀请VAST Challenge优秀作品的作者进行报告。

根据VAST Challenge主办方提供的统计,从2006年举办至今,除去刚开始的两年,竞赛每年都吸引大约50支来自世界各地的高校、研究所与企业界的团队参赛。[2]

pic1

图1. 历年参赛队伍数[2]

今年的VAST Challenge中所描述的故事发生在一幢公司大楼内部,楼中有采暖通风空调系统。所提供的数据主要有两种类型,一类是对于大楼的环境监测传感器数据,另一类是公司员工的轨迹数据。Challenge的故事背景中提到公司中可能会有员工在大楼内进行破坏活动。

本次Challenge一共分为3个小题。在第一个小题MC1中,参赛者的任务是设计一个交互界面,展示不断进入的上述两种类型的数据流,使得使用者能够快速理解过往的数据流、感知当前的态势、预测未来的情况;在第二个小题MC2中,参赛者需要设计并实现一个可视分析系统,分析预先给定的公司大楼的上述两类数据,发现其中的模式和异常情况;在第三个小题MC3中,参赛者需要设计并实现一个可视分析系统,分析给定的公司大楼的上述两类数据以及实时传入的数据流,发现其中的模式和异常情况。

下面具体介绍提供的数据以及我们的系统设计。

在故事背景中,公司大楼内部的采暖通风系统存在着很多传感器,用来监测公司大楼内部各种不同的有关采暖通风的指标。对于整栋大楼的采暖通风系统,传感器系统会给出较为宏观的检测数据,包括大楼用电量、热水器出水温度等;整个大楼分为三层,对于每一层,都有对应的传感器检测该楼层的数据,包括这一层的通风用电量、楼层温度等;大楼内部根据采暖通风系统的工作范围分为多个不同的区域,对于每个区域,都有对应的传感器监测这个区域的数据,包括设备用电量、空气温度、有毒气体浓度等。

所有这些传感器每5分钟给出一个读数,记录的时间跨度为17天。一共有45个不同级别的地理位置(大楼、楼层、区域),其中每个地理位置有11到16种传感器检测属性,因此一共对应了500多个时间序列数据。在系统实现中,我们直接用折线图显示这些时间序列数据。同时,我们通过根据每一个属性在记录的17天内,在一天中各个时间点的取值,可以得到这个属性在一天中各个时间点的概率分布,根据这个概率分布,我们可以判断一个属性在哪些时间点取值异常。在系统中,我们将异常取值用红色标注,并且在一个堆栈中按时间顺序记录所有的异常事件。

pic2

图2. 几种不同属性检测数值的折线图,折线图红色部分表示异常数值

此外,在实时监控的视图中,我们通过star glyph显示每个地点的各个属性的监测值的是否异常,以及每个属性在各个地点的检测值是否异常。

pic3

图3. star glyph显示每个地点的各个属性的监测值的是否异常,以及每个属性在各个地点的检测值是否异常

员工移动轨迹的监测是通过检测员工携带的身份卡实现的。整个公司大楼被划分为不同的身份卡检测区域,员工每次进入一个区域时,员工穿过区域的信息会被自动记录;同时,每天上午和下午,一个送信机器人会在大楼中沿固定路径移动,在机器人内部也装有身份卡检测装置,会记录处在检测半径内的员工身份卡的信息。员工的轨迹数据分为上述这两类,并且这两类数据都存在一定的不确定性,一类记录的是员工进入一个区域的时间点以及这个区域的代号,其时间属性是准确的,但是不能确定员工具体从区域边界的哪个位置进入了这个区域;另一类记录是机器人监测到的员工的坐标信息和精确到分钟的时间戳,这一类数据的位置信息是准确的,但是机器人监测的时间只能具有分钟的精度,在时间上存在不确定性。此外,数据中还有一种不确定性在于检测到的身份卡的位置不一定能反映员工的位置,员工在移动时可能不携带身份卡,也可能携带着别人的身份卡。将两类数据相结合,降低其中的不确定性,帮助对于数据的整合理解即为我们的任务。

我们在公司中的地图上面绘制员工的轨迹数据。首先,对于员工穿过不同区域获得的记录信息,我们将数据进行处理得到员工穿过区域的序列数据,我们通过动画的方式对于员工的轨迹数据进行可视化,每一条记录都会转换成从一个区域移动到另一个区域的动画,将记录序列串联起来就可以获得员工移动的动画效果。其次,对于机器人检测到的员工记录信息,我们使用另一种编码方式对于机器人检测到的员工的精确位置进行标记。由于机器人检测数据在时间方面只能精确到分钟,在实现中,我们让绘制的点在地图中保持一定的时间后消失。

1. 两类数据相结合降低数据的不确定性:

员工经过区域的记录信息能够准确的记录员工经过区域的时间,但是在位置上面存在不确定性,然而机器人检测到的信息在位置上精确的,因此在我们将两类数据绘制到同一个地图上时,会存在同一个员工使用两类不同的点表示的情况,在这时我们会将员工在某一个区域内精确到员工在区域中的某一点。如果在机器人检测的时间范围内发现员工存在跨区域的情况,则员工的位置即可以在这个时刻发生移动,进而可以降低机器人检测数据员工在时间上的不确定性。

2. 单个数据降低不确定性:

员工跨区域的数据记录只能够精确到某一个大的区域范围内,我们希望利用其他的信息对于员工的位置进一步精确化,利用的信息主要有公司中各个办公室的属性以及员工的办公室信息。我们将员工在一个大的区域范围内的情况归为一下三类,一类是员工能够在出现的区域内找到自己的房间,那么员工很有可能出现在自己的房间里面;第二类是员工出现的区域中没有自己的房间,但是在这个区域中有一些公共的区域,那么员工存在较大的可能出现在公共区域中;第三类是员工出现的区域中没有自己的房间,同时也没有公共的区域,并且员工在这个位置停留了较长的时间,我们可以将这种情况视为异常,并且需要我们进一步的探索这一异常出现的原因。尽管在我们设定的假设情况下不够准确,但是经过我们的分析可以大大降低员工位置的不确定性。

我们采用下图描述员工的轨迹,图中的每个节点代表员工,员工所属部门的属性采用节点的颜色进行编码,员工位置的类型采用不同的形状进行编码。

pic4

图4. 在地图上显示员工的分布

 

为了能够同时看到多个员工在同一时间的轨迹以及一个员工在不同时间的多条轨迹,并且方便分析人员进行对比分析,我们采用甘特图的方式对于员工的轨迹数据进行可视化。两个视图分别为同一员工在不同时间以及不同员工在相同时间的轨迹甘特图。

下图为同一员工在多个不同时间的轨迹甘特图,不同的颜色代表楼内的不同区域,每一个矩形的长度描述员工停留的时间,员工仅仅经过停留时间较短的区域使用圆点进行表示。

pic5

图5. 单个员工轨迹的甘特图

下图为多个不同员工在同一时间的轨迹甘特图,三个不同高度的甘特图代表员工在三个楼层的轨迹数据,同样,不同的颜色代表员工经过的不同区域。

pic6

图6. 所有员工在选定的时间窗内轨迹的甘特图

通过将采暖通风系统的环境属性监测值与员工的轨迹数据,以时间窗和地点两个维度进行关联,我们可以交互的探索两种数据间的关联。

[1] Cook, Kristin and Grinstein, Georges and Whiting, Mark, The VAST Challenge: history, scope, and outcomes: An introduction to the Special Issue, IEEE Information Visualization Conference (InfoVis), 2013

[2] Scholtz, Jean and Whiting, Mark A. and Plaisant, Catherine and Grinstein, Georges, A Reflection on Seven Years of the VAST Challenge, Proceedings of the 2012 BELIV Workshop: Beyond Time and Errors – Novel Evaluation Methods for Visualization, 2012

评论关闭。