IEEE PacificVis 2021 主题报告Ⅰ

IEEE PacificVis 2021 的第一个主题报告的题目是《COVID-19疫情期间的可视化(Visualizations during the COVID-19 Pandemic)》,报告的嘉宾是来自北京大学的袁晓如研究员。袁晓如博士是北京大学信息科学与技术学院研究员,博士生导师,机器感知与智能教育部重点实验室副主任,大数据分析与应用国家工程实验室常务副主任。新型冠状病毒肺炎疫情在2019年底爆发,并迅速在全球范围内传播,使得其与每个人的生活都息息相关。在这期间产生了大量的数据,而可视化则可以非常有效的将信息传递给大众,并帮助相关人员进行决策。本次主题报告基于此背景,介绍了与COVID-19相关的可视化工作,其中包括两部分:COVID-19数据收集和可视化设计,以及全球范围的COVID-19可视化的协作收集和分析。

COVID-19数据收集和可视化设计

第一部分介绍的是疫情数据收集和基于该数据的一系列可视化设计。自2020年1月中旬起,袁晓如研究员带领全球100多位合作者开展COVID-19中国数据和国际数据的收集工作,并基于该数据创作了大量的可视化。项目的链接是http://vis.pku.edu.cn/ncov/home.html。该项目获得广大中国媒体的报道,具有较大的社会影响力。在数据收集方面,中国的数据主要是来自国家卫健委、省卫健委和政府,国际的数据主要来自世界卫生组织、各国卫生部门和官方媒体报道。相比于世界卫生组织发布的数据,数据更新的速度非常及时,具有低延迟的特点;而相比于美国约翰霍普金斯大学发布的数据,数据在地理空间的粒度更加细致。该疫情数据集经过校验后已经对外发布,链接是http://vis.pku.edu.cn/ncov/data.html#。在疫情可视化设计方面,主要有晴雨表、方寸间、地图系列、社交媒体系列工作。

疫情晴雨表(见图1)旨在展现每日新增确诊病例数随时间的变化,以及在不同城市和省份中的趋势。方块的大小表示每日新增的案例数,颜色代表相比于前一日的变化。晴雨表的设计灵感来源于之前完成的SensorAware [1] 工作,也就是基于像素的方法展现数据随时间的宏观变化。值得一提的是,当沿着水平或竖直方向滚动时,方块的大小会自适应的变化,以最大化空间的利用程度(见图2)


图1:疫情晴雨表

图2:随着水平滑动,方块自适应

疫情方寸间(见图3)是与美国雪城大学徐瑞鸽教授合作的项目,设计的目标是给公众提供疫情的参考,缓解他们由于急剧上升的感染病例数和死亡数带来的焦虑和不安。由于确诊数的区域分布严重失衡(比如在2020年早期,武汉与其他地区的数字有巨大差异),而且确诊数也远远超过死亡数和治愈数,传统的图表难以有效表示。因此,方寸间采用方块表示每个区域的形式,同时区域之间的位置排布尽量符合地理分布。红色背景代表确诊人数,黑色/绿色空心方块与外围方块的面积比分别代表确诊率和治愈率,当现存病例为零时绿色替换为蓝色。


图3:疫情方寸间

地图系列工作主要展现的是确诊数、治愈数和死亡数在地理空间上的分布和变化,同时也基于分析性比较强的数据(比如翻倍时间和有效繁衍数)进行探索。比较有意思的一点是区域展示的粒度对于视觉效果呈现的影响。如果时间重新回到2020年5月4日,按照市级粒度(见图4进行展示,可以发现有许多地区都未出现疫情。而如果采用省级粒度(见5)进行展示,那么看上去全国各地都在不同程度上受到疫情的影响。由此可见,区域粒度对于地图结果的呈现,以及分析的影响之大。此外,还展示了中国国家医疗队对口支援的地图等。


图4:2020年5月4日,中国确诊病例数市级粒度地图

图5:2020年5月4日,中国确诊病例数省级粒度地图

社交媒体系列工作旨在分析社交媒体平台上(以微博为例)COVID-19相关的信息,包括气泡图和转发地图(R-Map [2] )。气泡图展示了个体用户的所有微博影响力(转发数、点赞数)随时间的变化(见图6),而转发地图则针对一条单一的微博,刻画了其转发的层次结构以及其中的语义信息(见图7)


图6:个体用户微博的气泡图。纵轴为时间,横轴为微博的转发数。红色为疫情相关的微博

图7:单条微博转发的地图。红色、黄色和蓝色关键词分别代表消极、中立和积极的情感态度

疫情期间,国内可视化社区的其他研究者同样创作出了不错的疫情可视化。比如在ChinaVis 2020 中天津大学张家万教授团队设计的疫情新闻分析可视化系统、北京邮电大学李铁萌教授团队的新冠肺炎确诊个例活动轨迹、以及江南大学龙娟娟教授团队的艺术项目“流动的边界”。

全球范围的COVID-19可视化的协作收集和分析

第二部分介绍的工作是全球范围的COVID-19可视化的协作收集和分析。COVID-19疫情已经成为了一个事关每个人生活的全球性紧急事件。这其中,产生出了规模巨大的数据与信息。而可视化则能够将这些内容传递给大众以及特定的用户,使得他们能够更有效地获取信息,并辅助专业人员做出一些决策。所以说,该工作旨在从全球范围内收集疫情相关的可视化,并从可视化的角度从中分析疫情的发展以及其中的多元化信息。

在这项工作之前,该团队在2020年4月有一些初步的探索,共收集224个疫情相关的可视化(见图8)。但是,在收集的过程中存在着一些挑战。首先,这些可视化在互联网上分布非常广泛,收集很难有足够的覆盖度。其次,可视化是非常多样且复杂的,可能来自不同的地区、包含不同的语言和主题等。最后,仅有这些可视化很难进行更深层次的分析。因此,需要有一个更为有效的收集和分析的方法。


图8:可视化收集的初期工作

为了应对上述的挑战,该工作提出了一个协作的框架(见图9)。该框架能够覆盖较广的数据范围,包括不同类型的网站、国家、语言等,同时应用了自动的方法来使得收集过程更加高效。此外,该框架还包括了数据的标注,以便下一步的分析。所有的上述过程都被整合在了一个协作统一的系统中。系统可以通过http://vis.pku.edu.cn/covid19vis_collection访问。


图9:协作的可视化收集、分析的框架

数据收集阶段主要分为四个模块:自动提取,定向搜索,众包,以及数据审查。对于那些存在大量的可视化,拥有数据获取的API,且支持关键词搜索的网站(如Twitter,新浪微博等),该工作通过与疫情相关的关键词,部署爬虫获取数据。而对于那些很难应用爬虫的网站,以及一些上述方法很难覆盖到的国家、语言的可视化,该工作使用了人工的定向搜索。同时该工作也部署了一个数据上传的网页来允许大众在上面上传相关内容。所有的收集到的数据都会在另一个页面上进行审查,筛去那些无关的内容,并补充一些遗漏的信息。

为了更好地对数据进行分析,该工作在分析前对数据进行了标注,以丰富数据的内容。基于此前的研究 [3] ,该工作提出了疫情相关可视化的传播模型(见图10),并基于这个模型,从时间、作者、数据、可视化和媒介五个角度对数据进行了详细的标注。


图10:疫情可视化的传播模型

最后,针对已标注的数据,该工作提出了一个可视分析系统以及地图可视化工具来帮助分析者对这些数据进行分析,并得出了一些发现。首先是不同国家创作的可视化在时间上的分布(见图11)。从时间轴上可以看到,中国作为最开始发现新冠病毒的国家,在疫情的早期出现了大量的可视化。但随着中国疫情得到了控制,相关可视化也逐渐减少。反观美国,其疫情从在国内爆发至今仍未得到有效的控制,创作的可视化数量也一直较高。可视化的数量也在一定程度上反映了该国的疫情的发展。另一方面,从地图上可以看到美国创作了最多的可视化,且其创作的对象不仅限于本国的疫情,同时有较多关于其他国家或地区疫情的可视化(见图12)


图11:不同国家或地区创作可视化数量随时间的变化

图12:基于地图的交互可视化工具

报告的最后,袁晓如研究员特别感谢了参与疫情数据收集和可视化工作的同学们,感谢大家牺牲论文投稿的时间和精力全身心地投入到该工作中,产出了一系列面向和引导公众的可视化。同时,他也从两方面呼吁可视化社区:一是疫情给研究者提供一个重新审视自己的机会,我们应该思考如何在疫情或者是其他挑战面前带着社会责任感对社会做出一定贡献;二是疫情态势的发展展现了全球各地不平衡发展的现状,我们应该努力去帮助那些实力相对薄弱的地区。

引用:

[1] Datong Wei, Chenlu Li, Hanning Shao, Zijing Tan, Zhixian Lin, Xiaoju Dong, and Xiaoru Yuan. SensorAware: Visual Analysis of Both Static and Mobile Sensor Information. Journal of Visualization (ChinaVis ’20), Accepted, 2021.

[2] Shuai Chen, Sihang Li, Siming Chen, and Xiaoru Yuan. R-Map: A Map Metaphor for Visualizing Information Reposting Process in Social Media. IEEE Transactions on Visualization and Computer Graphics (VAST’19), 26(1): 1204-1214, 2020.

[3] Brian Cugelman, Mike Thelwall, and Phil Dawes. Communication-based in-fluence components model. In Proceedings of the 4th International Conference on Persuasive Technology. Association for Computing Machinery, New York, NY, USA, 2009.

评论关闭。