面对新冠病毒,这张疫情轨迹图你一定要看

北大可视化与可视分析实验室发布疫情轨迹图,可视化对比新冠与其他历史疫情。

自从新冠疫情爆发以来,你的生活或许变成了这样:每天早上一起床,便习惯性地打开手机,点开微信朋友圈或新闻类APP,查看今天的新增确诊病例人数、新增死亡病例人数和疑似病例数,忧心忡忡地看着窗外,想着什么时候情况能够好转,自己得以“刑满释放”,出门去在春风杨柳里走一遭。

新冠与SARS?

2003年,SARS病毒肆虐神州大地的场景仍然历历在目,而在疫情爆发的初期,科学家们便宣布导致此次疫情的新型冠状病毒的基因序列与SARS病毒有着高达75%的同源度[1]。因而眼看着确诊病例数一天天增加,很多人的第一反应就是:莫非“非典”时隔17年又卷土重来?同时,现在不少自媒体使用“确诊人数和死亡人数已经大超非典”来论证它比非典更可怕。

图1 新型冠状肺炎病毒、HIV病毒、H1N1病毒模型(来源见文末)。

在各类消息中,其他一些传染病的名字也频频出现,被拿来与此次新型冠状病毒引起的传染病相对比或类比:非典型肺炎、中东呼吸综合征、埃博拉、禽流感、西班牙流感……每一个名字都意味着大规模的感染和死亡,每一段故事都丰富着困于斗室之中的人们对于此刻正在发生的疫情的想象。新型冠状病毒肺炎与这些历史上的传染病相比,其“威力”究竟几何呢?

基于系统发生学、分类学和既有惯例,日前,国际病毒分类学委员会宣布这种病毒的英文名为“SARS-CoV-2”,正式将其识别为SARS冠状病毒的一个姊妹病毒,属于SARS相关冠状病毒种[2]。同时,世界卫生组织将新型冠状病毒所引发疾病命名为“COVID-19”(即coronavirus disease 2019)[3]。然而,包括国际病毒分类学委员会冠状病毒研究小组主席约翰·齐布尔以及钟南山院士都表示,尽管名称接近,但新型冠状病毒与SARS冠状病毒并不一样,COVID-19也和SARS疾病在表现上有许多不同。

那么,从流行病学表现上看,这种“不同”体现在何处?我们选取了各种在历史上发生过的对人类社会产生了重大影响的传染病,以横轴映射其感染人数,纵轴映射其死亡人数或者病死率(死亡人数与总感染人数的比例),与新冠肺炎疫情每日的对应统计数据进行对比,绘制出新冠肺炎的疫情轨迹线

图2 疫情轨迹线—新型冠状病毒肺炎与其他重大传染病感染人数/病死率情况对比(网址:http://vis.pku.edu.cn/ncov/mortalityline)

疫情轨迹线从病死率/死亡人数和感染人数两个维度出发,以红色方块代表新冠肺炎,将其置于其他传染病的数据中间,为疫情发展给出一个直观的侧写,明确地反映新冠肺炎和其他大规模的流行病之间的差异。

通过疫情轨迹线我们可以发现,新冠肺炎的传播表现和“非典”有很大不同:二十多天以来,尽管感染人数逐步攀升,并很快超过了SARS,但其病死率和SARS相比却差异很大,其“影响力”似乎和甲型H1N1流感、季节性流感等更加相似。

在选择了病死率变量的疫情轨迹图上,我们可以还观察到另外一个现象:代表历史上曾大规模流行的传染病的数据点没有发布在图的右上角。即感染人数更多的传染病,往往病死率并不是最高的。因此,在不考虑感染人数这个变量的情况下,仅通过比较死亡人数来判断某个传染病本身的凶险程度并不严谨。从病死率上看,新冠肺炎并非一种格外凶险的传染病,之所以死亡人数超过非典,很大程度上可能是由于前期的大规模传播,以及随之引起的一系列实际问题(如医疗机构承载力不足、许多患者无法得到有效医疗保障等)导致的。

图背后的故事

做一个新颖而出色的可视化并非易事,不能依靠不可琢磨的灵机一现,而是要遵循很多科学原理。这里我们进一步解读在疫情轨迹图中的设计思想。

为何要用坐标位置表示数据 这里面为何要用平面坐标来表示感染病例数和死亡病例数这两个变量?为什么不用更加绚丽多彩的颜色来表示数据?在可视化中,我们可以有很多种方法(视觉通道)来编码数据,包括位置、大小、颜色、亮度,甚至纹理。但是实质上不同的视觉通道对于数值的表达效果是有明显差异的。例如对于不同长度的两条线段,普通人很容易估计出他们相对长度的倍数,而要估计两个不同亮度对象之间的差别,对人来说要困难的多。这是由人的生理感知能力决定的。通过大量的心理学实验,世界各国学者们逐渐明确了不同视觉通道对各种可视化任务表达效率的相对顺序。

在确定可视化方案的设计阶段,我们倾向于优先使用更精确的通道来映射更为重要的信息。对于数值型数据,使用位置这一通道进行映射时,人的感知是最为准确的。散点图正是使用了横轴和纵轴的位置来映射疫情中我们最为关心的两个因素:传染影响和致死性。不同疫情的感染人数和死亡人数可能有着显著的差异,极大值和极小值之间可能相差多个数量级。在线性坐标中,较小数值之间的差异难以比较。我们使用对数坐标变换的方法来应对这一问题。

如何做好动静对比 新型冠状肺炎病毒疫情暂时没有结束,感染人数每天还在增长。身处疫情中的人们,非常关心疫情变化的趋势。比如最近很多人关注到了中国除湖北省外的新增确诊人数,连续10天在下降。在疫情对比的散点图中,我们使用了动画的形式,来表现每一天的疫情传染和致死情况的变化。在动画播放的过程中,我们可以通过观察点的运动,来理解疫情变化的趋势。

使用动画来表现多维度数据随时间的变化,是可视化中的一种常用方法,在中学教学中就开始广泛应用于实验数据分析,也广泛见于社交媒体和宣传。一个为公众熟知的例子,是Hans Rosling教授使用世界各国统计数据所制作的动态散点图。

然而,动画也具有一些不足。观众需要等到动画的播放周期结束后,才能观察到全部的数据。当对不同时间段进行比较时,用户需要承担更大的认知负担,记住以前的数据,或者花费较多的时间回看动画。考虑到这些因素,轨迹线除了使用动画,还保留了已出现过的时间点,并使用折线连接相邻时间的点,来作为新冠病毒肺炎疫情变化的一个“轨迹”。以这样的方式,疫情轨迹图达到了折叠时间的效果,虽是静态,又涵盖着动态的过程,并减轻读者的记忆负担。对于动画在趋势可视化中的效用,可以参考 George Robertso 等人在2008年发表的IEEE VIS 可视化大会论文 “Effectiveness of animation in trend visualization”[4]。

图3 使用了尾迹的散点图(https://www.gapminder.org/tools)

需要指出的是,和上图中所有数据点都有相同的时间范围不同,疫情轨迹图中,我们只为要关注的重点对象-当前的新冠疫情提供了动画尾迹,其他数据均为其最后统计时间的状态。这一时间差异并不会带来认知的模糊,反而能让用户更好理解和猜测新冠疫情将发展得更接近哪一种历史上出现过的疫病。

视解疫情数据

巧妙设计的可视化为快速深度理解当前疫情提供了有力的手段。下图表示因疫病死亡人数和感染人数的关系,从图中可以看到,目前疫情还在“爬坡”,新冠肺炎感染数目增长很快,其影响程度很快就超过了2003年的非典。而在图中我们可以发现,新冠肺炎与“非典”有不同的传播表现:传播范围更大、传染能力更强、病死率更低,其“影响力”似乎接近于甲型H1N1流感、季节性流感等。

图4 疫情轨迹图—新型冠状病毒肺炎与其他重大传染病感染/死亡人数情况对比

同时我们从图2轨迹线中也可以看到,自疫情开始以来,新冠肺炎病死率一直在相对较低的水平,远小于近年的埃博拉病毒、HIV等。对比位置较为接近的甲型H1N1流感(2009-2010年数据,感染人数五十万人,死亡率3.69%),截至2020年2月14日24时,新冠肺炎的确诊人数为66,492例,病死率为2.29%,且病死率这一指标有继续维持在同一水平的趋势。一百多年前的西班牙流感中,全球有数千万人死亡,病死率高达20%,为20世纪留下了一个巨大的阴影。而伴随着医疗水平以及公共卫生意识的逐步提高,传染病带来的死亡数目已经大幅降低。

图5 疫情轨迹图—新型冠状病毒肺炎与其他重大传染病感染/病死率情况局部

图5也同样反映出了疫情走向的变化。1月21日是折线的谷底,这时武汉尚未封城,疫情也处于早期传播阶段,死亡人数较小,而感染人数相对而言增速更快。封城之后,感染人数开始指数级暴增。由于重症患者死亡与发病之间有一定的滞后,可以观察到病死率是经过一个缓慢下降的过程后迅速拔升。2月12号起,临床诊断病例被纳入确诊病例公布,原已近乎平滑的散点列再次产生了跳跃。对应的当前死亡率也有所下降。

更多的历史流行病例数据可以更好地充实今天我们介绍的疫情轨迹图这一可视化,未来北京大学可视化与可视分析实验室还将补充更多历史数据,探索包括传染系数在内的更多指标,敬请期待。也欢迎大家积极提供更多的相关数据。

疫情轨迹图网址

交互版本的疫情轨迹图可以访问 http://vis.pku.edu.cn/ncov/mortalityline/查看。在这里,用户可以交互式查看不同时间疫情的变化,也可以通过选择不同数目的其他背景疫情,查看相对关系。更多的疫情可视化,可以访问 http://vis.pku.edu.cn/ncov/,或扫描下方二维码。

上述软件和可视化效果由北京大学可视化与可视分析实验室研发,版权归属北京大学。欢迎用于公益的转载或使用,我们提供无偿使用,请事先邮件联系说明使用情况并在使用中注明来源。我们也非常欢迎专业人士利用我们的工作开展相关研究工作,或者提供更多数据,合作产生更为大众需要的可视化。其他方式的需要,请与我们具体联系,我们反对任何商业盗用行为。

联系方式:pkuvis@pku.edu.cn

方法创意:袁晓如

视觉设计:江治邦,朱钧霖

代码研发:谢李文含,蒋瑞珂

文案编辑:沈博妍,王天泽,谢李文含,蒋瑞珂,杨昌和,袁晓如

结束语 什么是好的可视化?

从我们今天发布的疫情可视化的详细披露可以看到,做出一项优秀的可视化工作需要考虑非常多的方面。好的可视化不是漂亮的装饰。它是一把利剑,能够劈开复杂数据的重重迷雾,最精准直接地揭示真相。

参考资料

[1] Lisa E. Gralinski, Vineet D. Menachery. Return of the Coronavirus: 2019-nCoV[J]. Viruses 12(2):135, 2020.

[2] Alexander E. Gorbalenya. Severe acute respiratory syndrome-related coronavirus: The species and its viruses – a statement of the Coronavirus Study Group. bioRxiv. February 11, 2020. 

[3] 2019 WHO Novel Coronavirus Global Research and Innovation Forum: towards a research roadmap. https://www.who.int/docs/default-source/coronaviruse/global-research-forum-draft-agenda-feb-6.pdf

[4] George Robertson, Roland Fernandez, Danyel Fisher, Bongshin Lee, and John Stasko. Effectiveness of animation in trend visualization. IEEE Transactions on Visualization and Computer Graphics, 14(6):1325–1332, 2008.

三维病毒模型图片来源依次为

1. SARS-CoV-2 病毒 https://phil.cdc.gov/

2. HIV 病毒 北京大学可视化实验室根据Marison生物绘制框架制图

3. H1N1 病毒 https://phil.cdc.gov/

评论关闭。