第八届中国可视化与可视分析大会(ChinaVis 2021)Day 2

2021年7月26日,第八届中国可视化与可视分析大会(ChinaVis 2021)第二天的活动有条不紊地举行,包括数据可视分析挑战赛、可视化暑期学校课程项目汇报、论文报告和专题报告等多个部分。


数据可视分析挑战赛

本届数据可视化竞赛的数据是空气质量监测站收集到大量具有高维、时序特点的空气质量数据,旨在利用大数据分析技术和可视化方法,为大气污染防治工作的分析、指挥和决策提供有效手段和决策依据。

首先,复旦大学的陈思明老师做ChinaVis 2021 数据可视分析挑战赛的总结,今年共有832人报名参赛,经评审,最终49个单位共96支队伍提交作品,32个作品入选,占比33.33%。来自高校、研究院所、企业的数据可视分析从业者和爱好者将数据智能处理、视觉表征和交互分析有机地结合,分析大气污染问题及成因、大气污染传输模式、大气污染的地域相关性、监测大气污染发展趋势、感知大气污染的时变规律等,辅助工作人员因地制宜地制定防治策略。

随后,一等作品的获得者重庆大学团队介绍了该项目的数据分析、任务分析、可视分析、交互设计和案例分析的流程。该系统基于中国高分辨率大气污染在分析开放数据集,明确六个主要分析任务:不同时间粒度下污染指标与气象数据时空分布模式及时空演变态势、分析识别各地主要大气污染物、分析各地不同污染类型及类型变化、展示并分析各地大气污染差异、分析各地污染防治成效、对特定事件的发现与体现。

在点评阶段,赵颖老师评价该作品的特点是耐看且越看越好看,内容丰富且细节处理非常到位,但是由于视图较多第一眼看到时会略显混乱,赵老师建议可以参考Tableau的方法使用主图,其他辅助图可以在特定的任务下进行组合。

可视化暑期学校课程项目汇报

首先是来自北京大学的袁晓如研究员简要回顾了可视化暑期学校的历程,指出在此期间有大量精彩的报告,也诞生了大量优秀的课程设计。然后由八个优秀小组代表展示在可视化暑期学校期间完成的课程设计。课程设计的选题大多是和中国有关的,涵盖历史、教育、科学以及医疗等话题,比如宋元学案学派传承、高考与教育成本和中国天文望远镜等选题。最后是袁晓如研究员为参与暑期学校的各个小组颁发结业证书,也鼓励更多的人参与暑期学校。

可视化系统中的交互设计

本专题主要是针对可视化系统中的交互设计方法和交互设计的相关理论展开探讨。共有4位讲者参与。该专题由来自华东师范大学的李晨辉副教授主持。

前两位讲者,即来自中山大学的武汇岳教授和来自百度研究院的赖楚凡研究员,主要针对自己的工作进行了较为详细的讲述。其中武汇岳教授讲述的是手势交互设计中的用户参与设计方法。首先提出手势设计多有专业人员完成,用户可操作性差的观点,从而提出用户参与设计的思路。然后给出了一些手势设计的案例,说明用户参与设计对于用户使用习惯和文化背景差异等影响交互效果的因素都有很好的改善。而赖楚凡研究员的工作则是基于深度学习的可视化智能。他注意到对可视化添加高亮等强调效果需要耗费大量的精力,基于此提出了CV和NLP的相关模型,从而实现对内容和图片的自动识别,并展示了模型生成的相关的标注动画。随后,赖研究员又提到了语音识别等相关技术,演示了如何交互式地添加高亮等强调效果。最后,又引出了开放式交互设计与封闭式交互设计孰优孰劣的讨论。

第三位讲者,即来自香港科技大学的麻晓娟助理教授,则给我们呈现了关于交互形式的精彩综述。在报告中,麻教授展示了大量在不同场景下的可视化交互实例,例如对于微屏幕可以交互操作多个微屏幕;对大屏幕的操作不适合直接触控,可以使用手势;VR和AR手柄的可控度和精度较高,可以实现一系列复杂精细的操作;甚至直接物理移动屏幕实现交互,等等。

麻教授在介绍各种可视交互方法

最后一位讲者,来自宾州州立大学的张小龙副教授,则聚焦于可视交互设计的理论基础。张教授认为,现如今可视化的具体实现依赖于人类对问题的把握,我们缺乏一个将分析过程一般化的理论,即如何通过一个通用的理论将需要解决的问题直接转化为需要实现的可视化模块和交互。事实上这是一个跨学科的问题,一旦能够解决,这将在很多领域都能实现质的突破。目前有一些理性频带行为理论和元认知的概念,对人类如何思考这个问题给出了一些理论,但距离实现可视分析认知理论体系还有很长的路要走。

张教授在讲述可视交互相关的理论

决策可视分析

本次大会的决策可视分析专题由四个报告组成。

第一场报告是北卡罗来纳大学夏洛特分校的窦雯雯副教授带来的《文本数据可视分析及应用》。信息时代产生了大量的文本数据,这些数据中有大量的噪声,但也包含着许多有用的信息。比如通过分析社交媒体上的文本信息,我们可以了解社会现象,预测未来事件。然而,由于文本数据是非结构化的,用机器学习方法提取的信息不一定准确且可解释性不强,窦雯雯副教授强调文本数据的可视化分析必须要以人为本,将数据分析和交互可视化紧密结合。报告的后半部分展示了三个应用案例(美国自然基金影响评价、占领华尔街事件、预测未来事件)。最后,窦雯雯副教授从应用层面上升,指出人们在用交互可视分析决策时,往往会出现认知偏差,并鼓励青年学者们关注基础研究,分析可视化的每个步骤可能带来的偏差,从而未来在设定任务、培训用户时尽量减少认知偏差。

窦雯雯副教授在报告

第二场报告是四川轻化工大学的吴亚东教授的《可视化技术在材料科学中的应用》。随着信息技术在材料科学的研制、生产等过程领域的应用,积累的了大量研制、生产过程数据,如何有效利用这些数据,提高产品质量和生产效率是材料研制和生产人员关心的问题。报告展示了多组分复合材料研制知识图谱可视化和配方筛选案例,介绍了可视化技术在新材料配方筛选、设计、生产等过程中的应用,展示了可视化与可视分析技术如何支撑和辅助决策新材料研发与生产。吴亚东教授在总结中说道,材料科学未来需要可视化技术人员与具体领域业务人员紧密结合。

第三场报告是天津大学的牛志彬助理教授带来的《基于可视分析的金融风险管控》。金融科技的发展推动了金融创新,同时也倒逼金融监管技术的革新。但金融创新与安全可控间引起新失衡,亟需新技术推动智能预警与风险防控。牛志彬助理教授致力于用可视分析技术守住不发生系统性金融风险的底线,构建了早识别、早预警、早发现、早处置的分析框架,使得金融专家深度理解金融数据,获得有效的决策辅助信息。在新的金融科技和监管科技时代,智能可视分析技术为金融业务深度赋能,实现更精准的决策辅助信息是智能金融发展的重要方向。

第四场报告是来自华为云数据治理创新Lab的金卓宸工程师带来的《事件序列数据的可视因果分析》。分析因果关系对理解复杂系统背后的机制从而进行合理决策起到至关重要的作用。在许多实际应用领域中记录下来的事件序列数据含有反映事件之间因果关系的重要信息。然而分析事件序列数据从中提取因果关系是具有挑战性的,因为具有异质性和高维性的事件序列数据通常包含相当复杂的事件因果关系,而这些关系很难推断。金卓宸工程师介绍了一个用于挖掘事件序列数据中因果关系的可视分析系统。可视化系统包括了交互式的因果分析框架,建立用户反馈机制,支持自下而上的因果关系探索、迭代式的因果关系验证与优化以及因果关系比较。

安全可视化

安全可视化专题共包括4个报告。

首先,来自东北大学的姚羽教授带来了主题为“工业网络安全数据可视化的实践与思考”的报告。姚教授首先介绍了关键基础设施安全的定义,指出工业网络安全直接关乎国家安全;接着,姚教授介绍了他们团队开发的“谛听”全局态势感知系统,在工控流量检测/异常检测中,解决安全运营“监测难”的问题,并介绍了使用工控蜜罐欺骗的方法应对“识别难”的问题。在网络安全分析中,可视化是分析网络异常的重要手段。

接着,来自北京数字观星科技有限公司的王庆红工程师介绍了可视分析在异常流量分析检测中的应用。在网络流量分析(NTA)中,流量数据特征聚集后,通过平行坐标等可视化形式,可以做到看清网络、发现异常行为等功能;在观察目标IP通讯过程中,通过可视化手段,展示出来目标设备指定时间范围的所有通讯目标和具体的流量情况,能够观察一个时间窗口内,一个IP的连接关系,本地端口、访问端口在时间和段位维度上的分布。

来自腾讯科技(深圳)有限公司的黄嵩高级设计师进行了题为“安全价值驱动下的可视化设计应用与创新”的报告,讲解了在为客户建立安全可视化监管中心的需求下,整个流程的准备、调研、共识、方案、验证、落地等几个部分的工作。

最后一个报告“安全可视化在风控域的实践与思考”由来自阿里巴巴集团的李秋生工程师带来。报告介绍了在大屏环境下,硬件管理、显示空间管理、多用户协同交互、大屏内容开发和内容管理等实验与思考,描述了VMAX的一站式大屏解决方案。

空间信息可视化

空间信息可视化专题的主持人是武汉大学的应申教授,以当前的一些应用为主题邀请了四位讲者进行报告。

西南交通大学的朱庆教授首先带来了《数字孪生与智慧铁路可视化》的报告。相比于一些有一定历史的项目工程,在新城市或工程的建设中进行数字孪生更加方便,同时要用新的技术去保持他们的历史。川藏铁路是中国工程建设史上单体投资额最大的项目,而川藏铁路在修建过程中遇到许多挑战是无法仅依靠人来完成的,唯有依靠数字孪生去解决。通过数字孪生,可以解决散列传感器数据“信息爆炸”、“视而不见”的问题,将控制室大屏幕的空间充分利用,大幅提高了工程建设的监测效率。而由于实际问题中所对应数据永远是在不断变化的,所以根据任务对象进行了多粒度的设计,对每一个可以且需要独立管理的单元进行表达。通过这一技术实现的孪生铁路,能够实时动态地绘制所有数据,形成质量效率安全经济整体性的治理体系,关注全要素互馈作用的生态体系。

第二位报告人是来自深圳大学智慧城市研究院的贺彪研究员,主题为《城市自然场景的仿生可视化》。城市的数字管理主要分为三个阶段:第一阶段是已经广泛实现的电子政务、第二阶段是数字城市、第三阶段则是智慧城市。智慧城市主要辅助政府来进行各种各样的决策与管理,其操作系统的底层为数字孪生城市,本次报告主要介绍了数字孪生城市中的自然物。

自然场景建模的目标真实感会根据不同的任务和场景来决定,以植物仿生为例,树并不是静态的,树叶摆动、生长形态变化、季节更替等都会影响通过测绘的方式去绘制一棵树,所以现有很多技术方法通过对树进行数据化表达,结合场景要素,从单个要素建模和自然场景模拟进行自然场景的构造。先通过点云对树整体产生认知,接着进行初步构网,然后提取出整棵树的主干,最后在渲染的过程中利用可视化的方法重新生成合理的树叶等细节。

贺彪研究员讨论自然场景建模的目标

第三场报告为来自中国地质大学(武汉)的田宜平教授带来的《省域玻璃地球可视化关键技术》 。玻璃地球的概念与21世纪初被提出,意图对地球浅层地壳进行透明化。这一想法在数据勘测、专业知识、建模技术等方面都面临着挑战。实际数据断层多、会出现褶皱倒转、溶洞的存在、100km^2块内的智能推理、不同比例尺下的建模、数据量与计算机图形渲染能力和IO吞吐效率矛盾、球面坐标的投影与网格化的问题都是具体实现中的难点。最后田教授了介绍了在具体实现时的四个关键技术:超大规模三维地质体模型构建技术、超大规模三维地质体模型可视化实时调度技术、超大规模三维地质体模型可视化分析技术、地质地理一张图集成发布技术。

田宜平教授讲解超大规模三维地质体模型可视化实时调度技术的细节

第四场报告由武汉大学的艾廷华教授在线上为我们带来《图卷积深度学习下的地理信息图形形态模式识别》。图卷积深度学习在不规则结构图的支持下通过图的空间邻域和频域特征提取。艾教授介绍了将图卷积深度学习模型应用到GIS领域的空间形态模式识别中,探索空间认知问题通过深度学习解决的技术途径。报告中重点讨论了空间认知、地学信息形态分析的邻域知识与数据驱动思想的结合。

交互式机器学习与可解释人工智能

交互式机器学习与可解释人工智能专题报告由天津大学张家万教授主持。人工智能在当今学术界高速发展,也有很多工业成品大批落地;可视化技术借助其强大的交互属性,与人工智能领域结合,是当前研究的热点方向之一。

来自加州大学Davis分校的马匡六教授主要在高维数据可视化与人工智能结合领域展开了其报告,主要介绍了PCA方法与LDA方法的对比,针对不同的角度展开了对比分析。最终通过可视化方法展示了:如何使用PCA的方法以及其衍生出的cPCA、ccPCA方法对高维数据的多特征进行分类识别,提高识别率。报告中通过展示几个不同的实例(红酒、癌症、脑神经元、蛋白质大分子等)对方法进行了有效性、可靠性测试。

来自清华大学的刘世霞教授以较为科普的角度展现了可视化如何赋能AI技术,首先提出数据是决定识别正确性的主要因素,模型的优劣只能更好或更差的逼近识别上限,要解决的主要问题是数据样本集的偏差。其主要解决思想是通过可视化方法(如streamline)使得网络的各个层以及层之间的传递关系变得“可见”,从而方便了解网络中的数据传递情况、错误如何发生、各层contribution的大小。

来自南方科技大学的助理教授马昱欣在可解释人工智能方面提出了其见解:人与机器之间的交互是建立在“理解”与“信任”上的,尤其强调人对机器输出结果置信度的把控。然而,一旦我们忽视过程,只要机器输出错误结果则信任很容易短期崩塌,这也是马教授提出人工智能做出判断过程进行“透明化”可解释的动机。其报告主要展开的方面为:模型安全角度(防止数据污染攻击)以及迁移学习场景的适用性(探讨新旧模型的异同)。

最后来自英属哥伦比亚大学的刘子鹏带来了GNN方向的可视化结合应用,对于多图联动的系统,图结构中临近的点在其转化过后的隐空间中是否也存在临近或其他类似的联系是其探讨的主题。通过可视化的分析,探索GNN内部是否存在不合理层以及分类bug,从而进行对网络是否适用场景的优劣评估。

整体来看,本次报告的主题是以AI为导向,可视化将作为辅助工具帮助理解神经网络内部的一些平常不可见的内容,从而帮助交互者进行评估、探索、调试纠错。

面向科学数据的可视化工具设计与研发

面向科学数据的可视化工具设计与研发专题的主持人是重庆大学的胡海波教授,以当前的一些应用为主题邀请了四位讲者进行报告。

北京应用物理与计算数学研究所的曹轶教授首先带来了《高性能CAE仿真对可视化工具的需求与挑战》的报告。工业软件是国家急需科学攻关的卡脖子问题,工业仿真属于其中的关键环节,它对于新产品的快速研发不可或缺. 当前, 随着高性能计算技术的持续发展, 并被不断被用于解决复杂工程问题, 工业仿真设计的效率不断获得提升。但是随之产生的大规模工业仿真数据集,对仿真设计与分析的人机交互力提出了新的挑战。本报告从CAE仿真领域展开介绍,围绕若干典型的工业仿真应用,对比科学可视化的可视化工具发展,讨论高性能CAE仿真对可视化的需求,以及其中存在的挑战性问题。

第二位报告人是来自深圳大学智慧城市研究院的贺彪研究员,主题为《面向多用户的科学数据可视化平台》。科学数据具有高维、时变、规模大等特点,科学数据可视化为复杂现象提供了有效的分析、验证和解释手段。本报告介绍面向多用户的科学数据可视化平台,渲染服务部署在高性能服务器上,支持高并发的大规模数据可视化,用户可以在Web客户端上按需构建可视化流水线,实现对数据的交互探索。

第三位报告人是来自中国空气动力研究与发展中心计算空气动力研究所的陈呈研究员,主题为《NNW-TopViz流场可视化软件研发进展》。随着高性能计算机能力的提升,CFD在工业设计与基础研究中得到越来越多的应用,求解问题规模、复杂度以及数据量也随之大幅增加,可视化技术在直观反映数据分布及特性,在分析和辅助设计方面发挥着不可替代的作用。本报告介绍了国家数值风洞军民融合工程(NNW)流场可视化软件(TopViz)的建设目标、研发规划、技术途径和进展情况,展示了软件研制现状以及目前的产品线开发进展,对软件研制过程中的关键技术进行了总结。

第四场报告由 Linköping大学的Ingrid Hotz教授在线上为我们带来《How can we achieve sustainable applied visualization research? – Between prototyping and software development.》报告。教授为我们分别从原型设计和软件开发方面介绍了如何实现可持续的应用可视化工具与设计方面的研究。从自身的科研经验着手,讲述了在科研中的应用与从中汲取的经验,结合生动的视频与案例进行了讲述。

Graph and High-Dimensional Data

在图与高维数据会议中,共进行了四篇报告,由香港中文大学深圳大数据研究院的成生辉研究员主持。

稀有类别检测在现实生活中有各种各样的应用。已有的稀有类别检测算法对于表格数据有基于先验的和基于非先验的,对于图数据有基于先验的方法。来自上海交通大学的同学介绍了他们提出的RCDVis,旨在对图数据进行基于非先验的稀有类别检测。该工作采用基于社群检测的方法来识别稀有类别节点,并设计了一个交互界面来支持对图数据高效的探索,在没有先验知识的条件下,RCDVis仍然可以有效的在图数据中进行稀有类别的探索和分析。

RCDVis 系统界面

随后,来自东北师范大学的同学介绍了PEVis,提出了一种异常模式抽取算法。首先对数据进行异常检测,其中融合了三种经典的异常检测算法,然后使用基于k-means的算法对异常数据进行聚类,最后进行异常模式分析,引入正交普氏分析来对t-sne投影结果进行调整。在算法的基础上, 该工作设计一个交互可视分析系统,并使用空气质量数据集验证了系统的有效性。

PEVis 用户界面

在绘制散点图时,如果数据过多会产生过度绘制的情况,导致人难以感知数据的实际情况。目前已有的一些方法主要分为五类,包括采样、聚集、动画、散点图矩阵和边界构建。来自天津大学的李泽宇同学介绍了一个使用边界构建的框架来解决这个问题。首先,使用最小生成树的方法来进行聚类,这种方法只有一个参数,并且有直观的物理含义,效率很高。然后使用网格化、识别大陆、合并临近的大陆、填充大陆内部较小的空洞、平滑边界的流程来进行边界构建,目标是使边界尽可能包括所有点的同时尽量保持简洁。最后进行标签放置,使用标签到边界的距离和当前位置点的密度作为参考指标。在与已有的三个工作的对比中,该工作有较好的表现。

第四个报告来自浙江财经大学的程奥圣同学,他从研究背景、排名可视分析中的视觉元素、复杂结构数据排名可视分析、排名可视分析应用几个方面对排名可视分析进行了综述报告。在排名可视分析中,通常使用位置,斜率,大小,亮度,饱和度来编码数据,近期也有一些使用自定义图案来编码数据的工作。排名可视分析的数据可以包括多属性数据、时间序列、空间结构、拓扑结构等。排名可视分析系统已经被应用在经济金融、城市运营、文体娱乐等方面。最后,程奥圣同学对排名可视分析进行了总结与展望,目前对于面向多源异构、关联关系复杂数据仍是挑战,未来的排名可视分析可能会与人工智能进行结合,并且需要建立一个通用的排名可视化评估标准和体系。

VR and System

VR & System论文专题共有5篇文章(其中一位讲者因故缺席),报告由北京邮电大学副教授李铁萌主持。论文针对领域各异。(第一篇缺失)第二篇工作针对医学成像方向,设计了一套医用VR学习平台,完全使用医院提供的CT成像数据集进行渲染绘制,通过特制笔与3D眼睛设计了基本的手势指令,相对于实体解剖学习,节约了时间以及金钱成本;第三篇的工作映照了开幕式王昉老师的想法,其主要方向在于研制高性能的工业仿真软件(不论商业界与军事界),从而打破国外制约,该工作内容在大规模数据计算中通过数据简并大大提高了系统渲染的实时性,在发动机燃烧模拟环境下展开了测试达到了实时仿真;第四篇工作针对场景为海洋锋,通过海域划分设置不同地区以及不同时段的“海洋锋”阈值,以热力图的方式展现,初步确定海洋锋范围区域后,再以多视图的方式对单一区域的“锋”进行多特征展示;最后第五篇工作针对的是海洋中的涡流,设计了一款web端的可视化系统,可以对大范围内的涡流进行判断展示、并对选中区域的单一涡流进行多时间步演化分析,系统的输入是处理好的迹线数据。

Volume and Flow

本场报告由五篇论文报告组成,介绍了从体数据和流场数据可视化的不同角度的工作。

基于工作流挖掘的技术进行流线提取的工作

第一个工作由Xuyi Lu带来,介绍了基于工作流挖掘的技术进行流线提取的工作。根据和领域专家沟通,确定了五个基本的对于流场的可视化需求,包含了需要对于流线本身的展示,对于整个流场的全局认知,依据特征划分子区域,以及提取感兴趣的特征和进行属性分析。为了达到以上的需求,本篇报告引入了工作流挖掘技术,将流线本身转化为事件序列。流线的每段都可以被抽象为一个事件,记录了其旋转角度和方向等。通过这种方式,对于流线的探索被转化为了对于事件序列的探索,并可以支持在此基础上进一步的对于流场特征的提取。

基于等值面分割支持体数据查找和搜索

第二个报告来自Haoran Dai,介绍了基于等值面分割支持高精度电镜数据的查找和搜索。对于体数据,首先利用等值面对于数据进行分割。随后,使用一套自编码解码系统,得到对于每一个等值面粉盒出来的小块的隐向量,并根据向量进行相似度比较。通过这种方法,可以分离数据本身的不同区域,如胸腔电镜数据中,根据相似度,可以区分骨骼、肺、皮肤等等。基于等值面分解并进而进行相似度比较的方法可以建立不同分辨率体数据的关系,同时等值面本身的分割具备实际的语义,在处理高精度的体数据比较时,具备优良的表现。

流线压缩技术

第三个报告是来自Donghan Liu,介绍了基于B-spline曲线拟合的压缩流线数据的算法。流线的计算相当费时,而计算完成后得到的数据相比于原始数据体积增大很多,因此,需要有好的压缩算法来减小存储这些流线数据的存储开销。使用分段B-spline曲线,控制控制点个数在4-5个,并进一步引入独特的数据结构存储控制点数据,可以提高数据的压缩率。同时,引入误差限制和交叉检测,保证了数据被拟合和压缩后最大程度上保留原始数据的特征。

超大规模结构化数据集约减方法

第四个报告来自Zhiwei Ai,介绍了精度可控的超大规模结构化数据集的约减方法。超大规模的数值模拟得到的数据在单位时间的存储就需要消耗TB级的内存,导出这样的数据并进而进行可视化分析所需要的存储、IO代价是极大的。本工作利用了可视化本身对于数据精度的要求远远低于数值模拟计算的需求这一特性,引入了分析网络的想法,在原本规整、稠密的单层计算网络上进行约减,得到多层次的较低粒度的分析网络,作为可视化的数据。采用低粒度的层次化网络,大大约减了用于可视化的数据量,同时,又不会对可视化产生的图像产生较大的影响。这样的工作虽然小规模地增加了计算时所需要的存储空间(引入了新的网络),但是对于存储和导出可视化需要的数据提供了极大的帮助。

特征增强技术综述

最后一个报告是来自Chaoqing Xu,这篇综述文章提出了新的分解体数据可视化的特征增强技术空间。文章通过两根坐标轴,将技术空间分解为了四类。横坐标区别针对外部特征和内部特征的技术,而纵坐标区分针对结构化特征和表意特征的技术。两个维度组合成为了四个维度,文章将搜集到的针对体数据特征增强的技术方法进行了总结和分类。

Application

本场报告由五篇论文报告组成,介绍了可视分析的具体应用。

第一个报告来自台湾师范大学,提出了一个中文名称实体识别(NER)诊断修复的工具。NER的正确率对自然语言理解与处理中起着很大的作用。但是NER的模型是一个黑盒,很难理解其中的处理过程;且中文NER与英文NER不同,有着更复杂的流程。针对这个问题,作者提出了一个可视分析系统,在给出中文NER的结果及置信度的同时,也支持用户追踪错误识别的来源,并手动修改结果。

第二个报告介绍了中医病案可视分析系统。一个病案包括疾病的发生、发展、转归、检查、诊断、治疗等,是一个复杂的多变量多模态时变数据。已有的研究无法对连续记录的中医病案进行分析,数据分析过程没有人的参与,且难以进行多模态数据联合分析。针对中医整体观的特点,设计了一个可视分析系统,能够展示名医对药物和疾病的认识,并对比名医和教科书对待药物的区别。

第三个报告是针对生物大分子可视化的综述。生物分子是典型的空间稠密结构,且其结构体现着重要的生物功能。可视化在其中可以辅助领域专家观察分析关注的结构区域,提升科研效率,同时对科普微观世界有重要意义。首先,分子结构空间形态有着多种表示方法,包括骨架形态、表面形态和空腔形态。而相关可视化的研究也包括大规模分子场景可视化、动态分子结构可视化以及面向VR的交互式生物分子可视化。作者针对以上的分类,详细论述了相关的研究工作。

第四个报告讲述了理解监控视频关键内容的研究工作。如今生活中监控的使用频率越来越高。但是,其中包含大量的图片,使得很难定位其中的关键内容。该工作针对监控的视频,从图像信息和时间角度进行研究,帮助用户定位到关键的内容。首先将视频拆为帧的集合(每秒1帧),并对每一帧都从美学、质量、记忆性和异常性上进行量化。对于每一个特征,该工作将特征值分为Q个区块,并根据变化构造Q*Q的马尔科夫转移矩阵。然后根据这个矩阵扩展到N个帧之间的关系矩阵,并进行降维投影,使用time curve的方法找到其中的异常值。

第五个报告主题为强化学习自主控制模型可视分析。强化学习包括环境、智能体、动作和奖励。其中,自主控制模型(ACM)则是寻找一个能够在特定环境下完成特定任务的智能体。但是,模型行为是一个黑盒,缺乏解释;同时也缺乏工具让领域专家对模型进行诊断;动作之间也不是独立的,存在依赖关系;最后如何设置奖励也是一个关键的问题。该工作基于以上的挑战,设计了一个可视分析系统,能够提供模型的概览,并提取动作、奖励模式,最后帮助领域专家诊断失败的原因。

VIS4AI

本场报告由四篇论文报告组成,介绍了利用可视化帮助用户理解和改善机器学习模型。

第一个报告来自Yanling Zhang,该工作对计算机网络中的攻击进行了检测和可视化。入侵检测系统(IDS)是用于保护计算机系统和识别潜在攻击的方法之一。为了提高对异常入侵的检测能力,他们提出了一个混合入侵检测框架。首先使用基于Apriori和K-means算法的模糊关联规则进行正常模式和主要攻击检测。然后数据被送入基于主动学习的新型稀有类别检测算法LOFRCD,以识别其攻击模式。他们还设计并开发一个交互式可视化系统,该系统将专家决策整合到入侵检测工作流程中。该方法提高了检测过程的有效性和可解释性。

第二个报告来自Lianen Ji,该工作围绕火力发电的控制展开。火电控制设备结构复杂,动态特性难以估计,利用历史数据建模和预测可以提升控制系统运行的质量。他们基于循环神经网络对火电控制数据进行建模,但前期历史信息积累不足导致结果与真实偏差大。作者开发了可视分析系统,利用多精度雷达图展示损失值;利用激活值分布视图展示隐藏单元激活值的分布范围和覆盖率,探索训练过程中隐藏层激活值的总体变化规律,并支持滑动窗口交互式选取时间范围;系统还提供了参数敏感性视图,展示皮尔逊相关系数。作者基于控制参数离散化,利用符号累计近似技术(SAX)将时间序列映射到离散特征空间,同时采用谱协同聚类对隐藏单元和符号化控制参数进行聚类,T-SNE降维提取模型对不同控制参数字符串响应特点。

第三个报告来自Ling Sun,介绍了关于家谱树的聚类可视化。此前的方法有基于拓扑的家谱树聚类和基于属性增强的家谱树聚类。作者开发了聚类可视分析系统,展示簇的结构和属性,并聚类进行了评估。用户在控制面板可以调整聚类参数,聚类后展示投影散点图。作者评估了方法的结构相似度和属性相似度,结果表明他们的方法有效结合了结构和属性的特征,取得了结构和属性的平衡。轮廓系数同时优于结构和属性单独的聚类。

最后一个报告来自Youyan Wang,介绍了面向异构信息嵌入模型的交互对比可视分析系统。异构信息网络由不同类型的节点和边构成,嵌入模型能够保留网络中全面的结构信息和丰富的语义信息进行更精准的知识发现。理解不同异构网络嵌入模型之间的差异,对于提高其有效性,预测精度和实现公平性而言十分重要。他们设计并实现了可视分析系统HINCompare,通过自下而上的方式,让用户从结果出发,系统性地探索和比较三个具有代表性的异构网络嵌入模型对于下游推荐任务表现的差异,以及探索模型在网络嵌入过程中所存在的共同模式。

VIS/CHI 2021 Interaction and Representation

本专题中,六位讲者介绍了他们在VIS 2021和CHI 2021发表的关于可视化交互和表示的论文。

来自山东大学的王智睿介绍了他们关于集合可视化的工作F2-Bubbles(VIS’21)。现有的集合可视化方法有基于区域的,例如Bubble Sets,缺点是不同区域的重叠。也有基于线条的,使用线条连接元素,但太细的线条难以被用户感知。此外有混合方法(线条+区域),但该方法使用的多边形填充策略可能误导用户,且时间复杂度较高。F2-Bubbles通过最小化边缘交叉和重叠进行优化。受Bubble Sets算法启发,算法有三步:1、创建集合最小生成树;2、根据生成树计算能量场;3、根据能量场获取轮廓。在第1步中,F2-Bubbles采用了联合构建的方法,减少边交叉。在第2步中引入能量场重叠后处理,具有更小重叠面积。第3步采用Marching Square提取能量场轮廓,B样条曲线平滑轮廓。F2-Bubbles还支持节点、边、轮廓的编辑。

来自南京师范大学的叶顺龙介绍了他们关于科学数据演示动画的构建与自动探索的工作IGScript(CHI’21)。传统的构建方法是手动交互结合录屏,缺点是录制后无法更改,录制过程难以定制可视化渲染参数,难覆盖重要特征等,且复杂的数据查询难以通过传统的交互或GUI控件进行定制。IGScript通过文本式的交互语法帮助用户定制数据演示动画,融入自然语言中的语法结构或使用DSL作为关键词。IGScript能够进行数据驱动的自动探索,使用特写镜头自动覆盖用户感兴趣的区域。IGScript支持2D、3D,标量、向量数据等。随后介绍了基于气球隐喻的集合数据可视化,结合基于线和基于区域的方法,基于能量最小化的优化,减少交叉,充分利用空间,保持拓扑结构的情况下尽量减少视觉遮挡。

来自香港科技大学的伍翱宇介绍了他们的工作MultiVision(VIS’21),该工作用深度学习推荐分析仪表盘(Dashboard)。分析仪表盘是常见的数据分析方法,然而生成和编辑这种仪表盘比较麻烦,主要有以下3步:1、上传数据,数据有很多列,需要选择不同数据列进行组合,2、选择合适的视觉映射生成可视化,3、组合不同的可视化图表形成仪表盘。现有的方法利用机器学习自动推荐可视化,能够解决第2步的问题。MultiVision主要解决三个问题:选择需要可视化的数据列、选择图表、人机协作。他们提出了一个Mixed-initiative的交互式系统,提供了界面允许用户与模型进行交互。该系统基于人提供的约束进行推荐,用户的编辑记录也会用于训练模型。该工作将图表表示为数据列的序列,仪表板则是图表的序列。同时将图表转化为(positive, negative)对,通过Deep Ranking的方法对图表进行排序。

来自浙江大学的应璐介绍了GlyphCreator(VIS’21)。设计可视化Glyph是一个有难度的过程,即使是专家也需要反复的迭代。在实现阶段,需要将数据绑定到视觉元素,很难使用传统的PS、AI等软件进行实现,虽然可以编程实现,但设计师可能很难掌握这方面的技能。从现有的Glyph作为参考进行设计能够简化设计过程,在实现阶段进行自动映射能够有效的提升效率。可以通过机器学习模型解决该问题,但缺乏数据库,之前的模型都是把Glyph作为一个整体,没有针对性的训练。他们提出了GlyphCreator,自动创建圆形的Glyph。该工作主要分为三个部分圆形Glyph数据集、布局拆解、GlyphCreator编辑器。布局拆解通过检测视觉元素、布局计算进行。

来自深圳大学的陆旻介绍了他们的工作Modeling Just Noticeable Differences in Charts(VIS’21)。可视化里面,如果两个元素很近,能够比较这两个元素之间微小的差异,如果距离较远,微小差异就变得难以比较。比如柱形图,比较两个柱子的高度差,如果高度差非常接近,则无法感知,存在一个临界高度差,使得差异刚刚好能够被人被感知,称为Just Noticeable Difference(JND),这是一个心理学概念,用于描述一个物体要让人感受到它的变化的最小变化。Web’s Law描述了物体能够刚好被感知的变化的量除以他的强度是常量。该工作将JND引入可视化,设计用户实验评估了不同可视化类型的JND,这些可视化的JND表现不同。在柱状图中,JND受柱子距离影响比较大,高度影响不大。而扇形图中,JND受扇形的角度影响较大,而与角距离关系不大。这些结果可以用于预测可视化表征的精度。

来自清华大学的Changjian Chen介绍了Interactive Graph Construction for Graph-Based Semi-Supervised Learning(TVCG’21)。通常情况,数据到来的速度远大于标注速度,利用半监督学习可以提高无标注数据的标注性能。他们采用Graph-based的方法,建立一个图,类别信息从标注数据传播到无标注数据。如果有错误的边,就会分类错误,因此图的质量非常重要。需要理解图的结构如何影响性能,以及找到低质量的部分,有效修改图结构。他们提出了一个系统解决上述问题。系统提供了一个桑吉图,展示数据随着传播的标注情况。并提供了一个散点投影图,展示样本的投影情况。用户可以交互式的选择某一标注类别进行分析。他们还基于格式塔理论优化散点图的划分。系统支持交互式的图构建。

VIS/CHI 2021 Visual Analytics

本专题中,六位讲者介绍了他们在VIS 2021和CHI 2021发表的关于可视分析的论文。

来自中南大学的宋杰报告了降维方法的经验性评估工作。降维方法是探索高维数据的一类重要方法,而不同类型的降维方法各有优劣。在传统的观点下,线性降维能够保持聚类密度,而非线性降维在聚类分离上表现出色;局部方法有良好的聚类分离效果,而全局方法能更好保持聚类间的关系。该工作选取12种降维方法,8个数据集从用户感知的角度系统地评估各类降维方法的优劣。相关的任务包括圈选聚类、给出选定点的聚类、圈选给定聚类最近的聚类以及对降维方法的聚类分离表现进行排序。实验结果显示,在识别聚类效果和成员时,应当优先考虑使用非线性和局部降维方法;在比较聚类密度时,线性降维方法更优;UMAP和t-SNE在识别聚类和成员上表现最优。

来自同济大学的蓝星宇报告了理解讲述具有表达力、面向时间的故事中叙述线性的工作。每个故事都有两个顺序,包括故事发生实际顺序和讲述顺序。当讲述顺序与事件发生顺序不一致时,称为时序倒错(anachronies)。该工作探讨面向时间的故事中操作叙述线性的常见模式,以及它们是否能够提升故事的表现力。通过收集80个面向时间的故事,作者发现6种主要的叙述顺序。然后通过众包实验比较这六种模式,结果显示时序倒错能够让面向时间的故事更加具有表达力,而不会降低用户对故事的理解。

来自复旦大学的陈思明副教授给我们带来了自动驾驶的可视评估工作。随着自动驾驶的飞速发展,如何评估可靠性成为行业难点和痛点。该工作提出一套针对自动驾驶的可视分析流程和系统,对自动驾驶过程中的环境感知情况进行详尽地展示,包括时间分数、模块分数和障碍分数等。最后的案例表明该系统能够揭示驾驶过程中一些重大事件前后的变化情况,以及影响自动驾驶决策的因素,证明该系统的有效性。

来自香港科技大学的危欢报告的是在线考试监考的可视分析工具,该工作紧追热点,十分有趣,能够解决实际问题。疫情的爆发使得远程办公、上课成为最受欢迎的选择。而在课程的学习中,在线考试涌现出作弊难以监管的问题。因此该工作希望能够帮助老师和助教更好地完成监考,判定高作弊风险的学生、定位作弊行为所在的问题、检查作弊行为等。通过不正常的头部运动和鼠标移动时间提取,系统能够检测出可疑的案例,并展示学生列表和问题列表的可视化。用户评估结果显示该系统能够有效地找出作弊的行为。

来自香港科技大学的王星博报告了情感分析多模态模型的可解释性工作。多模态指的是输入中同时包含语音、文本和图像数据。该工作希望建立情感分析多模态模型在全局层级和局部层次的理解。全局层次主要关注三种典型交互,主导(dominance)、补充(complement)和冲突(conflict)。主导代表的是单个模态对于情感态度的决定程度,补充代表的是两种模态是否具有相同预测方向,而冲突代表两种模态是否会产生冲突。局部层次就是代表感情的基本元素和词汇。

来自上海科技大学的李权助理教授报告的是通过可视化分析检查横向联邦学习(HFL)的运行过程。联邦学习是一种分布式机器学习方法,能够有效解决保护数据隐私下数据使用的问题。由于HFL的隐私保护性质,用户只能对潜在的疫情行为进行浅层分析,评估个体用户的贡献能力、实施干预手段受限。该工作设计可视分析系统,支持概览、通信轮和客户端实例级别的比较可视化解释。具体而言,该系统有助于对涉及所有客户的整个过程的调查、在一轮或不同轮次中对客户信息进行相关性分析、识别潜在异常以及对每个 HFL 客户的贡献评估。

VIS/CHI 2021 Framework and Application

来自浙江大学的唐谈报告的是一种风险驱动的多模态视频审核框架,视频审核是去除电子商务直播中不正常或明显内容的一项基本任务,由于其社交性和吸引人的特性,它变得普遍起来。然而,由于观看和审查多模式视频内容(包括视频帧和音频剪辑)的相关困难,这项任务是乏味和耗时的。为了确保有效的视频审核,团队提出了VideoModerator,这是一个风险感知框架,无缝集成了人类知识和机器洞察力。该框架集成了一组先进的机器学习模型,以提取视频和音频内容的风险感知特征,并发现潜在的偏差视频。此外,该框架还引入了一个具有三个视图的交互式可视化界面,即视频视图、框架视图和音频视图。在视频视图中,采用分段的时间线,并突出高风险时段,主持人可以点击并检查不正常的内容。在帧视图中,提出了一种新的视觉摘要方法,将风险感知特征与视频帧视觉结合,实现视频快速导航。在音频视图中,采用了基于故事线的设计,以提供一个多方面的概述,使主持人能够探索音频内容。此外,还使用了一个使用场景和基于任务的比较评价来证明VideoModerator的有效性和实用性。

来自同济大学的陈晴报告的是数据可视化的Vega-lite-linter框架。陈老师指出,尽管数据可视化越来越流行,但用户可能会创建带有图表构造错误的不完美可视化,例如,使用编码通道应用了错误类型的数据字段。Vega-lite-linter是一个帮助用户检测缺陷和纠正已经构建但有缺陷的可视化程序包。该包由两部分组成:(1)可视化检查器,它应用公认的原则来检查呈现的可视化的合法性;(2)可视化修复器,它根据检查器自动纠正检测到的违规。给定一个用Vega-Lite编写的可视化规范,Vega-Lite -linter可以自动检测设计问题,并为可视化提供修订建议。

来自山东大学的陈昕报告的是基于金字塔的渐进式与流数据散点图采样策略。提出了一种基于金字塔的散点图采样技术,以避免过度绘图,并实现大数据的渐进式和流式可视化。他们的技术是基于多分辨率金字塔的底层密度图分解,并利用金字塔中的密度值来指导每个尺度的采样,以保持相对数据密度和离群值。报告展示了团队的技术在质量上具有竞争力,采用了最先进的方法,运行速度大约快一个数量级。此外,团队还对其进行了调整,通过对数据块进行处理,并在密度图中更新可见变化的散点图区域,从而实现渐进式和流式数据可视化。定量评估表明,团队的方法能生成稳定和可靠的渐进样本,在保持相对密度方面可与最先进的方法相媲美,在切换帧时保持异常值和稳定性方面也优于该方法。报告中还介绍了两个案例研究,证明了团队的方法在探索大数据方面的有效性。

来自香港科技大学的程富瑞报告的是VBridge可视化模型,用来连接医疗保健模型的功能、解释和数据之间的点。机器学习(ML)越来越多地应用于电子健康档案(ehr),以解决临床预测任务。尽管许多ML模型表现良好,但模型透明度和可解释性的问题限制了它们在临床实践中的应用。在临床环境中直接使用现有的可解释的ML技术可能是具有挑战性的。通过文献调查和与6名平均有17年临床经验的临床医生的合作,团队确定了三个关键的挑战,包括临床医生不熟悉ML特征,缺乏相关信息,以及需要证书,从而设计和开发了VBridge,一个可视化分析工具,无缝地将ML解释融入临床医生的决策流程。该系统包括基于贡献的特征解释的新颖的层次显示和丰富的交互,将ML特征、解释和数据之间的点连接起来。通过两个案例研究和与四名临床医生的专家访谈,证明了VBridge的有效性,表明在视觉上将模型解释与患者情境记录联系起来,可以帮助临床医生在做出临床决定时更好地解释和使用模型预测。进一步得出了一份用于开发未来可解释的ML工具以支持临床决策的设计清单。

来自天津大学的贾世超报告的是面向零样本分类的视觉可解释可视化。零样本分类问题是一个非常有前途的研究问题,它解决的是测试集和训练集不相交的问题。要做到这一点,通常需要专家通过手工指定类属性矩阵来具体化他们的领域知识,定义哪些类具有哪些属性。设计合适的类属性矩阵是后续过程的关键,但是这个设计过程是乏味的,需要反复试验。团队提出了一种可视化的可解释主动学习方法,称为语义导航器来解决上述问题。这种方法促进了人类与人工智能的合作。在每个交互循环中有四个动作(询问、解释、推荐、回应)。机器会提出对比性的问题来指导人类,一种名为语义图的新型可视化技术解释了机器的当前状态。因此,分析人员可以更好地理解为什么机器会对物体进行错误分类。

来自华东师范大学的李晨辉报告的是基于密度字典学习的时空数据分布实时可视检索。时空数据的可视化查询正成为可视化分析应用中一个越来越重要的功能。为了实时查询大的时空数据,学者们已经提出了各种各样的工作。然而,时空数据分布的实时查询仍然是一个开放的挑战。随着时空数据的日益庞大,聚合、存储和查询方法变得至关重要。团队提出了一种新的可视化查询系统,该系统创建了一个低内存存储组件,并提供了时空数据的实时可视化交互。首先提出了一种基于峰值的核密度估计方法,用于生成时空数据的数据分布。在此基础上,提出了一种新的密度字典学习方法来压缩时间密度图,提高查询速度。此外,还提出了各种直观的查询交互。在三个数据集上的实验结果表明,该系统为时空数据的可视化分析提供了一种有效的查询方法。

评论关闭。