本文介绍了针对生物制药中一种多维多层次数据——筛选数据的可视分析系统。这个系统连接了现有的支持大量数据但是层次较高的系统和支持细节层次但是数据量支持有限的系统。
背景
药物研发是一个试错的过程。制药公司需要通过设置不同的细胞培养条件,大范围地测试化合物,从而发现可能治愈某种疾病的化合物。这种同时测试很多不同化合物的过程称为筛选(screen)。发现可能有效的化合物称为命中(hit),这些“命中”在传递给下一阶段的生物学家或者化学家时需要经过质量控制,降低错误率。
数据
筛选数据是多层次多变量的数据,并且它的层次较浅。

筛选实验示意
最高层次为筛选,一个筛选分成很多个微孔板(plate)。
一个微孔板是一个由若干孔(well)组成的矩阵,孔的坐标由横轴和纵轴坐标来表示
一个孔由一组细胞组成,每个孔被加入一种化合物。
一个细胞的物理状态被由自动方法处理图像,识别为为数值型的细胞特征(cell feature),通过若干特征的组合定义细胞的表现型(phenotype)。筛选者关心的不是单个细胞,而是表现型的数量和分布。
问题与挑战
高吞吐量筛选实验
比如在本文中,作者的合作者面对的实验中,往往有成百个微孔板,在不同的实验设置下,每个微孔板有384或者1536个孔,每个孔里有成百的细胞,因此细胞量级为百万以上。
高吞吐量筛选考察的是整个孔的特征,方法是在每个孔里加入多种荧光物质,不同的荧光物质针对不同的生理过程发出不同频段的光。每个孔的荧光数据就是一个多通道的数据。但由于是孔层次的聚合,筛选者缺少对细胞内部细节的感知。
高容量筛选实验
随着代价的降低,高容量筛选实验逐渐普遍。在高容量实验中,筛选系统拍摄高精度的孔的显微图像,通过自动方法,定位细胞,识别细胞的特征,计算这些特征的数值。根据细胞特征,细胞被分为若干类,每个类称为一个表现型。这些表现型可以由筛选者定义训练集,通过机器学习方法建模出表现型模型。通过观察每个孔里的表现型的组成情况,确定化合物的作用,这一过程称为命中建模(hit modeling)。
现有的系统,工业系统更倾向于孔层次的分析,有学术工作针对高容量筛选实验,但是缺少对高吞吐量的支持,而且只关注很小的一部分图像特征,这小部分特征的选取依赖于经验。而且,现有的系统分离地展示不同层次的数据,也不提供概览。因此需要有紧密的连接不同层次的筛选数据的可视化系统,并支持在不同层次进行建模。
目标和任务
目标
(1)表现型建模:建立和验证表现型模型,即哪些细胞特征如何组成表现型。
(2)命中建模:建立和验证命中模型,即怎样的表现型组合称为命中。
(3)质量控制:去除质量低的数据,从而避免错误的命中。
任务
(1)浏览和过滤层次:允许用户观察不同层次不同细节的数据;
(2)关联、检验和选取图像特征:观察特征对表现型的区分度,允许用户选择不同的特征组成表现型模型;
(3)定义表现型模型:支持交互定义表现型模型;
(4)应用表现型模型:根据定义的表现型模型去分类不同的表现型;
(5)可视化表现型模型:提供用户可视化检验模型的能力;
(6)定义命中模型:支持交互定义命中模型;
(7)应用命中模型:根据定义的命中模型去判断是否命中;
(8)可视化命中模型:提供用户可视化检验模型的能力。
分析流程
筛选层次->微孔板层次:从筛选实验数据集中选取某个微孔板;
微孔板层次->孔层次:选取某个孔,观察孔的显微图像;
孔层次->细胞层次(表现型):从显微图像中选取细胞集合作为某个表现型的训练数据,系统自动进行表现型分类;
细胞层次(表现型)->细胞层次(细胞特征):观察某些表现型在不同特征上的分布,以及所选择的训练集在不同特征上的值;
细胞层次(细胞特征)->细胞层次(表现型),孔层次,微孔板层次:在细胞层次(特征)发现用户感兴趣的特征后,可以回到之前的层次观察它是否可以定义新的表现型或者是否存在数据质量问题;
细胞层次(表现型)->孔层次,微孔板层次:用户选择需要保留或隐藏的表现型,命中模型只包括用户选择保留的表现型,然后用户可以进行命中模型的调节。
设计

界面
每个层次对应了界面中的一列,相邻层次的列相临近。同一时刻最多只有相邻的2列打开,其它列关闭,用来增加可供显示的像素。这样做符合筛选实验中用户只需要关心相邻2列的实际。每一列提供总览和细节视图。
筛选层次
最左侧列出了一些筛选数据集,用户可以选择其中的一个数据集。
微孔板层次
筛选数据集选取之后,微孔板层次的列就会展开。微孔板的列分为2部分:右上角是细节视图,其它则是总览。

微孔板层次
总览是一些热力图,从上至下,从左至右依次排列,每个热力图对应一个微孔板。热力图的每个格点对应一个孔,每个格点的颜色对应命中模型给出的分数,分数越高,颜色越深。每个热力图都有一个坐标,但是只有每一列的首尾会显示,这样做是为了紧凑显示。
总览中的一个热力图被点击之后,细节视图以更大的空间来显示对应的热力图。用户鼠标悬停在的格子(对应于孔)的坐标信息会显示细节视图外围。
孔层次
孔层次视图也包含总览和细节视图。

孔层次
总览视图位于左侧,包含三部分。上部是命中模型的函数设置图,用户调节函数形状来调节命中模型。下部左侧为按照命中模型得分从高到低进行排序的孔在不同表现型上的比例;右侧的折线图则是孔中细胞的总数。
细节视图位于孔层次视图右侧。下部显示不同位置的细胞图像,上部是孔的参数、过滤条件和图像形式选择
细胞层次(表现型)

细胞层次(表现型)
这个层次对应于表现型模型的建立。用户可以定义不同的表现型,系统自动为表现型分配数据。用户在孔层次的细节视图中点击细胞图片,为这个表现型选择训练数据。用户可以隐藏一些表现型,这样可以使得命中模型只是用其它定义的表现型进行建模。
细胞层次(细胞特征)

细胞层次(特征)
左侧从上到下列出了代表所有的特征不同表现型在这些特征上的分布情况的直方图。这些分布是在所有细胞上进行统计的。颜色对应于表现型的颜色。用户可以根据这些分布的分离情况观察不同特征对表现型模型的作用,点击特征名,选择进行表现型建模需要的特征。不同特征按照相似性大小进行组织,相似性较强则放置在相邻近的位置,一是因为缩减表现型模型的特征时,相似的特征往往不需要全部保留,可以加快用户选择的时间,而来在下面要介绍的平行坐标视图中,可以减少线的交叉。
中间是平行坐标图,展示用户选取的训练集中的每个细胞在所有特征上的值。用户可以检验他选择的训练数据,比如剔除特征值异常的细胞。
右侧是强度图矩阵。矩阵的每一格对应一个特征对的组合,上三角没有重复相同的图像,而是计算并展示了一个地形图。每个强度图中,颜色代表它对应的表现型在某个特征值对上拥有数量最多的分布。高亮的点对应用户选取的训练数据。用户也可以选择一个点,平行坐标上会显示这个点的特征的数值,细胞层次(表现型)中也会显示这个细胞的图像,这样用户可以进一步修正表现型模型。地形图是系统根据所有的特征进行多维标度(MDS)以后生成的投影图,目的是使得用户了解不同表现型在高维空间中的关系。
案例
作者们使用了CellMorph数据集上ELMO基因的例子,最后发现了6种表现型,和原始数据提供的8种表现型大部分重合,说明系统的有效。作者们还认为增加训练集数目可以提高模型精度。
总结
Screenit在高吞吐量和高容量筛选实验的可视化工具之间的鸿沟上建立起一座桥梁。并且非常重视细胞层次的特征部分。同时作者们还认为系统可扩展性还需加强来支持更大量的数据,并且这个系统目前专注于筛选的初期阶段,筛选的后续工作需要交由其它工具处理。
参考文献
[1] Dinkla K, Strobelt H, Genest B, et al. Screenit: Visual Analysis of Cellular Screens[J]. IEEE Transactions on Visualization and Computer Graphics, 2016, 23(1): 591-600.
评论关闭。