人类基因组长约2米,紧密折叠到每个细胞核中。这种存在方式导致相聚很远的基因组序列可以紧密地在空间上接近。生物学家分析发现,基因组序列在空间上的靠近行为与某些疾病的发生紧密相关。为更好地帮助领域专家分析基因组的构建,这篇文章[1]提出一个可视分析工具HiPiler(图1)。这个工具支持用户在非常巨大的矩阵中,分析少数模式(patterns)的特征。
图1. HiPiler系统界面图。左侧是总览图,展示完整的交互矩阵并显示模式的位置;右侧是提取的模式的分析视图
这个工作分析的数据是基因组的交互矩阵。图2描述了交互矩阵的构建过程。这个交互矩阵有3百万行和3百万列。通过算法,可以提取出上千个模式。模式检测算法可以有效地减少数据量。但目前业界没有标准的模式集,难以判断算法检测出的模式是否正确。同时,在没有上下文的情况下,理解这些模式是相当困难。因此,可视分析在基因组交互分析中起着非常重要的作用。
图2. 基因组交互矩阵构建过程。DNA(2.1)分析以紧密折叠的方式存在于细胞核中(2.2)。这种紧密折叠方式,出现了一些基因序列在空间上靠近的(共同出现的)现象(2.3)。通过分析上百万个细胞核中DNA的折叠方法,领域专家构建了基因组交互矩阵。每个单元表示两个相关的基因组共同出现的情况,颜色表示它们共同出现的频率(2.4和2.5)。
为支持领域专家评估模式检测算法的检测效果,理解模式的含义及作用,比较不同情况下,模式的异同,这个工作实现了一个可视分析工具HiPiler(图1)。他们将算法检测的模式从巨大的交互矩阵中提取出来,当作是用户直接分析的实体(文章称之为snippet),进行分析探索。系统支持用户对这些模式进行过滤,聚集,堆叠等丰富的交互方式,对模式的特征进行探索分析(图3)。
图3. HiPiler系统支持的探索方式。从左至右依次是从矩阵中提取算法检测的模式,称之为snippets,根据数据的属性对模式进行排序,聚类或是将相似的模式堆叠起来。
总的来说,这个工作提出一个可视分析工具HiPiler,帮助生物学家从巨大的基因组交互矩阵中分析基因组的交互模式。
[1] F. Lekschas, B. Bach, P. Kerpedjiev, N. Gehlenborg and H. Pfister, “HiPiler: Visual Exploration of Large Genome Interaction Matrices with Interactive Small Multiples,” in IEEE Transactions on Visualization and Computer Graphics, vol. 24, no. 1, pp. 522-531, Jan. 2018. doi: 10.1109/TVCG.2017.2745978
评论关闭。