NBT | 一种构建图形泛基因组的新方法“Minigraph-Cactus”

泛基因组是指一个种群或物种的所有序列。泛基因组中,个体基因的存在和缺失为理解群体中的基因提供了丰富的信息。泛基因组可以通过整个基因组的变异来呈现,而不仅仅是基因。由于与基于单一参考的方法相比,泛基因组可以减少重测序项目中的参考基因组偏差,因此近年来泛基因组得到飞速发展。三代测序技术的进步使得基因组的质量越来越高,从而使得在其全基因组的背景下研究变异成为可能。最近使用基于单一参考基因组的变异研究出现了两个问题,第一:依赖单个参考基因组可能是偏差的来源,特别是对于重测序项目;第二:结构变异的展示方式是一个很大的挑战。图形化泛基因组的运用和对应的软件的开发旨在解决上述问题。
近日,美国加州大学Benedict Paten研究组在Nature Biotechnology发文题为“Pangenome graph construction from genome alignments with Minigraph-Cactus”的文章,作者开发了一个名为Minigraph-Cactus的工具,这是一个新的泛基因组学分析流程,它将minigraph的快速参考基因组到图的映射与Cactus的比对结合起来,同时结合了vg中的几项关键改进。用此工具,作者构建了许多脊椎动物的图形泛基因组。这些图形泛基因组,除了可以在所有分辨率下展示变异外,还提升了短读和长读映射、变异调用和结构变异分型的研究水平。
Minigraph-Cactus泛基因组构建流程已经被添加到Cactus软件中。它可以在本地运行,也可以通过集群上的分布式计算运行。该流程由五个步骤组成,可以单独运行或在单个工作流中一起运行,如图1b所示。这些步骤可以生成以图形片段组装(graphical fragment assembly:GFA)格式和VCF格式的图形泛基因组。该流程将基因组组装结果(以FASTA格式表示)作为输入,输出图形化泛基因组、基因组比对结果、VCF文件以及使用vg Giraffe进行映射所需的索引。
《NBT | 一种构建图形泛基因组的新方法“Minigraph-Cactus”》
图一:基于Minigraph-Cactus 构建图形泛基因组。

接下来,作者利用HPRC联盟发布的44个二倍体基因组数据,构建了一个包含90个单倍体基因组的图形泛基因组图谱。其中,对于GRCh38和CHM13(版本1.1)作为参考基因组进行比较。作者发现,基于CHM13的图形泛基因组包含更多具有高度变异性的区域,如chr21的短臂上的复杂区域,这使得它比基于GRCh38的图形泛基因组略大一些。构建出的图形泛基因组比minigraph的结构变异多了大约200倍的节点和边。图2a反映了泛基因组图谱中存在于不同基因组中但不在参考基因组中的序列数量随基因组数目的变化情况。作者还比较了VCF表示的图形泛基因组与Hi-Fi reads映射到GRCh38产生的变异,精确度和重复性都很高。
《NBT | 一种构建图形泛基因组的新方法“Minigraph-Cactus”》
图二:评估基于GRCh38和基于T2T-CHM13的人类泛基因组图谱。

PanGenie是一种用于使用短读数据对人类结构变异进行基因分型的工具。它使用隐马尔可夫模型 (HMM),将来自泛基因组中已知单倍型的信息(由VCF表示)与来自短读数据的k-mers结合起来以推断基因型。作者通过对来自1000基因组计划的368个样本队列进行基因分型来评估这一过程,这些样本包括随机选择的20个三联体,以及图中存在的样本。作者在三个不同的图形泛基因组上独立重复了这个过程。结果显示在图3a中,它显示了不同类型变异基因型的一致性,从Minigraph-Cactus HPRC图形泛基因组可以看出,所有类型结构变异的准确性比人类基因组结构变异联盟(HGSVC)高得多。
《NBT | 一种构建图形泛基因组的新方法“Minigraph-Cactus”》
图三:比较泛基因组结构变异的分型。

作者创建了一个果蝇泛基因组来证明 Minigraph-Cactus 对非人类生物的适用性。作者使用了16个参考基因组,基因组大小范围从132Mb到144Mb。作者构建了个五个图形泛基因组。其中,泛基因组的构建大约需要 5 小时,对于渐进式Cactus比对大约需要 19 小时。与人类一样,向结构变异图谱中添加base-level的变异会使节点和边的数量增加大约两个数量级。Minigraph-Cactus 泛基因组的“核心”基因组大小为 110Mb,大约是泛基因组总大小的一半。这表明了样本之间具有较高的序列多样性:已知转座子(TE)插入在果蝇中很丰富。这种多样性也显示在图4a中,图中显示了非参考序列的数量与其存在的最小样本数之间的关系。
《NBT | 一种构建图形泛基因组的新方法“Minigraph-Cactus”》
图四:果蝇的泛基因组。

总的来说,作者开发了Minigraph-Cactus泛基因组构建流程,它直接从全基因组比对开始创建泛基因组,并展示了它构建来自人类泛基因组参考联盟的90个人类单倍型泛基因组的能力。该方法构建了包含所有形式的遗传变异的图形化泛基因组,同时可以使用基因分型工具进行基因分型。作者还评估了用于泛基因组分析的参考基因组的质量和完整性对泛基因组构建的影响,并表明使用T2T联盟的CHM13参考提高了作者开发流程的准确性。最后,作者还利用这一流程构建了果蝇的图形化泛基因组。
文章来源:植物生物技术Pbj
《NBT | 一种构建图形泛基因组的新方法“Minigraph-Cactus”》
点赞

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注