真核生物的染色质高级结构一般可以划分为染色体疆域(chromosome territory)、染色质区室(chromatin compartment)、拓扑关联结构域(topologically associating domain, TAD)和染色质环(chromatin loop)。其中,TAD是染色质高级结构中的关键组成部分,对于理解基因组的空间高级结构和基因转录调控起着重要作用,而TAD的边界对于染色质空间结构的稳定性至关重要。但是,目前尚无运算高效、使用友好的软件工具用于不同物种间或种内TAD的比较分析。随着大量物种的高质量基因组序列组装完成和三维基因组学的不断发展,亟需开发软件用于比较三维基因组或泛三维基因组研究中的TAD分析。
近日,华中农业大学棉花遗传改良团队在Bioinformatics上发表文章Tcbf: A novel user-friendly tool for pan-3D genome analysis of topologically associating domain in eukaryotic organisms。该研究开发了一个新的软件(Tcbf),用于发掘三维基因组研究中多物种TAD边界的保守关系。通过将不同物种的TAD边界作为节点,利用同源基因和共线性片段相结合的方式连接TAD边界节点构建图,并通过聚类得到每个TAD边界在其他物种中的同源关系。结果表明,Tcbf可以快速将不同物种的TAD边界联系起来,使研究人员可以更好地理解TAD边界的保守性。
作者利用人类、猕猴、小鼠的Hi-C数据对Tcbf的计算效率进行了测试,与已有的软件相比,Tcbf的效率显著提升。在保持输出结果高度一致、相同的计算资源下,计算时间从53小时降低到约30分钟,内存占用从46.7GB降低到11.7GB,显著提升了计算效率。
为了研究不同物种之间TAD边界的保守性,作者在12种脊椎动物的数据中鉴定了68个保守的TAD边界和141个人类基因组特异的TAD边界,发现人类特异的TAD边界聚集在着丝粒区域,尤其在2、8、12号染色体上。同时,在14个植物中鉴定保守的TAD边界,发现大多数TAD边界在同一个科的植物中是保守的。
图1. Tcbf的设计流程和在不同物种中的测试效果
近年来,该团队在棉花三维基因组领域取得了突出的科研进展:首次在植物中开展泛三维基因组研究,并阐明了转座子驱动的棉属基因组大小变化和染色质高级结构重塑之间的演化关系(Nature Genetics, 2022; Molecular Biology and Evolution, 2021);揭示了棉花异源多倍化后亚基因组染色质高级结构的演化特征,并解析了亚基因组协作调控棉花纤维发育的拓扑结构基础(Nature Plants, 2018; Genome Biology, 2022; Plant Biotechnology Journal, 2022);受邀撰写植物三维基因组研究综述,展望了未来的发展方向(New Phytologist, 2021)。该研究拓展了前期工作,为动植物比较三维基因组和泛三维基因组研究提供了有力的工具。
华中农业大学棉花遗传改良团队2023年已毕业硕士研究生贺鑫为论文第一作者,王茂军教授为通讯作者,张献龙教授对研究工作给予了重要指导。该研究得到国家重点研发计划青年科学家项目和国家自然科学基金的资助。