可变剪切使得单个基因能够产生多个转录本,是一种广泛存在的转录调控现象。在所有的剪切类型中,内含子保留事件作为动植物中最普遍的剪切类型,对其的研究仍相对较少。深度神经网络已经成为探索复杂生物现象的首选工具。这些模型的一个显著性优势就是它们能够直接从序列水平中捕获数据集中潜在的模式;并且在TF结合位点预测、染色质可及性分析、染色质结构与修饰预测等方面发挥作用。在最近的研究中发现,基因的表达与剪切可能是共转录的;这说明染色质的状态、转录因子可能会影响基因的剪切。2023年3月22日,来自美国科罗拉多州立大学的Asa Ben-Hur团队在Genome Biology上发表了题为“Evidence for the role of transcription factors in the co-transcriptional regulation of intron retention”的研究论文。研究人员通过使用深度学习模型对保留内含子和非保留内含子区域中的染色质开放程度进行学习,确定了在IR事件中主要富集了zinc-finger家族转录因子的motif。通过对多个zinc-finger家族转录因子ChIP-seq数据分析,证明了这些区域中存在真实的结合位点。这项工作为进一步阐明转录因子影响内含子保留和其他剪切形式的机制提供了新的见解。可变剪切是真核生物中广泛存在的调控现象,它使得单个基因就能够编码出结构与功能不同的转录本。可变剪切最主要的类型包含外显子跳跃、内含子保留、可变的5’端和可变的3’端。许多致病位点通常导致基因的剪接异常,形成内含子保留;例如在抑癌基因中存在遗传变异导致基因剪切遗传,从而导致疾病的发生。近年来,人们一直想要了解IR的调控机制以及其影响因素。例如,Braunschweig等人通过对IR潜在影响因素的研究,构建了一个预测IR调节序列的模型;但是该模型的局限性在于它不能够模拟出有利于IR发生的调节序列。最近一些研究也揭示了染色质状态对外显子跳跃和内含子保留方面存在的调控的作用. Mercer等人也发现存在更高数量DHS的外显子通常有更多的可变剪切事件发生。为了进一步了解转录因子在剪切调控中的作用,研究人员使用ChIP-seq数据研究了zinc-finger家族转录因子在整个基因组内结合位点。通过比较这些转录因子在基因区域和基因间区的peak数目,发现更多的peak富集在基因区域,这说明了这些转录因子不单单是调控基因的表达可能还参与到了其他更复杂的调控(图1)。图1:几种转录因子peak数目的统计。在本研究中,研究人员证明该深度学习模型可以非常准确的将IR相关的开放染色质区域与其他开放染色质区域进行区分。通过对开放区域的motif分析发现与IR相关的特定TF家族,主要是锌指家族成员;通过多个锌指家族的ChIP-seq实验,也证明了这些位点的结合活性。为了鉴定通过与染色质状态偶联的具有调控IR的调节元件;作者训练和评估了纯卷积的深度学习模型,以区分与IR相关的DHS和非IR相关的DHS(图2)。