费城儿童医院(CHOP)的一个研究小组开发了一种创新的计算工具,为研究人员提供了一种有效的方法,用于检测从DNA复制时RNA拼接在一起(拼接)的不同方式。由于RNA剪接方式的变化在许多疾病中发挥着至关重要的作用,这种新的分析工具将为发现疾病生物标志物和治疗目标提供更大的能力,甚至可以从覆盖范围适中的RNA测序数据集中获得。
研究负责人易兴博士,CHOP计算与基因组医学中心主任,第一作者和博士生ZijunZhang和ZhichengPan本周在自然方法方面报道了他们的DARTS框架。DARTS(TranscriptSplicing的深度学习增强RNA-seq分析)使用基于深度学习的预测来利用RNA测序(RNA-seq)的公共数据集中可用的大量信息,从而允许对可变剪接的新见解。
“DARTS的概念创新是它提供了一个桥梁,从公共领域的大数据到与个体研究者进行重点研究的小数据集,”Xing说。“DARTS提供了将大量公共RNA-seq数据转换为知识库(表示为深度神经网络)如何调节剪接的能力。使用这种计算框架,我们可以将其推送到任何单个实验室。这可能是非常有用,可以提高实验效率并实现新发现。只需要2千万或3千万个RNA-seq读数,您就可以对过去从未见过的事情做出有根据的猜测和推论。“
Xing长期以来一直致力于选择性剪接-将单个基因的DNA信息以不同方式拼接在一起,在基因转录后产生不同的信使RNA和蛋白质产物。每个基因平均产生10个或更多这样的产品,有时多达38,000个。选择性剪接的这些变异可能导致疾病,改变疾病风险,或使疾病更温和或更糟。
大规模平行RNA测序现在是研究人员用于研究可变剪接的标准技术。然而,为了准确测量可变剪接,RNA测序实验必须非常深入。一致认为,分析选择性剪接需要超过1亿个序列,但由于成本高,大多数研究人员无法承担他们的RNA测序实验。此外,许多医学上重要的基因不以高水平表达。即使是深度RNA测序实验也无法对这些基因产生足够的覆盖率,因此几乎不可能测量基因的可选剪接模式。
在目前的研究中,Xing的团队首先利用来自国家人类基因组研究所发起的国际计划ENCODEConsortium等来源的大规模公共领域RNA测序数据来识别基因组中的所有功能元件,包括那些在RNA水平起作用的人。使用这些海量数据集,DARTS训练深度神经网络来预测可变剪接的变化。该模型包含1,500个RNA结合蛋白的信使RNA(mRNA)水平和3,000个序列特征。
为了让研究人员在他们自己的研究中使用深度学习模型,深度神经网络预测与使用称为贝叶斯假设检验的统计框架在特定生物样本上生成的实际RNA测序数据相结合。研究人员可以在他们各自的实验室中使用这些信息,以更好地表征不同生物条件下的可变剪接。
研究人员将DARTS应用于肺癌和前列腺癌细胞系,以测试其预测细胞剪接模式的能力。这些细胞系是从上皮细胞向间充质细胞过渡的模型-胚胎发育和癌症转移的重要过程。通过利用深度学习预测,DARTS发现了许多基因中可变剪接模式的变化,这些基因逃脱了传统计算工具的检测,因为这些基因在细胞中以低水平表达。研究小组随后进行了实验以验证这些新颖的预测。这些新发现可能使科学家能够更好地识别疾病的生物标志物和治疗靶点。
“DARTS提供了一个令人兴奋的概念框架,我们可以适应其他用途,”Xing补充说。“例如,我们可能会创建一个预测特定患者组织中可变剪接的版本。”这可能有助于改善组织活检对罕见疾病的诊断,这是一种用于CHOP等儿科中心的有用技术,通常可以评估儿童患有疑似,未确诊的疾病。
邢总结说,DARTS可以让科学家们更多地发现未被研究的基因的贡献,这些基因可能不会在高水平表达,但对健康和疾病有重要影响。“DARTS为转录组的暗物质提供了一个新窗口,”他说。