您的位置:首页 >国内科研 >

麻省理工Nature发文:预测基因调控进化的“预言家”

时间:2022-03-11 00:00:00 来源:网络整理

尽管每个人类细胞包含的基因数量非常多,但这些所谓的“编码”DNA序列只占我们整个基因组的1%。剩下的99%由“非编码”DNA组成——与编码DNA不同,非编码DNA不携带构建蛋白质的指令。

这种非编码DNA的一个重要功能,也被称为“调节”DNA,是帮助启动和关闭基因,控制蛋白质的制造量(如果有的话)。随着时间的推移,当细胞复制它们的DNA来生长和分裂时,这些非编码区经常会出现突变——有时会调整它们的功能,改变它们控制基因表达的方式。这些突变中有许多是微不足道的,有些甚至是有益的。不过,偶尔也会与常见疾病(如2型糖尿病)或更危及生命的疾病(包括癌症)的风险增加有关。

为了更好地理解这种突变的影响,研究人员一直在努力绘制地图,以便观察一个生物体的基因组,预测哪些基因将被表达,并确定这种表达将如何影响生物体的可观察特征。这些地图被称为“健康图谱”(fitness landscapes),大约在一个世纪前被概念化,目的是了解基因构成是如何影响一个常见的生物体健康衡量标准:繁殖成功率。早期的适合度环境非常简单,通常只关注有限数量的突变。现在有更丰富的数据集可用,但研究人员仍然需要额外的工具来描述和可视化这些复杂的数据。这种能力不仅有助于更好地理解单个基因是如何随着时间的推移而进化的,而且还有助于预测未来可能发生的序列和表达变化。

在3月9日发表在《自然》(Nature)杂志上的一项新研究中,一组科学家开发了一个研究调控DNA健康状况的框架。他们创建了一个神经网络模型,在经过数亿次实验测量后,该模型能够预测酵母中这些非编码序列的变化如何影响基因表达。他们还设计了一种独特的方式,以二维形式呈现景观,使人们更容易理解酵母以外的生物的非编码序列的过去和预测未来的进化,甚至为基因疗法和工业应用设计定制的基因表达模式。

“我们现在有了一个可以询问的‘预言家’:如果我们尝试了这个序列的所有可能的突变会怎么样?”或者,我们应该设计什么样的新序列来给我们想要的表达? 科学家们现在可以用这个模型来解决他们自己的进化问题或设想,以及其他问题,比如制作控制基因表达方式的序列。我也对机器学习研究人员对可解释性感兴趣的可能性感到兴奋;他们可以反过来问问题,以便更好地理解潜在的生物学原理。”麻省理工学院的生物学教授Aviv Regev说。

在这项研究之前,许多研究人员只是简单地训练他们的模型在自然界中存在的已知突变(或其中的微小变异)。然而,Regev的团队想要更进一步,通过建立他们自己的无偏模型,能够基于任何可能的DNA序列——甚至是他们以前从未见过的序列——预测生物体的适应性和基因表达。这也将使研究人员能够利用这些模型来设计细胞用于制药目的,包括癌症和自身免疫性疾病的新疗法。

为了实现这一目标,麻省理工学院研究生Eeshit Dhaval Vaishnav和共同第一作者、现为英属哥伦比亚大学助理教授的Carl de Boer创建了一个神经网络模型来预测基因表达。他们在一个数据集上训练它,这个数据集是通过将数百万个完全随机的非编码DNA序列插入酵母中生成的,并观察每个随机序列如何影响基因表达。他们专注于非编码DNA序列的一个特定子集,称为启动子,它是蛋白质的结合位点,可以打开或关闭附近的基因。

Regev说:“这项工作突出表明,当我们设计新的实验来生成正确的数据来训练模型时,将会出现什么样的可能性。从更广泛的意义上说,我相信这类方法对许多问题都很重要——比如了解人类基因组中赋予疾病风险的调控区域的遗传变异,以及预测突变组合的影响,或设计新的分子。”

Regev、Vaishnav、de Boer和他们的合著者继续以各种方式测试他们的模型的预测能力,看看它如何有助于揭开某些促进因子进化的过去和可能的未来的神秘面纱。“创建一个准确的模型当然是一项成就,但对我来说,这真的只是一个起点,”Vaishnav解释道。

首先,为了确定他们的模型是否有助于合成生物学的应用,如生产抗生素、酶和食物,研究人员实践使用它来设计可以为任何感兴趣的基因产生所需表达水平的启动子。然后,他们查阅了其他的科学论文,以确定基本的进化问题,以便看看他们的模型是否能帮助回答这些问题。该团队甚至还从一项现有研究中获取了真实世界的人口数据集,这些数据集包含了世界各地酵母菌株的遗传信息。通过这样做,他们能够描绘出过去数千年的选择压力,这些压力塑造了今天的酵母基因组。

但是,为了创造一种可以探测任何基因组的强大工具,研究人员知道,他们需要找到一种方法来预测非编码序列的进化,即使没有这样一个全面的种群数据集。为了实现这一目标,Vaishnav和他的同事设计了一种计算技术,允许他们将预测从他们的框架绘制到一个二维图表上。这帮助他们以一种非常简单的方式展示了任何非编码DNA序列是如何影响基因表达和适应性的,而不需要在实验室进行任何耗时的实验。

Vaishnav解释说:“适应度图谱的一个未解决的问题是,我们没有一种方法,以一种有意义地捕捉序列进化特性的方式将它们可视化。”“我真的很想找到一种方法来填补这一空白,并为创建一个完整的健康环境这一长期愿景做出贡献。”

研究表明,人工智能不仅可以预测监管DNA变化的影响,也揭示出其潜在的原则管理数百万年的进化历程。

尽管这个模型在一些生长条件下只对酵母调控DNA的一小部分进行训练,但让人印象深刻的是,它能够对哺乳动物基因调控的进化做出如此有用的预测。

“近期有明显的应用,比如在酿造、烘焙和生物技术中为酵母定制调节DNA的设计。但这项工作的扩展也可以帮助识别人类调控DNA中的疾病突变,这些突变目前很难发现,而且在临床上大多被忽视。”这项工作表明,在更丰富、更复杂、更多样化的数据集上训练的人工智能基因调控模型有着光明的未来。”

甚至在这项研究正式发表之前,Vaishnav就开始收到其他希望使用该模型设计用于基因治疗的非编码DNA序列的研究人员的询问。

Vaishnav说:“几十年来,人们一直在研究调节进化和健身状况。我认为我们的框架将在回答有关基因调控DNA的进化和可进化性的基本、开放的问题上走很长的路,甚至帮助我们设计令人兴奋的新应用的生物序列。”

Journal Reference:

Eeshit Dhaval Vaishnav, Carl G. de Boer, Jennifer Molinet, Moran Yassour, Lin Fan, Xian Adiconis, Dawn A. Thompson, Joshua Z. Levin, Francisco A. Cubillos, Aviv Regev. The evolution, evolvability and engineering of gene regulatory DNA. Nature, 2022; DOI: 10.1038/s41586-022-04506-6m (accessed March 9, 2022).


郑重声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。