您的位置:首页 >国内科研 >

Science发文:新冠病毒的未来是什么?通过计算机模型预测SARS-CoV-2主要突变体

时间:2022-07-26 10:20:10 来源:网络整理

麻省理工学院布罗德研究所、哈佛大学和马萨诸塞大学医学院的科学家开发了一种机器学习模型,可以分析数百万个SARS-CoV-2基因组,并预测哪些病毒变异可能会主导并导致COVID-19病例激增。这个名为pyR0(发音为pie-are- none)的模型可以帮助研究人员识别病毒基因组的哪些部分不太可能变异,从而成为疫苗的良好目标,从而对抗未来的变异。

这些发现发表在Science杂志上。

研究人员使用2022年1月GISAID数据库中的600万个SARS-CoV-2基因组训练了机器学习模型。他们的工具也可以评估基因突变对病毒适应度的影响——它在一个种群中繁殖和传播的能力。当该团队从2022年1月开始在病毒基因组数据上测试他们的模型时,预测了BA2变异的增加,这种变异在2022年3月在许多国家成为主流。pyR0也将在2020年11月底之前识别出alpha变种(B.1.1.7),比世界卫生组织将其列为令人担忧的变种早一个月。

该研究团队包括第一作者Fritz Obermeyer,以及资深作者Jacob Lemieux,Broad研究所的成员pardis Sabeti。

pyR0基于名为pyro的机器学习框架,该框架最初是由Uber AI Labs的一个团队开发的。2020年,该团队的三名成员,包括Obermeyer和该研究的第二作者Martin Jankowiak,加入了Broad研究所,并开始将该框架应用于生物学。

Lemieux说:“这项工作是生物学家、遗传学家、软件工程师和计算机科学家共同努力的结果。”“我们能够解决公共卫生中一些真正具有挑战性的问题,任何单一的学科方法都无法单独回答这些问题。”

Sabeti说:“这种基于机器学习的方法可以查看所有数据,并将其组合成一个单一的预测,这是非常有价值的。”“它让我们在识别正在出现的潜在威胁方面占据优势。”

新冠病毒的未来

自大流行早期以来,世界各地的研究人员一直在努力预测不同的SARS-CoV-2病毒变异的适应度。但是以前的模型不能同时比较所有的变异,或者只需要花费几天的时间来处理几千个基因组。

相比之下,pyR0可以在大约一个小时内分析数百万个基因组——所有公开的SARS-CoV-2数据。它通过将相似的序列组合在一起,然后根据它们共享的突变群来定义基因组的“集群”。pyR0专注于突变,这种突变可以出现在多种变异中,因此它比专注于病毒变异的模型具有更大的统计能力。

接下来,该模型确定哪些突变变得更常见,并估计每个突变导致病毒传播的速度。它还根据基因组成来估计不同变异病例的增长速度。

通过确定哪些突变对特定变异的适应度重要,该模型还为COVID-19的传播和发展提供了生物学见解。例如,了解关键的突变可以帮助科学家预测新的变异是否更具有传染性或逃避中和抗体,也可以帮助他们决定更详细地研究哪些突变。

“SARS-CoV-2基因组现在积累了许多突变,因此检测所有突变组合变得极具挑战性,这种分析的优势在于,它从整体上看整个基因组,可能会指出在实验室中受到较少关注的突变或变异。”

早期预警

研究人员说,他们的研究表明,当前病毒适应性的增加源于病毒逃避免疫反应的能力。他们还说,公共卫生官员在对变异的序列和特征发出预先警告后,可以实施具体措施来管理病例计数。而且知道哪些突变有助于变体的生存,可以帮助科学家为未来的疫苗选择更好的靶点。

这种或类似模型的新版本可以通过考虑突变之间的相互作用进一步提高预测。研究人员说,随着进一步的工作,他们的模型可以帮助监测其他有足够基因数据的病毒。

“我们拥有的大量数据,加上我们开发的方法,使我们能够实时看到病毒在世界各地不同地点的演变,这是在以前的疫情中不可能做到的。在1917年,人们只知道自己是否得了流感。现在,我们有了数千种不同的SARS-CoV-2亚谱系的非常精确的视图。这是惊人的!”

原文标题:

Analysis of 6.4 million SARS-CoV-2 genomes identifies mutations associated with fitness


郑重声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。