您的位置:首页 >生物新闻 >

《Nature Methods》利用长DNA测序识别细菌物种的分析软件

时间:2022-07-26 10:16:03 来源:网络整理

Emu,他们的微生物群落分析软件,通过利用跨越整个研究基因长度的长DNA测序,有效地识别细菌物种。

Emu项目由计算机科学家Todd Treangen和莱斯大学工程学院的研究生Kristen Curry领导,该项目有助于对微生物组的关键基因进行分析,研究人员使用该基因来分类对人类和环境有害或有益的细菌物种。

他们的目标16S是rRNA(核糖体核糖核酸)基因的一个亚基,该基因是由Carl Woese在1977年率先使用的。这一区域在细菌和古菌中高度保守,也包含对区分不同的属和物种至关重要的可变区域。

“它通常用于微生物组分析,因为它存在于所有细菌和大多数古菌中,”在Treangen小组的第三年,Curry说。“正因为如此,这些地区多年来一直被保护,很容易成为攻击目标。在DNA测序中,我们需要在所有细菌中有相同的部分,这样我们就知道要寻找什么,然后我们需要有不同的部分,这样我们可以区分细菌。”

莱斯研究小组与来自德国、休斯顿卫理公会研究所、贝勒医学院和德克萨斯儿童医院的合作者共同进行的这项研究发表在《Nat Methods》杂志上。

“多年前,我们倾向于关注有害细菌——或者我们认为有害的细菌——我们并不真正关心其他细菌,”Curry说。“但在过去的20年里,情况发生了变化,我们认为可能一些其他细菌存在有意义。

“这就是我们所说的微生物群,一个环境中的所有微生物,”她说。“通常被研究的环境包括水、土壤和肠道,微生物已经显示出会影响作物、碳封存和人类健康。”

Emu,这个名字源于它的“期望最大化”任务,它分析由牛津纳米孔MinION手持测序仪处理的细菌的全长16S序列,并根据九个不同的“高变量区域”使用复杂的错误修正来识别物种。

“在以前的技术下,我们只能读取16S基因的一部分,”Curry解释说。“它大约有1500个碱基对,通过短读测序,你只能对这个基因的25%-30%进行测序。然而,你真的需要全长基因来达到物种水平的精确度。”

但即使是最新的技术也不是完美的,这使得错误渗入序列。

“尽管近年来错误率有所下降,但它们在单个DNA序列内的错误率仍可能高达10%,而物种可以通过16S基因的少量差异来区分。”计算机科学助理教授Treangen说,他专门研究传染性疾病。“从真正的差异中区分测序误差是这个研究项目的主要计算挑战。

“其中一个问题是,很多误差是非随机的,这意味着它可以在特定位置反复发生,然后开始看起来像真正的差异,而不是排序错误,”他说。

Treangen说:“另一个问题是,在一个给定的样本中可能有数千种细菌,形成了一种复杂的微生物混合物,它们可以在远远低于测序错误率的情况下大量存在。这意味着我们不能简单地依靠特别的切断来区分信号和错误。”

相反,Emu学会了通过比较大量的长序列来区分信号和错误,首先与模板进行比较,然后相互比较,在描述微生物群落的过程中不断改进错误修正。在执行的实验中,在分析相同数据集时,与其他方法相比,Emu的假阳性显著下降。

Treangen说:“长读技术代表了微生物组研究的颠覆性技术。Emu的目标是利用整个16S基因中包含的所有信息,不掩盖任何东西,看看我们是否可以实现更准确的属或物种级别的识别。这正是我们与Emu合作所取得的成果,这要归功于多学科合作的成果。”

Curry, K.D., Wang, Q., Nute, M.G. et al. Emu: species-level microbial community profiling of full-length 16S rRNA Oxford Nanopore sequencing data. Nat Methods, 2022


郑重声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。