获评Nature Methods年度技术,长读长测序如何影响肠道研究?
Vivien Marx 2023-02-11
长读长测序技术将为我们带来无限可能。

近期,Nature Methods杂志发布了2022年年度最佳方法,长读长测序技术(Long-read sequencing)荣获这一荣誉。那么长读长技术在生命科学领域有哪些应用呢?又可以如何助力肠道研究呢?

今天,我们共同关注长读长测序技术。希望本文能够为相关的产业人士和诸位读者带来一些启发和帮助。

长读长测序技术

令生命科学领域的科学家们兴奋的是,测序仪输出的reads(读长)变得越来越长。Reads可能是被测序的DNA或RNA序列,未来有一天也可能会是高精度的完整基因组、转录组和表观基因组,甚至可能是蛋白质的氨基酸序列。

关于长读长技术如何助力基因组学项目,研究者们有着许多值得分享的事。一些公司推动了这一进程,特别是太平洋生物科学公司(Pacific Biosciences, PacBio)和牛津纳米孔技术公司(Oxford Nanopore Technologies, ONT)。最近,其他提出长读长方法的公司包括Element Biosciences、Illumina和MGI。Ultima Genomics和其他公司在这方面也有计划。

长读长支持了各个实验室发表的大量研究,涉及的重大成果包括脊椎动物基因组计划(Vertebrate Genomes Project, VGP)和端粒到端粒联盟(Telomere-to-Telomere Consortium, T2T)1

美国国立卫生研究院(NIH)国家人类基因组研究所(NHGRI)的研究员、T2T联盟的联合负责人Adam Phillippy表示,在T2T项目期间,他和他的同事们处理的最长读长有100万个碱基对。

人类泛基因组参考联盟(HPRC)正在使用长读长测序技术2-4。加州大学圣克鲁斯分校研究员Karen Miga,他与Phillippy共同领导T2T联盟并且是HPRC的一份子。Karen表示,HPRC团队希望组装一个与T2T完成水平相当的人类基因组,并从等位基因多样性的角度更好地了解人类遗传多样性。

麻省总医院医学部的首席基因组学官,同时也是麻省理工学院(MIT)和哈佛大学Broad研究所临床研究测序平台的医学主任——Heidi Rehm表示,完成这一目标需要来自不同种群的群体数据。

她和她的同事们发现,尽管缺乏足够的遗传变异证据支持,但是黑人却会获得关于心脏病风险的信息5。Rehm说,关于这些突变情况的人口数据一直缺乏,而且目前这类数据仍然有限。

一个正在进行的以人口和多样性为重点的项目涉及500人,这500人来自10个不同的澳大利亚原住民社区。研究人员征得这些社区的同意后在社区人员的参与下采集样本。根据这些个体的数据,代表每个原住民社区的基因组将进行端粒到端粒的组装。科学家们利用PacBio和ONT测序仪的长读长以及Illumina短读长技术进行全基因组测序。

澳大利亚国立大学国家原住民基因组学中心的Hardip Patel与加文医学研究所的Ira Deveson共同参与了该项目,他们表示:“端粒到端粒测序的最佳技术目前还没有定论。”测序技术本身正在迅速变化。Patel表示,2023年,科学家们将重新审视他们对技术的选择。技术选择塑造了长读技术迄今为止取得的成就,并为长读长测序的未来增添了新色彩。

图. NIH NHGRI研究人员Elaine Ostrander表示,考虑到需要多个参考序列来表示不同的犬科动物,对犬科动物群的长读长测序工作产生了巨大影响。

长读长的应用

洛克菲勒大学、霍华德·休斯医学研究所的研究员Erich Jarvis说,长读长测序大大减少了基因组组装中存在的缺口。这项技术给他项目带来的生物学好处包括更准确地评估基因复制及其同源性,从而对基因家族的进化有更深入地了解。

他提到了亨特学院研究员、洛克菲勒大学客座教授Constantina Theofanopoulou的工作。长读长测序帮助她解析了催产素和血管加压素配体以及受体家族的进化史。她和她的团队通过研究相关基因附近长而保守的基因块,确定了不同物种间的同源基因。她说:“用短读长技术进行可靠的远距离共线性分析是不可能的。”

NIH NHGRI的Elaine Ostrander参与了狗基因组计划(Gog Genome Project)中的多项研究,他表示,长读长测序对更大的犬科动物群体产生了巨大影响。这种影响源于这样一个事实,即需要多个参考序列来代表不同的犬科动物——狼、土狼和家犬等。考虑到它们不同的历史,不同分支的家犬也必须有代表性。她说,用长读长方法研究狗,有助于了解驯化过程,从而揭示人类迁徙。

“虽然可以用来自世界各地的多种犬科动物组装而成的序列并将这些信息与家犬的序列进行比对来解决问题,”Ostrander说,“但是在研究野生犬科动物或古代犬科动物时,这本来就很容易出错,特别是当它涉及到许多犬科动物驯化的地点和时间的时候,很难准确地反映历史。”

Jarvis说,长读长测序使得测量跨染色体的基因网络相互作用成为可能。这些读长捕获了富含G+C的区域,这些区域主要存在于基因调控区域。他说:“这样能更全面地了解调控基因的DNA启动子区域在物种内部和物种之间的情况。”

所有这一切对Jarvis主持的VGP也很重要。Jarvis实验室的博士后Chul Lee领导开发了量化长读长所产生差异的方法6。长读长的使用消除了许多动物物种之前在基因组组装过程中存在的数千个错误。

Isidro Cortes Ciriano和他在欧洲分子生物学实验室欧洲生物信息学研究所(EMBL-EBI)专注于研究癌症基因组学的团队开发了计算工具,用来评估癌症中的突变模式和基因组的不稳定性。

他说,长读长测序提供了研究重复和复杂基因组区域的方法,如着丝粒区域、长重复序列和复杂结构变异。他说,通过ONT仪器上的纳米孔测序技术产生的长读长,它们“可以解决Illumina测序难以解决的存在于癌症中的复杂基因组畸变。”

Cortes Ciriano实验室的博士后Carolin Sauer表示,对于研究具有拷贝数异常和基因组不稳定的癌症(如食管癌和卵巢癌)的研究人员来说,他们对长读长方法尤其感兴趣。因为该方法通常可以更好地检测和表征许多癌症中典型的复杂基因组重排和结构变异。

Patel说,在更容易用长读长来处理的复杂基因组部分中,人类基因组有许多类型的重复元件:几百个碱基对的短串联重复;大约含有300个碱基对的Alu元件;长度可达6千碱基的LINE1元件;数百个千碱基长的片段重复区域;以及重复序列中的兆碱基,如着丝粒和核糖体DNA。它们在突变过程和调节作用方面各不相同。

EMBL-EBI真核注释团队负责人Fergal Martin表示,长读长测序对他和他的团队来说是“一件大事”。更高质量的序列有助于研究小组梳理出结构,如基因和重复序列。通过长读长RNA测序,研究人员可以绘制被表达的基因并找到基因结构。“所以这是双赢。”他说。

鲁汶大学的研究员Karoline Faust,在她的微生物组和宏基因组学项目中研究已知基因组序列的生物体,并使用ONT公司的MinION仪器进行“成本较低的内部交叉污染检查”。现在,为了确认生物反应器中的细菌就是实验室放在那里的细菌,该团队需要使用16S rRNA Sanger测序,但这不能区分菌株或鉴别真菌。

“就我来说,便宜且简单的污染检查和生物鉴定是长读长测序技术带来的最大希望。”在这种情况下,价格和速度很重要,因为快速发现污染意味着可以迅速停止一项昂贵的实验。

加州大学戴维斯分校研究人员C.Titus Brown表示:“在宏基因组学中,长读长还没有完全实现,可能还需要时间。”这是由于长链分子DNA提取带来的挑战,以及目前还不能对复杂的微生物组进行足够深度的测序。

他说,宏基因组学中长读长测序的成功主要涉及与宿主相关的微生物组,与海洋环境、沉积物和土壤中的微生物组相比,这些微生物组的复杂性较低,涉及的微生物菌株也更少。

图. EMBL-EBI的研究人员表示,长读长测序有助于挖掘基因组中隐藏的结构。Fergal Martin(左)领导真核生物注释团队;Carolin Sauer(右)是Isidro Cortes Ciriano(中)癌症基因组学重点实验室的博士后。

展望未来

俄亥俄州立大学生物医学信息系的研究副主任Kin Fai Au(即将转到密歇根大学的计算医学和生物信息系工作)表示,大约在2010年左右,他就开始使用早期的PacBio仪器进行长读长测序。

在斯坦福大学读博士后的时候,他离PacBio公司位于门洛帕克的总部非常近。他还获得了参与ONT早期访问计划的机会。他表示,当时仪器的错误率高达30-40%,而且读数无法对齐。而现在的准确率为95-96%,并且还在上升。 

作为一名研究生,Au曾致力于为Illumina短读长RNA测序开发软件,以预测转录本的基因异构体,但效果并不好。当研究小组将他们的方法应用于PacBio公司的SMRT测序读长时,他们检测到了数千种异构体。他回忆说,当时PacBio公司的SMRT测序技术错误率很高,但这种情况已经发生了变化。

他说,在很长一段时间内,RNA测序意味着人们需要将RNA逆转录为cDNA来对其进行测序。ONT的技术是第一个实现直接RNA测序的技术7。RNA表达数据具有巨大价值,因为它们可以捕捉细胞和组织类型之间的差异。除了RNA丰度,他和其他人正在使用长读长来评估表观转录组、RNA修饰和RNA结构。Au说,对于这样的任务,直接进行RNA测序是有帮助的。

与DNA不同,RNA没有扩增方法,RNA测序的样本量也是一个挑战。Au说,随着技术的不断变化,对输入原料的要求也将不断变化。实验室也在研究维持DNA分子长度超过100万个碱基对的方案。读得越长,组装就越容易。

Au说,除了DNA和RNA序列,实验室还想捕捉许多其他方面:长距离和三维相互作用,许多大小不同的重复序列,转座元件,表观遗传学改变(如5-甲基胞嘧啶),组蛋白修饰。他们寻求核染色质可及性数据,以评估哪种转录因子在哪里结合。

Au说,已经出现了许多以“-seq”命名的方法,并且将出现更多与长读长相关的方法,这是“社会未来的工作之一”。长读长RNA-seq、长读长ATAC-seq和许多其他技术将为生物信息学带来新的机会,因为它们将产生新的信息和数据类型。

Au对即将到来的技术感到兴奋。他说:“科学总是以我们无法想象的方式发展。”他对Illumina的长读长技术很感兴趣,该技术以前称为Infinity,现更名为Complete long read技术。据该公司介绍,它可以产生超过30千碱基的读长,并只需50纳克的DNA。

Au表示,ONT和PacBio都覆盖了长读长测序市场,而且对用户来说PacBio比ONT更昂贵。在他看来,这两家公司和其他公司可能无法占据Illumina的全部市场份额,但他们会继续进军,因为在他看来“长读长测序是未来的趋势”。

参考文献:

(滑动下文查看)

1.Nurk, S. et al. Science 376, 44–53 (2022). 

2.Wang, T. et al. Nature 604, 437–446 (2022). 

3.Jarvis, E. D. et al. Nature https://doi.org/10.1038/s41586- 022-05325-5 (2022). 

4.Liao, W.-W. et al. Preprint at bioRxiv https://doi. org/10.1101/2022.07.09.499321 (2022). 

5.Manrai, A. et al. N. Engl. J. Med. 375, 655–665 (2016). 

6.Ko, B. J. et al. Genome Biol 23, 205 (2022). 

7.Wang, Y., Zhao, Y., Bollas, A., Wang, Y. & Au, K. F. Nat. Biotechnol. 39, 1348–1365 (2021).

相关推荐
评论
热门分类