宏基因组测序文库构建时引入的重复序列不仅会给定量分析带来偏差,而且还会导致覆盖剖面的错误,给宏基因组组装和分箱带来不良影响甚至失败,但这个问题很少被注意到,而且它对下游基本生物信息学过程的影响仍然不清楚。近日,西湖大学鞠峰及团队在Microbiology spectrum发表最新研究Deduplication Improves Cost-Efficiency and Yields of De Novo Assembly and Binning of Shotgun Metagenomes in Microbiome Research,基于五种典型数据(即人类肠道、生物反应器污泥、地表水、湖泊沉积物和森林土壤),发现剔除重复数据有助于提高组装和分箱的效率,还可节约计算成本。总之,该研究为微生物组研究中更经济高效的宏基因组分析提供了经验参考。