近期,华中科技大学宁康团队与合作者在PNAS发表研究Decoding the link of microbiome niches with homologous sequences enables accurately targeted protein structure prediction。作者假设微生物生态位和蛋白质家族之间存在固有的进化联系,可用于构建精确的多序列比对(MSAs)。为了检验这个假设,作者建立了一个包含42.5亿个序列的四个主要生物群落的模型库,开发了一个名为MetaSource的机器学习模型来预测目标蛋白质的源生物群落,其可以显著提高联系图和3D结构模型的准确性,同时使用少于三倍以上的计算机内存和CPU时间。研究的结果验证了重要的生物组-序列-Pfam关联,这可以为基于菌群的蛋白质结构和功能预测的靶向方法提供更高的效率和有效性。