2024年10月7日,上海交通大学/美国罗格斯大学赵立平教授、上海交通大学附属上海市第一人民医院彭永德教授、上海交通大学张晨虹研究员、启东市人民医院施羽主任医师担任共同通讯作者,在Cell 发表题为A core microbiome signature as an indicator of health的重磅研究(查看短科普)。该研究基于系统生物学和生态学原理,提出了一个新的微生物组研究框架,通过自主研发的高分辨率微生物组数据挖掘平台,整合了涵盖不同地域、种族、疾病的38项肠道菌群研究数据,首次鉴定出对维持人体健康具有关键作用的两个核心功能群——“基石功能群”“病生功能群”。研究提出的“两个竞争功能群”(TCG)模型为个性化定量评估菌群失调和肠道健康,提供了全新的通用标准,对推进微生物组精准医学的发展具有重要意义。
我们特别专访该研究共同通讯作者之一的赵立平教授,带来对这项研究的详细解读,分享他深入研究肠道微生物组20余年的经验与感悟。
赵立平
上海交通大学生命科学技术学院微生物学特聘教授,美国罗格斯大学生物化学与微生物学系冠名讲席教授。美国微生物科学院(AAM)fellow,加拿大高等研究院(CIFAR)fellow。从事肠道微生物组与代谢健康研究30余年,发现首例可以引起肥胖的人体肠道病菌,开发以肠道菌群为靶点的肥胖症、糖尿病营养治疗方案,建立基因组专一性、不依赖数据库、基于生态功能群的微生物组数据分析技术平台,首次鉴定出对维持人体健康具有关键作用的 “两个竞争功能群”核心菌群模型,为菌群失调和肠道健康的个性化的定量评估提供了全新的通用标准。
2008年起,国际人类微生物组联盟(IHMC)执行委员会委员;2006-2012年,国际微生物生态学会(ISME)常务理事;2004-2009年,上海系统生物医学研究中心常务副主任;2018-2024年,美国胃肠病学会微生物组研究与教育中心科学顾问。在Cell、Science、PNAS、ISME Journal、Nature Communications、Nature Reviews Microbiology等发表论文百余篇。2012年,美国《科学》周刊曾专题报道。
Q:祝贺赵老师和团队再发重要成果!可否请您从研究思路、方法和发现的角度,分享一下这项研究的最大亮点?
赵立平教授:在微生物组研究领域里,这项研究在寻找和鉴定核心菌群方面取得了一个阶段性的进展。
“核心菌群”也就是“core microbiome”,是指为人类健康提供必需功能,对于维护和支持人类健康必不可少的菌群成员。搞清楚什么菌是健康必须的,这是菌群研究的首要核心问题,也是利用菌群预防和治疗疾病的前提。2005年巴黎人类微生物组圆桌会议时,就对核心菌群提出了比较公认的定义。2008年IHMC(国际人类微生物组联盟)正式在海德堡召开第一届会议,之后展开了大量大规模测序研究,都是要定义人的核心菌群。
如何判定哪些微生物属于核心菌群?既然核心菌群是重要的,很自然就会想到应该是健康人共有的菌。循着这个思路,2008-2018年这十年,尤其前五年做了很多探索,有一大批论文出来,但没得出统一结论。因为这里存在一个关键问题:重要的应该是共有的,但共有的未必是重要的。菌群里有很多 “中性菌”,多数人可能都有,但不见得对健康有非常直接和重要的作用。
我们这项研究寻找核心菌群的方法和策略背后存在“第一性原理”。亚里士多德时代,古希腊哲学家提出的“第一性原理”是指不证自明的真理,就像几何学里的公理。我们研究一些基本问题时要有突破,就要从最基本的原理出发,而不是从技术细节出发。
该用什么样的“第一性原理”指导我们寻找核心菌群成员呢?这个概念要到对复杂系统的研究里寻找,要从系统生物学里来。
2000年我到上海交通大学那段时间,系统生物学刚开始火起来。2005年,陈竺院士牵头,由当时的上海第二医科大学(上海交通大学医学院前身)和上海交通大学联合创办了多学科交叉研究机构“上海系统生物医学研究中心”,我被抽调去做研究中心的首任常务副主任。期间我们组织了多次系统生物学方面的国际研讨会,让我从一个单纯研究肠道菌群、研究微生物生态学的学者,逐渐具有了系统生物学的思维,会把肠道菌群看作是复杂适应系统(complex adaptive system, CAS)的典型代表。
无论是人类社会还是菌群,都是组成成员众多又复杂的CAS。要理解这类系统的运作、寻找核心成员,虽然方法不同,但最核心的指导思想是一致的——Stable relationships signify core components,即稳定的关系意味着核心的成员。
CAS里成员的相互作用构成一个动态变化的复杂网络,其中最关键的成员应该是具有不受环境冲击影响的关系稳定的成员,也就是说被稳定关系连在一起的成员很可能就是核心成员。
我们用人类社会举例。通常情况下,人们通过各种社会关系构建社会网络,形成家庭、工作单位、俱乐部等团体和组织。当社会系统受到冲击时,比如遭遇战争和大规模自然灾害,大部分社会团体的关系无法保持原有的稳定性,会解体或重组;但某些关键社会群体,比如消防队,不仅不会解体,反而更加紧密地联系在一起,承担起维护社会秩序的职责。这些核心群体的存在,对于维持社会的基本稳定至关重要。若他们也失去功能,社会将陷入无序状态。
回到肠道菌群。我们知道菌群中的单个成员很难长期维持稳定的种群数量,它们受昼夜节律、饮食变化等因素的影响而不断波动。因此,用动态变化的单个菌的数量与相对稳定的临床健康指标做相关分析是很困难的。可能某个研究发现某个菌与健康指标正相关,另一个研究就得出不同甚至相反的结论。
这是因为菌群对健康的影响是系统层面的特性,无法简单地通过单个微生物来解释。复杂系统的基本原理是,系统的组成成员会相互作用形成局部结构或模块(module),然后不同的模块接在一起共同作用,实现系统水平的功能。也就是说,单个的菌群成员不能直接影响菌群系统的功能,它的作用是通过与其他成员的互作涌现出来的,所谓1+1>2,也就是复杂系统的涌现特性。因此,仅测量单个菌的数量而忽视菌与菌的互作,直接与临床指标做相关分析,这违背了复杂系统的基本原理,很难得出有效的结果。
这项研究取得突破的最重要的核心学术思想,就是我们把目光放在菌与菌的互作,而且我们关注的不是短暂、偶然的互作,而是在环境条件发生剧烈变化时仍然保持稳定的互作关系。比如,某些菌之间表现出长期的竞争关系,不管环境如何变化,它们的竞争格局始终保持稳定;另一些协作关系的菌,则总是共同升降。这些关系稳定不变的菌,可能就是菌群里的核心成员。
从进化的角度讲,任何生物学现象都不是一天形成的,而是长时间自然选择的结果。菌与菌的这种稳定关系也是如此,一定是长期共同进化形成的。另外,菌与人也有共进化,菌与菌的关系中对宿主健康有重要作用的稳定关系更可能被保留下来。
所以,在寻找菌群核心成员时,我们首先关注人类普遍存在的菌,然后进一步筛选出那些在环境扰动下仍能保持稳定互作的菌。
我们的论文虽然最终在Cell 比较顺利地发表,但由于审稿人认为文中涉及复杂系统、稳定关系、进化等的讨论过于哲学化,晦涩难懂,我们不得不进行了大幅删减。尽管如此,我个人仍然觉得这些概念是整篇研究的核心,没有背后的思维,研究可能无法取得当前的结果和进展。
Q:在这项研究中,您们具体做了哪些工作?收获了哪些关键性发现?
赵立平教授:我们最初的研究是通过高膳食纤维的饮食干预作为肠道菌群的环境扰动,来引起菌群的变化。我们一共分析了3个时间点的数据,前两个时间点数据来自我们2018年那篇Science论文(查看短科普)里2型糖尿病患者的基线和干预3个月的肠道菌群,第三个时间点是1年后的随访新数据。
干预期间,患者膳食纤维的摄入量从十几克骤然增加到四五十克,整个饮食结构和肠道菌群都发生了巨变。干预3个月,疾病得到改善,糖化血红蛋白下降。然而,高膳食纤维干预结束后,多数人回归原有饮食习惯,菌群和疾病也在1年后恢复到原来的状态。这个过程表明,肠道菌群在饮食结构巨变时每个成员都发生剧烈波动,其中哪些菌的关系保持稳定,是我们重点研究的内容。
图1 高膳食纤维饮食引起的肠道菌群变化可逆且与2型糖尿病患者代谢表型改变相关(DOI: 10.1016/j.cell.2024.09.019 Figure 2)
我们分析了患者普遍存在的477个细菌基因组,看同一时间点的两两相关。共丰度网络分析发现,超过92%的组合在3个时间点没有任何关联,不到10%的组合偶尔有点关系,仅有635个组合在所有时间点保持稳定的竞争或合作关系,占总菌对组合的0.56%。这表明,尽管肠道菌群有许多成员,但大部分菌并没有持久的互作关系,只有极少数菌形成了稳定关系。
我们将研究重点放在那些具有稳定互作关系的细菌上,最终识别出141个菌,形成了两个相互竞争的功能群(TCG)。这是我们的第一个发现:这两个功能群相互竞争,是负相关的,而功能群内的菌呈现稳定的正相关关系。在高膳食纤维干预之前,一个功能群占主导,另一个则较低;干预后,原本较低的功能群被激活,原先高的功能群则下降,导致疾病改善;干预停止后,两个功能群回归原始状态。
图2 从高膳食纤维干预引起肠道菌群的全局变化中识别出的稳定存在的细菌基因组对形成了与HbA1c相关的两个竞争功能群(DOI: 10.1016/j.cell.2024.09.019 Figure 3)
进一步分析发现,其中一个功能群与疾病正相关,另一个与疾病负相关。受高膳食纤维扶持的功能群携带更多降解膳食纤维的基因,能产生乙酸和丁酸,没有抗药性或毒力基因,这些菌看起来更“干净”,可能是天然的有益菌。另一个功能群则携带各种抗药性基因、毒力因子,尤其革兰氏阴性菌,有内毒素(LPS)等多种有害因子。
通过全基因组测序,我们能够区分出哪些菌是已知的有益或有害菌,尽管有些菌尚未完全分类,但与已知菌形成了稳定的互作关系,进一步证实了它们在各自功能群中的重要作用。
这141株菌形成了两个功能群,其中一个群有50株菌,另一个群有91株菌。我们以这141个基因组作为参考,去分析其他糖尿病病例对照研究中的宏基因组数据。结果发现,无论是健康人还是患者,基本都有这些菌,它们的关系结构也是一致的,依然表现出两个竞争的功能群。基于此,我们构建的机器学习模型能够准确区分患者和健康人,这说明我们发现的功能群具有普遍性。
为进一步验证,我们下载了其他疾病的病例对照研究的宏基因组数据,包括冠状动脉粥样硬化、肝硬化和强直性脊柱炎,这些患者和健康人也存在这些菌以及这两个功能群结构。用这141个菌作为变量训练机器学习模型,都能准确区分患者和健康人。由此表明,这两个竞争的功能群是本来就存在的,高膳食纤维干预只是让我们更清楚地观察到了它们。
随后我们扩大了研究范围,分析了包括结肠癌、帕金森病、炎症性肠病等更多疾病,而且不局限于中国人群,还纳入了欧洲和美国的数据,结果同样适用。最终,我们在7种疾病验证了这两个竞争功能群的普遍性,形成了一个逻辑自洽的完整研究结果。
图3 TCG中的细菌基因组可以预测高膳食纤维干预试验中2型糖尿病患者的健康结果,并且能区分CCDC-I数据集(含7种疾病)中的病例和对照(DOI: 10.1016/j.cell.2024.09.019 Figure 4)
我们把这些结果写成论文投到Nature,审稿人提出了各种问题和质疑。其中一位审稿人提出,能不能把疾病作为一种扰动,看看患者和健康人是否也有这种不变的关系。
顺着这个思路,我们又下载了大量数据,在患者和对照分别建立菌群网络,对比了同一对菌在不同健康状态下的相关性。也就是说,把疾病作为对生态系统的扰动,寻找那些在疾病和健康状态下关系保持不变的菌对。结果发现这些菌也能形成两个相互竞争的功能群,一个与疾病恢复相关,另一个与疾病相关。再看它们的基因组,前者呈现有益特征,而后者携带有害特征。
每套数据集里都能识别出相应的TCG,尽管各数据集的成员重叠不多,但关系仍然保持一致。而且,由某种疾病数据集识别出的TCG可以在其他病例对照研究中重复出现,并且模型能够成功区分患者与健康人。
图4 从一种疾病数据集鉴定出的TCG细菌基因组能够有效区分CCDC-I不同疾病数据集的病例和对照(DOI: 10.1016/j.cell.2024.09.019 Figure 5)
通过整合从病例对照研究中找到的7个TCG和前面膳食干预研究中的1个TCG,我们最终确定了284个细菌基因组(CC-TCG)。它们在独立的病例对照数据中也存在,我们用这些基因组构建的机器学习模型验证了其对多种疾病的预测能力。
图5 CC-TCG有效区分CCDC-II数据集里一系列疾病的病例和对照,并能够建立一个通用模型区分CCDC-I、CCDC-II不同疾病的病例和对照(DOI: 10.1016/j.cell.2024.09.019 Figure 6)
最后,我们进一步验证了这284个基因组在4个疾病、11套免疫治疗数据中的表现,发现它们不仅能预测癌症患者对免疫治疗的反应,还能预测其他疾病的免疫治疗效果。
图6 CC-TCG预测不同数据集的治疗结果(DOI: 10.1016/j.cell.2024.09.019 Figure 7)
这个TCG模型整合了来自三大洲、不同种族和地域的人群数据,表明其结果对疾病种类、种族和地域都不敏感,揭示了一个高度精炼的共性特征,可能是多种人类疾病的共同生物学基础。某人患病之初,可能是两个功能群的平衡先被打破,从而走向具体的疾病。
Q:TCG模型是这项研究的一个关键发现,可否请您讲讲关于两个功能群的具体情况?为什么只是两个功能群?又该如何理解它们的特点以及对健康的影响?
赵立平教授:审稿人也提出过类似的问题:为什么找到的是两个功能群,而不是更多的?
首先,我们在寻找核心菌群时,并没有预设要找多少,而是采用了探索性(exploratory)方法,或者说是非靶向性(non-targeted)方法。我们最初的目标非常基础,就是寻找那些成对的稳定菌。具体来说,我们分析菌与菌的相关性,观察不同环境下这些相关性是否能保持一致,能够保持稳定的我们就选出来。你会发现这些被标记出来的菌通常是网络中的“枢纽”(hub),是网络的核心节点。这种方法的重点并不是去构建一个全新的网络,而是找出那些原本就存在的、核心的、共有的、稳定的关系,把这一部分关系识别出来。
图7 从人类肠道微生物组数据中找到的两个核心功能群与健康和疾病密切相关(DOI: 10.1016/j.cell.2024.09.019 Graphical Abstract)
举个例子,在论文第一部分糖尿病膳食纤维干预研究中,我们从1845个细菌基因组中找出了141个核心菌。虽然这个核心菌群仅占总数的不到10%,但它们与其他系统成员的相关性非常多,占到整个网络相关性的85%以上。这说明数量虽然少,但这些核心菌群对维系系统整体结构和功能起到了决定性作用,如果把它们从网络中抽离出来,整个网络就会散架。
用这种方法,我们找到的就是这两个功能群,它们呈现出一种此消彼长、你升我降、相互竞争的关系,又是相互依存的。
这两个功能群不仅是肠道菌群网络结构的核心,二者之间的你升我降还会对人体健康产生重要影响。这里我们要用到一个概念——代谢输出(metabolic output),也就是说作为一个整体,肠道菌群会产生生物活性物质的净输出,这些由菌群产生的代谢产物和其他生理活性物质进入到血液,会影响人的健康。
这两个功能群里,其中一个我们称为“基石功能群”,能够生成对宿主有益的代谢产物,比如短链脂肪酸、一些维生素和各种人体需要的物质。当它占据主导地位时,肠道菌群的净输出就以这些有益的代谢物为主,让肠道环境更有利于宿主的健康。另一个功能群被称为“病生功能群”,是一个促炎的菌群。当它占据主导地位时,肠道的净输出会偏向于对宿主不利的物质,比如引起炎症的抗原,硫化氢、吲哚等可能对内分泌有破坏作用的物质。
因此,菌群的净输出到底是以支持健康的有益物质为主,还是以破坏健康的促炎物质为主,其实就取决于这两个功能群谁占优势。
需要注意的是,这种优势并不是简单的数量优势,而是一种功能上的生态优势(ecological dominance)。比如,有的菌产生短链脂肪酸的效率非常高,或者你的饮食结构包含这类菌能高效利用的膳食纤维作为它的生长底物,那么虽然数量可能只占菌群总数的10%,但产生的短链脂肪酸可能占到整个系统的50%以上,它的作用就比较大。
所以判别功能群是不是占生态优势,不是简单用数量来衡量,而是复杂系统相互作用的结果。它不仅取决于菌的遗传特性,还取决于生长条件以及菌与菌的竞争和合作。最终,肠道菌群的净输出决定了它们对宿主健康的正面或负面影响。
Q:如果从生态学的角度,该如何理解“基石功能群”“病生功能群”的关系和功能?
赵立平教授:基石功能群(Foundation Guild)的概念,其实是借用了生态学的“基石物种(Foundation Species)”理论。基石物种是那些在维持生态系统稳定和功能上起到决定性作用的物种,种类未必很多,一种也许就够,但需要有一定的量。就像森林中的乔木,它们必须在生态系统中达到足够的生态优势度,才能遮阴,才能形成森林。如果乔木减少到一定程度,就会导致遮阴效果减弱,阳光直射进来、湿度下降,使原本依赖阴暗潮湿环境生存的植物和动物逐渐消失,整个生态系统随之退化,直至崩溃。
我们将这一理论引入微生物生态系统,认为肠道的基石功能群也起类似的作用。这些有益菌团需要有足够的生长底物(如膳食纤维)来维持它们的数量,它们占据生态优势后整个肠道微生态系统就会趋于稳定。类似于森林中乔木遮阴的作用,基石功能群的“遮阴”相当于它们产生了足够多的短链脂肪酸(SCFAs),比如丁酸盐,这些短链脂肪酸的存在对于肠道的健康具有多重关键作用。
首先,短链脂肪酸能降低肠道pH值,使肠道环境酸化,这有助于抑制有害菌生长,而且短链脂肪酸本身也具有抗菌功能,能直接杀灭或抑制有害菌。其次,丁酸盐是肠道上皮细胞的重要能量来源,肠道上皮细胞60%~70%的能量依赖于丁酸盐。如果基石功能群中的有益菌数量不足,产生的丁酸盐减少,直接后果就是肠道上皮细胞的更新能力下降,肠道屏障功能受损。这可能导致所谓的“肠漏症”(leaky gut syndrome),即肠道通透性增加,有害物质更容易通过肠道屏障进入血液,对宿主健康产生负面影响。除了短链脂肪酸自身的抗炎功能,基石功能群中的有益菌还能通过分泌的物质或者胞壁成分等,促进调节性T细胞生成,进一步发挥抗炎作用。
另外,短链脂肪酸是调节肠道L细胞分泌胰高血糖素样肽-1(GLP-1)、酪酪肽(PYY)的天然调节因子。GLP-1主要通过增加饱腹感来抑制食欲,帮助个体减少食物摄入,但没有胃口可能会让人产生抑郁和焦虑;PYY则能够调节大脑的食欲中枢,带来一种进食后的满足感和愉悦感。这就解释了为什么高膳食纤维干预能够帮助一些具有病态暴食症的个体,在减少食欲的同时依然感受到进食的愉悦感,使得他们更容易长期坚持干预方案。
总的来说,基石功能群的这些菌通过产生短链脂肪酸等关键代谢产物,维持肠道酸化环境、抑制有害菌生长、供能肠上皮、维护肠屏障供能、增加调节性T细胞、发挥抗炎作用,以及促进GLP-1、PYY等肠道激素分泌以调节代谢和食欲,从而促进宿主健康。
病生功能群(Pathobiont Guild)的成员主要是致病共生菌(pathobionts),也是所谓条件致病菌(opportunistic pathogens)。它们具备病菌的典型特征,如内毒素、鞭毛抗原等表面抗原,但致病性通常很弱,在肠道不会引发急性感染,免疫系统也不会主动攻击它们。这是因为在长期进化过程中,人类自然地筛选出了不那么危险的病菌,有控制地在生命早期引入肠道,“训练”新生儿的免疫系统学会识别敌我,以抵抗真正的致病菌。母乳、产道以及皮肤的基石功能群成员也会进入新生儿的肠道,与这些条件致病菌共同定植,并且在母乳低聚糖等物质的作用下让基石功能群在肠道始终占据优势,压制病生功能群,让它乖乖训练新生儿免疫系统而不兴风作浪。儿童发育到3岁左右,免疫功能逐步成熟,人体也对这些致病共生菌具有了耐受性。同时,这些菌的存在也让免疫系统保持警惕性,具有调节免疫的作用。
“pathobiont”这个词里的biont来自symbiont(共生菌),也就是说其实也有共生菌的特性,但不同于有益菌的是它对宿主的有利作用是有条件的,需要控制它的数量。
如果病生功能群数量过多,就会对宿主健康产生一系列负面影响。它的增殖会导致肠道的不良代谢输出和抗原量增加,伴随基石功能群生成的短链脂肪酸不足,肠道屏障功能减弱。于是,病生功能群的这些抗原,比如脂多糖,就更容易穿过肠壁进入血液。免疫系统无法区分这些抗原和活菌,错误地认为体内有感染发生,就会触发全身免疫反应,引起低度炎症,甚至让人发低热,导致一系列炎症和代谢问题。
此外,病生功能群产生的有害代谢物,如硫化氢和吲哚,还会抑制肠道L细胞分泌GLP-1、PYY,让人进食过多且不易感到饱足,破坏能量摄入机制,增加肥胖和代谢疾病的风险。病生功能群的过度生长会影响免疫系统对癌细胞的监管能力而增加患癌风险,还可能破坏血管系统,从导致微小血管堵塞逐渐影响中血管、大血管。这就是为什么糖尿病患者长期发展后,往往会出现以血管病变为特征的并发症。
病生功能群占据优势后还会引发的另一个问题是,削弱菌群对外来病菌的定植抵抗作用。一个健康、稳定的肠道生态系统应由基石功能群主导,就像森林中乔木遮阴形成稳定的生态系统一样,外来的毒草杂草根本长不起来。一旦病生功能群取代了基石功能群的主导位置,就会让肠道生态系统从一个封闭、稳定的系统,变成一个开放的、容易定植的系统。
这是因为病生功能群的条件致病菌的生长环境与真正的致病菌是比较像的,比如口腔菌具核梭杆菌能够促进大肠癌的发生。在基石功能群占优势的情况下很难在肠道里待住,但肠道的病生功能群失控时具核梭杆菌就能在肠道定植,产生致癌物质,引发基因突变,促进肿瘤增生并使化疗药物失效,与肿瘤形成完美的共生关系。这种现象不限于癌症,很多神经系统疾病(如渐冻症)也可能与特定病菌有关。例如某些病菌可能会分泌神经毒素,引发特定神经细胞的衰老或死亡,进而出现神经系统问题。尽管这些病菌可能不普遍存在,但在肠道失衡的个体,它们可能成为疾病的推动因素。
所以,我们在提出“病生功能群”这个概念的中文翻译时,是经过深思熟虑的。“生”是“共生”的意思,表明这些致病菌虽然具有致病性,但也与人类共生。它们的存在是必要的,特别是在免疫系统的训练和调节中,但必须严格控制数量。如果失控,不仅会破坏肠道的稳定性,引起低度炎症和代谢紊乱,还可能通过促进外部致病菌在肠道定植,增加癌症和其他慢性疾病的风险。
我们发现的肠道菌群的两个核心功能群,相互依存且相互竞争,这种“此消彼长”的关系并非简单的数量变化,而是更为复杂的非线性关系。有点像阴阳鱼太极图,不是一个把另一个消灭,而是你升我降的动态变化。
图8 肠道两个核心菌群的关系类似阴阳鱼太极图并对健康发挥重要作用(来源:赵立平教授)
Q:您们利用TCG构建的机器学习模型,在评估菌群失调、疾病诊断和预测治疗反应等方面具有巨大的转化潜力。请问这项研究中的机器学习模型有哪些独特之处?如何做能够进一步提升模型的表现?
赵立平教授:“基石功能群”“病生功能群”之间是复杂的非线性关系,而机器学习模型可以为我们理解和分析这种关系提供有力工具。通过输入各种相关变量,机器学习可以综合分析并输出一个概率评估结果,比如分析某个人的菌群时提出70%的可能性是患者。虽然不是确定性结果,但是可以被表征。
需要注意的是,机器学习模型的核心并不在算法本身,而在提供给模型的数据。事实上,今天使用的大部分机器学习算法早在二三十年前就很成熟了,但当时的数据的量和质不够,计算机的存储和处理能力也不足。如今,数据的量和计算机技术都不再是瓶颈。以肠道菌群测序为例,只要有足够的资源,生成大量数据并不是问题,真正的挑战在于如何使用这些数据。我们不能简单地将所有采集到的数据交给机器学习模型,因为数据和数据之间可能存在干扰,大量无用或干扰性数据会对冲真正起作用的变量,从而妨碍模型的分类、预测能力。大家开玩笑说“garbage in, garbage out”,就是具体的体现。
因此必须对数据进行初步筛选,想办法把和健康有关系的菌挑出来。常见的做法是做单变量分析,一个个菌作为变量在患者和健康人做统计检验,把两组有显著差异的单个变量挑出来,放到机器模型再去建模,这样能得到区分效果较好的模型。但此法得到的模型会面临普适性的问题,换一个疾病、换一个实验室的数据,可能就没有很好的预测效果了。我们的方法是把稳定相关的菌作为变量筛选出来,去训练机器学习模型,有较好的普适性和通用性。这些菌很可能经过长期进化选择,因而与人体健康有更深的关联。
所以训练机器学习模型,一定要先对数据去粗取精、去伪存真,把垃圾扔掉而把精华提炼出来,机器学习模型本身的负担轻了,它的表现也会很好。
我们做的这个机器学习模型、284个菌,其实只是一个起点。我们鉴定功能群,需要把菌的完整基因组序列组装出来,这对菌的丰度是有要求的,因此肯定会有一些低丰度的核心菌群成员被遗漏。未来随着数据的增加,很可能会纳入更多的菌,让核心菌群库(pool)越来越完整。
这个库也不是无限增加的。从进化的角度讲,这些菌很可能是继承自人类的共同祖先。虽然在进化过程中,菌群随着不同人群的差异化,与地域、种族、饮食习惯相适应而呈现不同的特点,但如果把这些菌汇成一个进化树,它们是有“血缘关系”的。
我们的未发表数据表明,284个人类核心菌群成员可以在类人猿等物种中找到,只是占菌群总量比较少,大约只有1%。这一发现也支持了生态学的著名假说——”Everything is everywhere, but the environment selects“,即重要的菌普遍存在,不同的环境条件会影响菌的丰度,影响哪些菌占据主导地位,但其他的核心菌即便数量少,也依然存在,而且菌之间的关系、菌的功能也存在。这也是为什么我们从一个疾病鉴定出的核心菌,在另一个疾病的菌数据中也能找到信号,且能区分患者和健康人。
Q:除用于疾病诊断和预测治疗反应,TCG模型在微生物组精准医学中还有哪些应用前景?
赵立平教授:除了可以作为评估健康的指标,TCG模型还可能会对营养学、食品科学,甚至药物研发具有指导作用和参考价值。
从营养学的角度来看,肠道的基石功能群要想占据生态优势,必须从饮食中获取所需的能量来源,也就是复杂碳水化合物,或者膳食纤维、多糖。通过消耗这些营养成分,基石功能群得以生长壮大、在肠道占据优势,产生短链脂肪酸,在维持肠道生态和人体健康中发挥作用。而病生功能群的能量来源主要是肠道分泌的黏蛋白、脱落的死细胞,它们把黏蛋白的糖链切下来,作为生长所需要的碳水化合物。也就是说,饮食并不直接调控病生功能群,而是通过影响基石功能群,间接地影响病生功能群。
以前我们只知道膳食纤维对健康有好处,却无法明确具体作用机制。有了基石功能群作为研究靶点,有了具体的细菌基因组,我们可以通过这个模型,在不同层面量化和设计营养干预方案。比如,我们可以设计一种满足基石功能群总体生长需求的通用营养配方,也能够基于特定民族、家族的基石功能群特点制定满足特定需要的营养配方。通过这样的干预,确保基石功能群的多样性和生态优势,使其在肠道占据主导地位,形成一个稳固且强健的微生态系统。
因此,TCG模型可以为营养学和食品学提供参考、靶点、抓手,通过对基石功能群的研究,为特定人群设计专属的膳食方案,实现个性化精准营养干预。此外,基石功能群富集了潜在的有益菌,对这些菌的研究将有助于研发活体生物药(LBP)等。
TCG模型还可以评估菌群移植,识别最佳供体。之前我们与袁慧娟老师发表在Cell Metabolism的研究(查看短科普),当时有个很有意思的现象就是,把健康人的菌群移植给有周围神经病变的糖尿病受体,能够改善周围神经病变但不能纠正糖尿病。原因很简单,供体的两个核心功能群其实和糖尿患者的差不多,但因为供体菌群没有促周围神经病变的菌,所以移植后能纠正神经病变,但没能改善糖尿病。
总的来说,TCG模型不仅揭示了肠道微生物生态的复杂关系,还为我们提供了一个精准的工具,可以全面影响营养学、食品科学以及健康干预领域的多个层面。
Q:在您看来,TCG模型有没有可能为中医诊疗和中医药研究解决一些现实问题?
赵立平教授:我认为应该是有可能的,因为有些中药或是通过调节两个功能群的平衡关系发挥治病作用。
从中药里筛选药物前体,西方很多药厂曾经轰轰烈烈地搞过一阵,但是后来都偃旗息鼓了。因为他们找到的有效成分几乎都不入血,生物利用度很低,没法作用于人体细胞的靶点,这与西药的研发思路和体系完全相悖。现在用TCG模型看,其实无需药物入血,把基石功能群扶起来、把病生功能群压下去,就可以是药物的作用机制。从另一个角度看,不入血的药物没有肝肾毒性问题,可能反而更安全。所以,TCG模型可以为这类药物的作用机制提供解释。
中医里有很多异病同治的情况,比如仝小林院士用治疗湿热腹泻的葛根芩连汤治糖尿病,因为他认为糖尿病是有湿热,所以要去除肠道湿热。虽然治的“病”不同,但“证”是一样的。老药新用,对证不对病,同样有效。我问仝院士,湿热有什么客观表现?他说,就是大便黑、黏、臭。在我看来,用TCG模型解释,就是病生菌多了,就是一种菌群失调:菌群产生硫化氢多了,大便就变黑;产生大量胞外多糖,大便就变黏;产生硫化氢、吲哚等有害物质,大便就变臭。作为印证,我们之前做糖尿病患者的膳食纤维干预试验,一些患者干预后反映大便不那么臭了。用中医的话说是湿热证候改善了,用我们的话说就是菌群调过来了。大家用的是不同的思维模式和语言体系,但其实说的是同一件事。
中医讲究扶正祛邪、培根固本、正气内存、邪不可干。从TCG模型的角度,我们可以把这个带有哲学意义的概念物化、具象化,因为基石功能群可能就是中医里的根、本、正。让基石功能群在肠道菌群占据生态优势,菌群的代谢输出就很健康,肠道环境也“干净”,病生功能群和偶尔进来的病菌都无法撼动,这就是“正气内存,邪不可干”。而对于那些“扶正祛邪”的药方,我们也可以看看治疗后两个功能群如何变化,也许就能提供一些可以量化的物质基础、分子机制方面的解释。
我很喜欢一个表述,如果人的健康是喜马拉雅山,从南坡(中医)还是北坡(西医)爬是无所谓的,虽然看的风景、用的方法不同,最终目的都是爬上高峰。但需要一个双方能够对话的桥梁,菌群TCG模型可能就是这个多方可以理解的语言。
Q:作为肠道微生物组领域的资深研究者和引领者,您怎么看肠道微生物组研究领域未来的发展和趋势?
赵立平教授:关于学科发展,我跟大家分享一些我的看法。
2004年我到上海系统生物医学研究中心主持工作,召集包括计算机、物理和机械等不同学科领域的专家教授,举行了多次研讨会。其中,物理学家马红孺教授的一席话对我产生了深刻的影响,也让我更加重视生物信息学和数据处理。
他提到,物理学的早期发展经历了三个关键阶段:首先是第谷,通过精确的天文测量积累了大量数据;接着是开普勒,基于这些数据总结出描述行星运动三大定律;最后是牛顿,用数学公式精确描述天体运动。这代表了从数据积累,到半定量的规律描述,再到完全定量的数学规律描述的过程。生物学研究在大规模测序技术的推动下,也在从模糊的定性描述,逐渐过渡到定量化、精准化阶段。数据积累将随着测序成本的下降呈指数增长,类似于第谷的天文观测时期,接下来就要进入开普勒阶段,迈向牛顿阶段。
自那以后,我对生物信息学的重视不再仅仅是朴素的直觉,而是有意识地追求类似于开普勒那样的突破。我不能成为牛顿,但至少可以在半定量的层面上揭示一些规律。单靠生物信息学专家无法做到这一点,必须结合对生物学规律的深刻理解,才能准确解释数据。因此,我积极推动生物信息学专业的发展,包括协助推动上海交通大学首家设立本科生物信息专业,因为我相信微生物组领域也会经历这样的过程。
这么多年的工作让我们找到了TCG模型,或许可以算是开启了开普勒阶段。虽然它是一个机器学习模型,远没有达到用数学公式全面描述生物现象的层次,但我相信微生物组学科的发展终将迈向那个阶段。
此外,我认为微生物组研究,尤其是肠道菌群的大规模测序,具有巨大的应用价值。因为与人类基因组相比,菌群是动态变化的,也是易于干预的。比如,菌群代谢产物每天都会波动,对免疫系统和炎症等方面的影响非常直接,我们可以通过营养干预等手段调控菌群。菌群的这种健康相关性,使得微生物组的数据积累具有极大的转化应用价值。
我坚信,以肠道菌群为代表的微生物组的研究,接下来的爆发点就在于数据的积累、更多数学模型的建立。TCG模型的工作只是一个开始,未来需要更多理论人才进入这个领域,进一步提炼规律,类似于牛顿力学甚至量子力学级别的突破或将在未来5~20年实现。
Q:所有成果都离不开研究者的付出和合作,您可否讲讲研究背后的故事?
赵立平教授:这项研究由我、上海交通大学附属上海市第一人民医院彭永德教授、上海交通大学张晨虹研究员、启东市人民医院施羽主任医师担任共同通讯作者,美国罗格斯大学吴国军研究助理教授、上海交通大学博士生胥婷、美国塔夫茨大学赵乃思研究助理教授、香港大学Yan Y. Lam助理教授和上海交通大学附属上海市第一人民医院丁晓颖主任医师为共同第一作者。
这里我想特别讲一讲吴国军博士,在这项研究工作中,他的贡献是非常突出的。
吴国军博士,美国罗格斯大学研究助理教授
1998年我就招收了应用数学专业的研究生,是国内最早重视生物信息学学生培养的人之一。2012年,我招收博士生时,吴国军是上海交通大学生物信息学专业的本科毕业生,他要求直博,我们的合作距今已有12年。
一开始的时候,我们做普瑞德威利症候群(PWS,小胖威利)宏基因组测序,吴国军加入后全面建立起了分析宏基因组数据的软件平台。虽然得到了不少结果,但总觉得少了生态学视角,所以我们后来引入功能群的概念。我和吴国军讨论,决定要把主要细菌的全基因组测序拼接出来,追踪这些细菌基因组的行为,识别出不同细菌的协作和竞争关系,他硬是把这套方法也完整地建了起来。这项研究也作为吴国军的博士论文,2015年发表在eBioMedicine(查看论文页面),首次将功能群概念应用于人类微生物组研究,并建立了一套分析流程。这套方法不仅分辨率足够高(接近菌株水平),不依赖参考基因组,而且从菌与菌互作关系的功能群角度分析菌群与健康的关系,很大程度上克服了通用方法的缺陷,也成为我们后续深入研究的基础。
后来,吴国军即将博士毕业,打算去美国继续深造,我们基于功能群分析的研究课题面临断档。巧的是,那时罗格斯大学发出邀请,让我建立中美合作实验室,于是促成了我与吴国军的继续合作。2018年Science文章发表之前,我到美国建实验室,张晨虹研究员、吴国军在上海交大,我们团队就采用中美两地实验室轮班工作的形式,24小时不停运转,极大提高了工作效率。TCG的最早雏形就是在那时出来的。
之后,吴国军到美国的实验室继续研究,我们紧密合作,直到今年这篇论文发表。这12年里我们始终坚持同一研究方向,长期的投入和合作是我们能够不断深入研究、取得突破的非常重要的原因。
Q:2018年您和团队在Science发表的研究,用了6年时间。今年这篇Cell 论文上线,距前又整整过了6年。这两项研究堪称肠道微生物组领域的里程碑成果,请与广大研究者,尤其青年科学家和研究生,分享一下您做微生物组研究的心得体会?
赵立平教授:我们这篇论文从最初投稿到Nature,最终被Cell 接收,前后3年时间,这个过程很熬人。如果说我有什么经验能跟大家分享,可能主要是以下这几方面。
第一,做科研需要保持高度专注和坚持,要有定力,咬住牙使劲往前冲。如果你认为一个问题非常重要,就必须集中主要精力长期推进,不能被其他事情分散注意力。我个人的习惯是,每3~5年围绕一个重点项目,把80%的时间投入其中,直至取得突破。人的精力有限,难以面面俱到,要把重要的事情做成,得有一股不管不顾的劲头。
第二,长期深入思考对科研工作至关重要。每天专注于同一项目,花大量时间反复思考、观察,才能挖掘出深层次的发现。比如,我们论文的每幅图背后,都经过了几十甚至几百小时的推敲和思考,才能看到其蕴含的真正意义。唯有长期积累和深入观察,而不是浅尝辄止,才能带来灵光一现的创新。
第三,科研领域需要合作精神。在同行审稿方面,我担任审稿人时会尽量支持有价值的工作顺利发表,我可能会提很多意见和建议,但只要作者认真回应和修改,我都是支持发表的。如果能有更多高质量的研究成果在顶刊、高影响力期刊发表,我们这个领域就会愈加受到关注和重视,会有更多的资源投入,这对整个领域的发展、对每个研究者都是有益的。我们也要大方引用同行的相关工作,同一领域里相互引用能够促进研究的良性循环,这是一种学术规范。为了领域的发展,大家要多一些互相支持。