总之,我们发现Poore等人提出的微生物丰度估计值。10可预测癌症患者的预后和对肿瘤类型子集、生存结果和治疗的化疗反应。机器学习方法,如本研究中应用的方法,不能推断因果关系,但只能告知协变量与响应变量之间的积极或消极预测关联。这些协变量在决定患者预后或药物反应中的潜在因果作用只能通过专门的机制研究来确定。总的来说,就显著模型的数量而言,基于其交叉验证的C指数或AUROC评分以及相对于单独的临床协变量的改善,肿瘤微生物组在预测患者预后方面远不如肿瘤人类转录组具有预测性,但值得注意的是,在预测化疗反应和大多数不同的癌症药物组合中,其表现类似于基因表达。我们的研究激发了未来的研究,研究肿瘤微生物组在预测靶向治疗和免疫治疗反应中的作用。
我们目前的研究也有一些局限性。如前所述,一些TCGA药物反应队列规模有限,或者队列中有反应或无反应的病例相对较少,这可能会影响结果的可解释性。瓦巴拉等人。23对样本量有限的高维生物数据模型的ML算法验证进行了文献综述,并对不同技术进行了独立的模拟分析。他们发现,与以前的文献一致,嵌套CV是最佳验证方法,无论样本大小如何,都能给出无偏的性能估计。他们还发现,在内部嵌套CV中完全执行特征选择和其他模型开发步骤(例如,归一化、异常值去除)对于避免过度拟合和产生无偏结果是至关重要的,并且超参数调整也应该理想地以嵌套方式执行。最后,他们发现进行足够次数的CV折叠对减少偏差很重要。我们的分析遵循了他们的观察和建议,在模型开发和评估的每一个层面都采用了他们的观察和建议,包括他们工作中没有审查的其他技术(详见方法)。
这项研究还存在更多的局限性,这些局限性来自最初由Poore等人提出的数据的局限性。10首先,这项研究是回顾性的,使用了TCGA的现有数据。因此,它不涉及任何捕获微生物读数或控制污染的具体方案。第二,对这种回顾性数据的净化是一个高度复杂和数据集特定的过程,他们花了很大的努力来验证这一点。Poore等人从这一验证中得出结论,TCGA的回顾性研究是成功的,类似的回顾性研究将是有价值的。他们简要提到的第三点是,所使用的方案在捕获微生物读数方面有局限性,无法区分微生物读数的来源是细胞内还是细胞外,或者在取样时是活的还是死的。Poore等人建议,我们认为有必要为前瞻性研究开发额外的方案。
接受研究的局限性,我们观察到某些趋势。变形菌门和厚壁菌门是被鉴定为预测特征的最常见的门(补充数据2),其次是放线菌和拟杆菌门。在病毒中,疱疹病毒是最常见的。与阳性预测相比,更多的微生物属对药物反应或预后具有阴性预测(306/537特征为阴性;双边二项式检验p-值= 0.0014)。厚壁菌门逆转了这一趋势,更经常地为阳性预测(对49/82特征为阳性,双侧Fisher精确检验p-值= 0。0.0036;补充表格3).
进一步检查我们的显著模型的预测特征和它们的癌症类型,我们发现几个厚壁菌门属可以预测CESC的OS,包括乳酸菌目被发现对存活率有负面预测。我们还发现这个属衣原体与CESC的OS有更强的负预测关联。值得注意的是,尽管已知CESC病毒经常由人乳头瘤病毒感染引起,但其他微生物物种的存在,尤其是属衣原体和乳酸菌目据文献报道,与患CESC病的风险有关24,25.
我们的预后分析结果不同于最近的两个报告26,27他们在三种TCGA癌症中发现了一些可能与预后相关的肿瘤内微生物。使用我们的数据驱动的正则化ML计算方法,我们没有发现Poore等人从TCGA估计的肿瘤微生物丰度对这三种癌症的OS或PFI有预测作用。这种结果差异的几个重要的可能原因是,与这些研究相比,不同的来源数据和方法用于进行预后分析。Gnanasekar等人。26通过肿瘤亚型分析THCA队列,他们使用协调和标准化的GDC TCGA数据,而不是Poore等人的传统TCGA,然后进行标准化和批量效应校正,他们只使用RNA-seq数据,而不是WGS和RNA-seq数据,他们应用不同的方法提取微生物读数和净化,最后他们没有进行任何直接的微生物丰度与生存结果相关性的分析。多尔曼等人。27分析结肠直肠癌(结肠(COAD)和直肠(READ)腺癌)也使用协调和标准化的GDC TCGA数据,他们使用WGS和全外显子组测序(WXS)数据,而不是WGS和RNA-seq,他们还使用不同的方法提取和净化微生物读数,最后他们还对他们的整个数据应用经典的单变量统计,以推断与总生存率(OS)的相关性。虽然我们认为使用协调的GDC TCGA数据优于传统的TCGA数据,但Poore等人应用了稳健的计算方法来消除传统TCGA数据中的技术差异,并验证了他们的方法是有效的。我们还应用了额外的TCGA样本过滤器来进一步消除技术差异。我们还认为,一般来说,对整个数据应用经典的单变量统计来寻找相关性有可能过度拟合特定的数据集,并且它没有考虑高维生物数据(如肿瘤内微生物丰度)的多变量性质。以数据为中心、多变量和正则化的ML方法侧重于根据训练数据拟合模型,并根据看不见的测试数据进行评估,这种方法有可能更好地进行概括,并发现特征是否可能预测反应变量并与之相关,如生存结果或药物反应。
查看我们的药物反应模型结果,在STAD,肿瘤微生物丰度可以预测对三种不同药物的反应:顺铂、醛氢叶酸和奥沙利铂。该属螺杆菌在Poore等人的数据集中是一个量化的微生物丰度特征,尽管值得注意的是,尽管已经很好地确定感染H.幽门患胃癌的风险增加28, 螺杆菌在我们的STAD模型中没有被确定为药物反应的预测特征。这一发现与最近的研究相一致,该研究表明微生物多样性减少,微生物数量减少H.幽门和其他主要共生细菌属在胃癌中的富集29。相反,在STAD我们发现了已知的机会细菌西地西菌属和鞘氨醇杆菌都是对醛氢叶酸反应的强阴性预测,鞘氨醇杆菌是顺铂反应的强阴性预测,并且条件细菌鲁西埃拉是奥沙利铂反应的强阴性预测。西地西菌属和鞘氨醇杆菌在包括癌症在内的罕见病例中,与免疫缺陷个体的菌血症有关30,31,32,33。因为生物失调在胃癌中很常见34,35考虑到亚叶酸的作用机制,研究来自这两个属的生物是否可以隔离或阻止细菌产生亚叶酸可能是有意义的36.
我们发现了三个微生物属,其丰度与乳腺癌对多西他赛的反应密切相关。事实上,肿瘤微生物群参与了乳腺癌(BRCA)22,37最近受到了广泛关注。在BRCA,我们发现含有爱泼斯坦-巴尔病毒(EBV)的属与对多西他赛的反应呈负相关,这与先前的发现一致,即EBV与胃癌对多西他赛的耐药性相关38。有趣的是,在我们的研究中,蓝细菌是几种癌症的预测特征,我们发现一种蓝细菌可以预测BRCA患者对多西他赛的反应。值得注意的是,最近Nejman等人证实了BRCA存在蓝细菌。22通过16S-rRNA测序。虽然我们确定的种类,Raphidiopsis在最初的微生物丰度估计中,这可能是一个分类学上的错误,我们的发现可能指向最近发现的蓝细菌的分支Melainabacteria下的一个相关属39,存在于人类中。虽然黑色素菌很难培养,但我们认为应该验证BRCA对多西他赛的反应与黑色素菌之间的关系,第一步是在专门的16S-rRNA分析中证实我们通过计算得出的发现。
有趣的是,在肉瘤(SARC)中,在最具预测性的微生物特征中,我们发现了该属乳球菌与多西他赛疗效呈正相关。乳球菌包含有时会导致人类机会性感染的物种,如乳球菌类似于链球菌以前属于那一类。在我们的模型中,该菌属与应答呈正相关的结果最初似乎与直觉相反,尽管使用治疗性细菌作为抗肿瘤剂尚未得到广泛研究,但在文献中有一些有限的发现表明使用细菌疗法作为抗癌剂40。历史上,有意使用各种毒素链球菌在SARC显示显著抗肿瘤活性的物种已有文献记载41,42,43。在我们的模型中,一些微生物对多西他赛反应呈强阳性预测的一个可能的可测试的解释是,它们可能产生一些胞外产物或毒素,可以作为化疗的佐剂。
总之,虽然这些发现和本研究中报道的其他发现是通过计算得出的关联,但我们相信它们可以作为微生物物种在调节患者存活和药物反应中的作用的进一步实验研究的线索,可能通过如上所述在肿瘤微环境中代谢药物水平,或通过改变特定免疫代谢物的水平或通过使肿瘤呈递特定细菌抗原来改变免疫反应44.