您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!2008-2022
Wuhan Xinqidi Biotech Co.Ltd
本企业通过iso9001质量体系认证

从肿瘤微生物组预测癌症预后和药物反应

 二维码
发表时间:2022-05-31 16:12作者:武汉新启迪Xinqidibio

摘要

在某些癌症中,肿瘤基因表达可预测患者预后。然而,RNA-seq和全基因组测序数据不仅包含来自宿主肿瘤和正常组织的读数,还包含来自肿瘤微生物组的读数,这可用于推断每个肿瘤中的微生物丰度。在这里,我们表明,肿瘤微生物丰度,单独或与肿瘤基因表达结合,可以在某种程度上预测癌症预后和药物反应——微生物丰度对预后的预测性明显低于基因表达,尽管与药物反应的预测性相似,但在大多数不同的癌症-药物组合中。因此,似乎有可能利用现有的测序技术或开发新的方案,从RNA-seq和全基因组测序实验中获得比仅从肿瘤基因表达或基因组数据中获得的更多的关于预后和药物反应的非冗余信息。

介绍

癌症基因组图谱(TCGA),可从NCI基因组数据共享中心(GDC)获得1,提供了几十种癌症类型的数千个病例的RNA-seq和全基因组测序(WGS)数据。RNA-seq数据通常用于测量人类基因的表达,并且将肿瘤基因表达与癌症结果联系起来有很长的历史2,3,4,5,6,7,8。米拉内兹-阿尔梅达等人。9最近显示,来自TCGA RNA-seq数据的基因表达可以比经典的临床预后协变量(诊断时的年龄、性别和肿瘤分期)更好地预测总生存期(OS)或无进展间期(PFI)。重要的是,Milanez-Almeida等人使用了一种基于数据驱动的机器学习(ML)的方法,该方法选择预测预后并与预后相关的特征,而不是基于经典统计学或生物学知识选择先验特征的方法。

对人类肿瘤微生物组的研究一直在快速扩展,多个实验室试图利用现有的技术和数据来识别微生物,并量化它们在人类肿瘤中相对于邻近正常组织的丰度。RNA-seq和WGS数据不仅包含人类测序读数,还包含来自局部肿瘤内微生物组的读数,这些读数通常在分析人类基因表达或基因组改变时从数据中过滤出来。Poore等人。10最近开发了一个计算工作流程,使用两个正交的微生物检测管道,从人类高通量测序数据中估计、净化、归一化和批量校正微生物丰度。他们应用这一工作流程为整个TCGA队列创建了一个来自WGS或RNA-seq数据的泛癌肿瘤微生物丰度的综合数据集。

我们的中心研究问题是,(1)数据驱动的ML方法是否揭示了TCGA数据中的肿瘤微生物丰度,从这些读数中量化,是癌症预后或药物反应的预测因素,(2)哪些微生物属是预后或药物反应的潜在预测生物标志物,(3)这些模型与基于肿瘤基因表达数据的等效模型相比如何,以及(4)结合微生物丰度和基因表达特征是否产生了模型,并选择了比来自每个单独数据类型的模型更能预测预后或药物反应的基因和微生物属的组合?在这里,我们使用直接来自Poore等人数据集的处理过的微生物丰度来建立TCGA预后和药物反应的预测模型。我们还使用TCGA RNA-seq阅读计数来建立等效的预测模型进行比较。

我们发现,在肾上腺皮质癌、宫颈鳞状细胞癌、脑低级胶质瘤和皮下黑色素瘤这四种癌症类型中,肿瘤微生物丰度比单独的临床协变量更能预测预后。然而,我们发现,在更广泛的癌症类型中,肿瘤基因表达比微生物丰度更能预测预后。此外,我们发现了五种癌症药物对,其中肿瘤微生物丰度比单独的临床协变量更能预测患者的药物反应。这五组包括多西他赛对乳腺浸润性癌和肉瘤的治疗,以及对胃腺癌的几种治疗。我们发现肿瘤微生物丰度与基因表达一样可以预测药物反应,但主要是在不同的癌症药物组合中。

结果

肿瘤微生物丰度比基因表达对预后的预测性差得多

分析工作流程的概述如图所示。1。它有四个主要部分,(1)数据下载和预处理,(2)预后和药物反应ML建模,(3)模型评估和评分,(4)进一步的特征分析。方法中提供了对分析管道和计算方法的更详细的技术描述。

图1:分析管道概述。
figure 1

Poore等人的下载和数据预处理(左)。10摘要:TCGA原发性肿瘤Kraken2 Voom-SNM微生物丰度,使用额外的过滤器减少技术变异,NCI基因组数据共享(GDC)协调TCGA原发性肿瘤RNA-seq计数和临床数据,TCGA策划的总生存期(OS)和无进展间期(PFI)结果数据45和TCGA策划的药物反应临床数据14。对每种癌症的微生物丰度、基因表达和具有临床协变量的组合数据类型进行预测机器学习(ML)建模(中),使用带有弹性净惩罚的惩罚Cox(Cox net)与使用标准Cox回归的匹配的仅临床协变量模型进行比较。使用三种ML方法(1) SVM-RFE、弹性网络逻辑回归(LGR)和limma-trend(微生物和组合数据类型)或edgeR(基因表达)差异分析特征评分和L2惩罚LGR选择,对每个癌症药物组合的相同数据类型和临床协变量进行药物反应分类ML建模。用L2惩罚线性SVM或LGR进行匹配的临床单协变量建模。ML建模从75/25随机混合和分层数据集分割的训练/测试中为每个模型生成100个模型实例。使用一致性指数(C-index)和时间依赖性累积/动态AUC (C/D AUC(t))对预后模型进行ML模型实例评分(右上),对药物反应模型使用受试者操作特征曲线下面积(AUROC)和精确回忆曲线下面积(AUPRC)。通过C指数或AUROC评分的有符号秩检验,分别在预后和药物反应模型的每个匹配模型实例之间确定模型性能改善相对于匹配的仅有临床协变量的模型的显著性。使用模型实例系数和选择频率执行的特征分析(右下方)。通过模型实例特征系数从零偏移的有符号等级测试和筛选选择频率≥ 20%的顶级特征来确定总体特征重要性等级和显著性。

我们建立了32种TCGA肿瘤类型的OS和PFI基因表达ML模型(见补充表1用于群组信息)11算法,通过交叉验证(CV)联合选择最具预测性的特征子集,同时能够控制预后临床协变量。在我们的模型中,我们包括并控制了诊断年龄、性别和肿瘤分期等临床协变量。为了比较,我们还建立了仅基于临床协变量的标准Cox回归模型。我们使用Harrell ' s concordance index(C-index)评估了我们模型的预测性能,这是一种生存模型预测准确性的衡量标准。每一个模型分析产生了100个模型实例和C-index分数,它们来自随机混合的训练-测试CV对数据的分割。我们发现21种肿瘤类型的33个OS和PFI模型的平均C指数得分≥0.6,显著优于其相应的仅含临床协变量的模型(图。2a,c补充图。1a, 2a).我们的模型预测了Milanez-Almeida等人报道的13种肿瘤类型中的11种的预后。9(补充表格2).我们没有分析Milanez-Almeida所分析的一种肿瘤类型,即急性髓性白血病(LAML ),因为Poore等人将其排除在他们的分析之外。在Milanez-Almeida等人分析的癌症和结果中,我们的方法产生了另外四种肿瘤类型的预测模型:乳腺癌(BRCA)、宫颈鳞状细胞癌(CESC)、肉瘤(SARC)和子宫内膜癌(UCEC),以及相当多的其他癌症和结果的预测模型,这些模型没有在他们的研究中进行分析(补充表2).我们还通过计算依赖于时间的累积/动态曲线下面积(AUC)来评估预后模型的性能C/D(t))12,13,它是连续结果的受试者操作特征曲线(AUROC)下面积的延伸,与C指数得分相比,它可以提供整个测试结果时间范围内预测性能的更详细的分辨率图像。尽管我们的OS和PFI基因表达模型中有33个与单独的临床协变量相比具有统计学显著的C指数评分改善,但这些模型中只有22个显示AUC改善C/D(t),其中平均AUC的改善C/D(t)在诊断后的整个试验时间范围内≥ 0.025(补充图。1b, 2b).

图2:基因表达和微生物丰度预后预测模型的性能,其中特征增加了对临床协变量的预测能力,( a)临床协变量模型的基因表达(橙色)和(b)临床协变量模型的微生物丰度(蓝色)对仅有临床协变量的模型(灰色)。
figure 2

两者都有ab数据表示为平均值+/平均值的标准偏差(SDM)\(n=100\)方法中描述的随机训练/测试分割。通过配对双侧Wilcoxon符号秩检验计算显著性,FDR根据多重比较进行调整:*\(p\le 0.01\), ** \(p\le 0.001\), ***\(p\le 0.001\). (c)C指数得分小提琴密度图\(n=100\)六个模型的训练/测试分裂,其中具有临床协变量特征的微生物丰度优于仅具有临床协变量的模型。小提琴图中的方框图显示了作为中心的中间值,对应于25°的上下铰链泰国(Thailand)和75泰国(Thailand)百分位数,以及延伸到最小和最大值不超过中位数四分位数范围1.5倍的胡须。显示相应的基因表达模型用于比较。连接点(浅灰色)的线表示来自数据上的相同训练测试分割的得分对。平均C指数得分显示为红点,红线连接平均值。使用双侧Wilcoxon符号秩检验计算相对于仅有临床协变量模型的预测改善的显著性,并使用Benjamini-Hochberg方法对多重检验进行调整p-数值显示在顶部。这些是一样的p-面板中显示的值a。调整过的p-红色值表示差异,只有临床协变量的模型更好。源数据和精确数据p值作为源数据文件提供。每个实验涉及的病例数见补充表1.

我们应用了Coxnet11使用Poore等人提供的微生物丰度估计值,使用相同的方法建立预测模型。10我们发现了6个微生物丰度模型,其平均C指数得分≥0.6,显著优于其相应的仅含临床协变量的模型(图。2b,c,补充图。3a).我们发现,在六个模型中只有两个模型中,微生物丰度在AUC方面优于单独的临床协变量C/D(t),其中平均AUC的改善C/D(t)在诊断后的整个试验时间范围内≥0.025(补充图。3b).在肾上腺皮质癌(ACC)中,从诊断后大约6年开始,微生物特征对OS的预测明显好于临床预后协变量。在CESC,从诊断后大约6个月到10年,微生物丰度比临床协变量更好地预测OS。总的来说,我们发现Poore等人的肿瘤微生物丰度对整个TCGA队列的预后仅有微弱的预测作用,而基因表达是一个明显更强有力的预后预测因子(图。2补充图。13).

肿瘤微生物的丰度可以预测某些癌症的化疗药物反应,并且与基因表达相比,肿瘤微生物丰度可以预测大多数不同的癌症药物组合的化疗药物反应

接下来,我们询问治疗前活检的肿瘤微生物丰度是否比单独诊断时的年龄、性别和肿瘤分期的临床协变量更能预测药物反应。药物反应临床数据来自丁等。14如方法中所述。完全缓解(CR)或部分缓解(PR)的病例被标记为缓解者,而疾病稳定(SD)或疾病进展(PD)的病例被标记为无缓解者。三十种TCGA癌症药物组合符合我们的最小数据集大小阈值(见补充表1队列规模和补充数据1更详细的分类)。我们使用三种不同的ML方法建立药物反应模型:(1)线性支持向量机递归特征消除(SVM-RFE)算法的变体15(2)使用弹性网的逻辑回归(LGR)16(L1 + L2)惩罚和嵌入特征选择,以及3)具有L2惩罚和limma的逻辑回归17(对于微生物丰度和组合数据类型数据集)或edgeR18,19(对于RNA-seq计数数据集)差异丰度/表达特征评分和包装选择方法(详见方法)。所有三种ML方法都无条件地将临床协变量(诊断时的年龄、性别和肿瘤分期)包括在模型中(绕过特征选择),同时选择最具预测性的微生物丰度或基因表达特征子集。为了比较,我们单独使用临床协变量建立了标准的线性SVM或LGR模型。我们使用AUROC评估了药物反应模型的预测性能。每项分析都从数据的随机混合训练测试CV分裂中生成了100个模型实例、AUROC和精确召回曲线下面积(AUPRC)分数。

我们发现五种微生物丰度癌症药物组合的平均AUROC评分≥0.6,并且在三种ML方法中至少有两种方法的表现优于单独的临床协变量(图。3).这些癌症药物组合中有三种涉及胃腺癌(STAD)。我们使用TCGA基因表达数据进行了相同的药物反应建模,在这里我们发现了六种癌症-药物反应组合,其平均AUROC评分≥0.6,并且在三种ML方法中的至少两种方法中显著优于其相应的仅含临床协变量的模型(图。4).只有一种癌症药物组合,SARC多西他赛,在微生物丰度和基因表达药物反应模型结果之间重叠,表明肿瘤微生物丰度具有独立的预测能力。尽管我们的显著药物反应模型的阈值之一是平均AUROC得分≥0.6,但我们从两种数据类型中发现的11个显著模型的平均AUROC均> 0.7。我们还发现,每种ML方法报告的所选微生物丰度和基因表达特征有相当大的重叠(图。5a,c)并且当比较每个癌症-药物组合中的两个最显著的方法时,经常发现每个ML方法报告的特征重要性等级之间的显著相关性(图。5b,d).这些结果表明,我们的重要药物反应模型及其推断的重要特征不是特定ML建模方法的结果。总的来说,我们的结果支持肿瘤微生物组可能包含一些癌症药物反应的预测信息,这与最近的报道一致20,21.

图3:微生物丰度药物反应预测模型在五种癌症-药物组合中的性能,其中模型的性能优于单独的临床协变量。
figure 3

a采用临床协变量模型(蓝色)与仅采用临床协变量模型(灰色)的微生物丰度平均AUROC得分显著性通过配对双侧Wilcoxon符号秩检验计算,FDR针对多重比较进行调整:*\(p\le 0.01\), ** \(p\le 0.001\), ***\(p\le 0.001\). b中显示的每种ML方法对的平均AUROC分数a。两者都有ab数据以平均值+/SDM表示,用于\(n=100\)方法中描述的随机训练/测试分割。c采用临床协变量模型与仅采用临床协变量模型的微生物丰度AUROC得分的小提琴密度图\(n=100\)培训/测试拆分。小提琴图中的方框图显示了作为中心的中间值,对应于25°的上下铰链泰国(Thailand)和75泰国(Thailand)百分位数,以及延伸到最小和最大值不超过中位数四分位数范围1.5倍的胡须。连接点(浅灰色)的线表示来自数据上的相同训练测试分割的得分对。平均AUROC分数显示为由红线连接的红点。d平均ROC(蓝色)和e采用临床协变量模型与仅采用临床协变量模型(灰色)的微生物丰度的精确召回(PR)曲线(紫色)。图例和阴影区域中显示的平均AUROC和AUPRC分数表示标准偏差。使用配对双侧Wilcoxon符号秩检验计算相对于仅有临床协变量的模型的预测改善的显著性,并使用Benjamini-Hochberg方法对多重检验进行调整p-显示在violin图顶部的值c与面板中显示的p值相同ab。在…里ce显示了具有最显著的Wilcoxon符号秩检验的建模方法的结果。源数据作为源数据文件提供。每个实验涉及的病例数见补充表1.

图4:基因表达药物反应预测模型在六种癌症-药物组合中的表现,其中模型表现优于单独的临床协变量。
figure 4

a临床协变量模型(橙色)与仅临床协变量模型(灰色)的基因表达平均AUROC得分显著性通过配对双侧Wilcoxon符号秩检验计算,FDR针对多重比较进行调整:\(p\le\) 0.01, ** \(p\le\) 0.001, *** \(p\le\) 0.0001. b每种ML方法的平均AUROC分数。两者都有ab数据以平均值+/SDM表示,用于\(n=100\)方法中描述的随机训练/测试分割。c临床协变量模型与仅临床协变量模型的基因表达AUROC评分的小提琴密度图\(n=100\)培训/测试拆分。连接点(浅灰色)的线表示来自数据上的相同训练测试分割的得分对。小提琴图中的方框图显示了作为中心的中间值,对应于25°的上下铰链泰国(Thailand)和75泰国(Thailand)百分位数,以及延伸到最小和最大值不超过中位数四分位数范围1.5倍的胡须。平均AUROC分数显示为由红线连接的红点。d平均ROC(橙色)和e临床协变量模型与仅有临床协变量的模型(灰色)的基因表达精确回忆(PR)曲线(绿色)。图例和阴影区域中显示的平均AUROC和AUPRC分数表示标准偏差。使用配对双侧Wilcoxon符号秩检验计算相对于仅有临床协变量模型的预测改善的显著性,并使用Benjamini-Hochberg方法对多重检验进行调整p-显示在violin图顶部的值c它们与p-面板中显示的值a。在…里ce显示了具有最显著的Wilcoxon符号秩检验的建模方法的结果。源数据作为源数据文件提供。每个实验涉及的病例数见补充表1.

图5:通过每种ML方法的药物反应模型顶级选定特征的比较。对于每一个药物反应模型,我们选择了两个最好的ML方法,根据它们各自的临床协变量模型的预测改善的显著性。
figure 5

微生物丰度的文氏图(a)或基因表达(c2)比较由每种ML方法单独选择的特征数量的模型,以及两种ML方法的交集。微生物丰度的Spearman等级相关图(b)或基因表达(d2)显示特征的中间等级(在选择特征的100个模型实例中)通常在两个最重要的ML方法之间相关的模型;p-价值观是双向的。最佳方法显示在x-轴,第二好的y-轴。源数据作为源数据文件提供。每个实验涉及的病例数见补充表1.

结合肿瘤微生物丰度和基因表达特征,在某些癌症中增加了适度的预测改善

最后,我们研究了结合微生物丰度和基因表达特征构建的模型是否会导致预测能力比相应的单一数据类型模型有所提高。组合数据类型仅在三个预后模型中产生适度的预测改善:SARC OS、STAD PFI和胸腺瘤(胸腺)OS(补充图。4a).虽然这种改善在C指数评分方面没有统计学意义,但AUCC/D(t)度量显示这些模型的预后预测能力明显改善,其中平均AUC的改善C/D(t)与它们各自的单一数据类型模型相比,在诊断后的整个时间范围内≥0.025。我们还发现了五种组合数据类型的药物反应模型,其表现明显优于单独的临床协变量,尽管这些模型中没有一个在AUROC评分改善方面与其各自的单一数据类型模型相比达到统计学显著性,但其中一个模型(BLCA顺铂)确实显示了与其相应的单一数据类型模型相比AUROC ≥0.025的改善(补充图。4b,c).

评估药物反应模型的稳健性

我们研究中使用的一些TCGA药物反应队列规模有限,这可能会影响我们分析的稳健性(见补充表1队列规模和补充数据1更详细的分类)。为了进一步研究这个问题,我们使用类别标签置换测试评估了模型分数的显著性。我们将数据集类别标签混洗1000次,每次都在置换数据集上运行外部CV程序,其中对于每次CV迭代,我们拟合一个模型实例并计算AUROC分数。然后我们计算了一个p-大于或等于真实分数的置换分数部分的值。上面报道的五个微生物丰度药物反应模型中的三个具有显著优于单独的临床协变量的表现,具有排列测试p-值< 0.05,对于胃腺癌(STAD)顺铂和奥沙利铂,其余两个p-数值< 0.08(图6a).无论使用何种建模方法,微生物丰度模型的排列测试分数和显著性都是相似的(补充图。5a).六个基因表达药物反应模型中的五个表现明显优于单独的临床协变量,它们进行了排列测试p-值< 0.05(图6c).同样,无论使用何种建模方法,排列测试分数和显著性都是相似的(补充图。6a).睾丸生殖细胞肿瘤(TGCT)博来霉素基因表达模型没有达到显著性,尽管值得一提的是对于edgeR特征选择和L2逻辑回归建模方法它是接近的(p= 0.077).

图6:药物反应模型稳健性的评估。使用类别标签排列测试和对特征选择对模型性能的影响的检查来进一步评估模型显著性和稳健性。显示了具有最显著的Wilcoxon符号秩检验的建模方法的结果。
figure 6

微生物丰度的排列测试结果直方图和显著性(a)或基因表达(c)显示排列平均AUROC分数分布的模型。真实平均AUROC得分显示为灰色垂直虚线,内核密度估计值显示为直方图上的曲线。显示在所有100个微生物丰度模型实例的超参数网格搜索期间,控制所选特征数量的模型超参数对平均AUROC和平均精度(AVPRE)分数的影响的曲线(b)或基因表达(d)模特。阴影区域表示标准偏差。源数据作为源数据文件提供。每个实验涉及的病例数见补充表1.

我们通过检查所选特征的数量对模型性能的影响,进一步评估了我们的重要药物反应模型的稳健性。在每个模型实例拟合期间嵌套内部CV中发生的超参数网格搜索和调整过程中,超参数设置和内部CV训练/验证折叠的每个组合的分数都被保存(请参见“方法”了解全部详细信息)。我们绘制了这些分数如何受到控制特征选择的超参数的影响。我们决定保守地将我们的药物反应模型中的特征选择搜索空间限制为最多400个最佳评分特征,以降低模型复杂性和过度拟合的可能性,这似乎是足够的,因为我们的重要模型的分数达到了最大值或在此搜索范围内保持平稳(图。6b和d).在五个微生物丰度模型中,预测能力是由三个模型中的少量特征驱动的,其中选择更多的特征不会有助于额外的预测能力或增加噪声(图。6b).即使在剩下的两个模型中,大部分预测能力也是由前50到100个特征驱动的。在六个基因表达模型中,这一发现更加明显,所有的预测能力都是由每个模型中的少量特征实现的(图。6d).在两种数据类型的所有显著模型中,分数的方差并没有受到我们选择的超参数搜索范围内所选特征的数量和特征样本比的显著影响。与排列测试结果一样,我们发现,无论使用何种特征选择或建模方法,所选特征的数量对模型性能的影响都是相似的(补充图。5b, 6b).总之,这两项综合分析表明,这项研究中发现的显著癌症药物反应组合以及从其模型中推断出的最重要的特征代表了潜在的真实和强大的生物信号。

特征分析揭示了广泛的预测微生物属

为了了解更多关于最具预测性的特征,我们确定了顶级微生物属和顶级基因(补充数据2)分别由每个显著预测的微生物丰度和基因表达模型根据它们的选择频率和来自每次分析的100个模型实例的模型系数来选择。在至少一个预后或药物反应模型中出现了428种不同的微生物属。在这428个属中,160个通过Wilcoxon试验单独显著预测预后或药物反应,表明其他属在组合中显著预测。每个模型选择的属的中位数是52,最少3个(BRCA多西他赛),最多78个(STAD顺铂)。在428个属中,有95个在一个以上的模型中被选择,只有13个在两个以上的模型中被选择。这与Nejman等人的观察结果一致。22肿瘤微生物群是肿瘤类型特异性的。我们发现的预测属跨越生命的所有非真核领域,总共包括365个细菌属、17个古细菌属和46个病毒属(补充数据2).

讨论

总之,我们发现Poore等人提出的微生物丰度估计值。10可预测癌症患者的预后和对肿瘤类型子集、生存结果和治疗的化疗反应。机器学习方法,如本研究中应用的方法,不能推断因果关系,但只能告知协变量与响应变量之间的积极或消极预测关联。这些协变量在决定患者预后或药物反应中的潜在因果作用只能通过专门的机制研究来确定。总的来说,就显著模型的数量而言,基于其交叉验证的C指数或AUROC评分以及相对于单独的临床协变量的改善,肿瘤微生物组在预测患者预后方面远不如肿瘤人类转录组具有预测性,但值得注意的是,在预测化疗反应和大多数不同的癌症药物组合中,其表现类似于基因表达。我们的研究激发了未来的研究,研究肿瘤微生物组在预测靶向治疗和免疫治疗反应中的作用。

我们目前的研究也有一些局限性。如前所述,一些TCGA药物反应队列规模有限,或者队列中有反应或无反应的病例相对较少,这可能会影响结果的可解释性。瓦巴拉等人。23对样本量有限的高维生物数据模型的ML算法验证进行了文献综述,并对不同技术进行了独立的模拟分析。他们发现,与以前的文献一致,嵌套CV是最佳验证方法,无论样本大小如何,都能给出无偏的性能估计。他们还发现,在内部嵌套CV中完全执行特征选择和其他模型开发步骤(例如,归一化、异常值去除)对于避免过度拟合和产生无偏结果是至关重要的,并且超参数调整也应该理想地以嵌套方式执行。最后,他们发现进行足够次数的CV折叠对减少偏差很重要。我们的分析遵循了他们的观察和建议,在模型开发和评估的每一个层面都采用了他们的观察和建议,包括他们工作中没有审查的其他技术(详见方法)。

这项研究还存在更多的局限性,这些局限性来自最初由Poore等人提出的数据的局限性。10首先,这项研究是回顾性的,使用了TCGA的现有数据。因此,它不涉及任何捕获微生物读数或控制污染的具体方案。第二,对这种回顾性数据的净化是一个高度复杂和数据集特定的过程,他们花了很大的努力来验证这一点。Poore等人从这一验证中得出结论,TCGA的回顾性研究是成功的,类似的回顾性研究将是有价值的。他们简要提到的第三点是,所使用的方案在捕获微生物读数方面有局限性,无法区分微生物读数的来源是细胞内还是细胞外,或者在取样时是活的还是死的。Poore等人建议,我们认为有必要为前瞻性研究开发额外的方案。

接受研究的局限性,我们观察到某些趋势。变形菌门和厚壁菌门是被鉴定为预测特征的最常见的门(补充数据2),其次是放线菌和拟杆菌门。在病毒中,疱疹病毒是最常见的。与阳性预测相比,更多的微生物属对药物反应或预后具有阴性预测(306/537特征为阴性;双边二项式检验p-值= 0.0014)。厚壁菌门逆转了这一趋势,更经常地为阳性预测(对49/82特征为阳性,双侧Fisher精确检验p-值= 0。0.0036;补充表格3).

进一步检查我们的显著模型的预测特征和它们的癌症类型,我们发现几个厚壁菌门属可以预测CESC的OS,包括乳酸菌目被发现对存活率有负面预测。我们还发现这个属衣原体与CESC的OS有更强的负预测关联。值得注意的是,尽管已知CESC病毒经常由人乳头瘤病毒感染引起,但其他微生物物种的存在,尤其是属衣原体乳酸菌目据文献报道,与患CESC病的风险有关24,25.

我们的预后分析结果不同于最近的两个报告26,27他们在三种TCGA癌症中发现了一些可能与预后相关的肿瘤内微生物。使用我们的数据驱动的正则化ML计算方法,我们没有发现Poore等人从TCGA估计的肿瘤微生物丰度对这三种癌症的OS或PFI有预测作用。这种结果差异的几个重要的可能原因是,与这些研究相比,不同的来源数据和方法用于进行预后分析。Gnanasekar等人。26通过肿瘤亚型分析THCA队列,他们使用协调和标准化的GDC TCGA数据,而不是Poore等人的传统TCGA,然后进行标准化和批量效应校正,他们只使用RNA-seq数据,而不是WGS和RNA-seq数据,他们应用不同的方法提取微生物读数和净化,最后他们没有进行任何直接的微生物丰度与生存结果相关性的分析。多尔曼等人。27分析结肠直肠癌(结肠(COAD)和直肠(READ)腺癌)也使用协调和标准化的GDC TCGA数据,他们使用WGS和全外显子组测序(WXS)数据,而不是WGS和RNA-seq,他们还使用不同的方法提取和净化微生物读数,最后他们还对他们的整个数据应用经典的单变量统计,以推断与总生存率(OS)的相关性。虽然我们认为使用协调的GDC TCGA数据优于传统的TCGA数据,但Poore等人应用了稳健的计算方法来消除传统TCGA数据中的技术差异,并验证了他们的方法是有效的。我们还应用了额外的TCGA样本过滤器来进一步消除技术差异。我们还认为,一般来说,对整个数据应用经典的单变量统计来寻找相关性有可能过度拟合特定的数据集,并且它没有考虑高维生物数据(如肿瘤内微生物丰度)的多变量性质。以数据为中心、多变量和正则化的ML方法侧重于根据训练数据拟合模型,并根据看不见的测试数据进行评估,这种方法有可能更好地进行概括,并发现特征是否可能预测反应变量并与之相关,如生存结果或药物反应。

查看我们的药物反应模型结果,在STAD,肿瘤微生物丰度可以预测对三种不同药物的反应:顺铂、醛氢叶酸和奥沙利铂。该属螺杆菌在Poore等人的数据集中是一个量化的微生物丰度特征,尽管值得注意的是,尽管已经很好地确定感染H.幽门患胃癌的风险增加28, 螺杆菌在我们的STAD模型中没有被确定为药物反应的预测特征。这一发现与最近的研究相一致,该研究表明微生物多样性减少,微生物数量减少H.幽门和其他主要共生细菌属在胃癌中的富集29。相反,在STAD我们发现了已知的机会细菌西地西菌属鞘氨醇杆菌都是对醛氢叶酸反应的强阴性预测,鞘氨醇杆菌是顺铂反应的强阴性预测,并且条件细菌鲁西埃拉是奥沙利铂反应的强阴性预测。西地西菌属鞘氨醇杆菌在包括癌症在内的罕见病例中,与免疫缺陷个体的菌血症有关30,31,32,33。因为生物失调在胃癌中很常见34,35考虑到亚叶酸的作用机制,研究来自这两个属的生物是否可以隔离或阻止细菌产生亚叶酸可能是有意义的36.

我们发现了三个微生物属,其丰度与乳腺癌对多西他赛的反应密切相关。事实上,肿瘤微生物群参与了乳腺癌(BRCA)22,37最近受到了广泛关注。在BRCA,我们发现含有爱泼斯坦-巴尔病毒(EBV)的属与对多西他赛的反应呈负相关,这与先前的发现一致,即EBV与胃癌对多西他赛的耐药性相关38。有趣的是,在我们的研究中,蓝细菌是几种癌症的预测特征,我们发现一种蓝细菌可以预测BRCA患者对多西他赛的反应。值得注意的是,最近Nejman等人证实了BRCA存在蓝细菌。22通过16S-rRNA测序。虽然我们确定的种类,Raphidiopsis在最初的微生物丰度估计中,这可能是一个分类学上的错误,我们的发现可能指向最近发现的蓝细菌的分支Melainabacteria下的一个相关属39,存在于人类中。虽然黑色素菌很难培养,但我们认为应该验证BRCA对多西他赛的反应与黑色素菌之间的关系,第一步是在专门的16S-rRNA分析中证实我们通过计算得出的发现。

有趣的是,在肉瘤(SARC)中,在最具预测性的微生物特征中,我们发现了该属乳球菌与多西他赛疗效呈正相关。乳球菌包含有时会导致人类机会性感染的物种,如乳球菌类似于链球菌以前属于那一类。在我们的模型中,该菌属与应答呈正相关的结果最初似乎与直觉相反,尽管使用治疗性细菌作为抗肿瘤剂尚未得到广泛研究,但在文献中有一些有限的发现表明使用细菌疗法作为抗癌剂40。历史上,有意使用各种毒素链球菌在SARC显示显著抗肿瘤活性的物种已有文献记载41,42,43。在我们的模型中,一些微生物对多西他赛反应呈强阳性预测的一个可能的可测试的解释是,它们可能产生一些胞外产物或毒素,可以作为化疗的佐剂。

总之,虽然这些发现和本研究中报道的其他发现是通过计算得出的关联,但我们相信它们可以作为微生物物种在调节患者存活和药物反应中的作用的进一步实验研究的线索,可能通过如上所述在肿瘤微环境中代谢药物水平,或通过改变特定免疫代谢物的水平或通过使肿瘤呈递特定细菌抗原来改变免疫反应44.


武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297