突变密度和时间的年龄关联 我们独立地调查了tcga、pcawg和aacr基因数据集,并在单独的分析中进行了涵盖所有tcga、所有pcawg和所有aacr基因肿瘤的泛癌分析;这些分析得到了肿瘤类型特异性分析的补充。我们使用诊断时记录的年龄(表) 1 ),并实施了两阶段统计方法:我们首先使用单变量方法来识别假定的年龄关联,然后再用多元回归方法对这些假设的影响进行建模,在调整混杂因素后评估年龄效应。我们的多变量模型为每一种肿瘤类型,包括性别和遗传祖先,解释了一系列混杂的变量。我们根据现有的临床数据、先验知识、变量共线性和模型收敛性对每个基因组特征和肿瘤亚型进行建模。模型和变量规格以及模型变量与年龄之间的关联测试结果见补充数据 1 。我们进行了两轮多重测试调整:一次在第一单变量阶段,另一次在第二多变量阶段,两次都使用本雅明-霍奇伯格错误发现率(FDR)程序。我们的发现必须通过叠加的10%的FDR阈值之上的10%,经过两个阶段的分析,代表一个严格的联合阈值1%。邦菲罗尼 p 价值观为我们的研究结果提供了类似的支持。FDR调整 p 除非另有说明,否则将报告数值。本雅明-霍奇伯格和邦费罗尼,以及未经调整的 p 值提供在 补充材料 。我们在补充数据中给出了统计显着性结果的子集 2 ,以及补充数据的全部结果 3 –7 .
随着年龄的增长,突变的积累在癌症和非癌症细胞中都是众所周知的现象。 40 ,41 ,42 ,43 ,44 ,45 ,46 ,47 。为了检验我们的统计框架在检测年龄相关基因组事件方面的鲁棒性,我们研究了年龄关联的两种突变累积量:单核苷酸变异(SNV)密度和基因组不稳定性。SNV密度和基因组不稳定性都有临床相关性,因为它们与某些肿瘤类型的预后不良有关。 48 ,49 ,50 以及对其他免疫疗法的反应 51 ,52 。我们首先用Spearman相关法确定了SNV密度的单因素年龄关联.用多元线性回归(Lnr)模型进一步分析在fdr阈值为10%时确定的年龄相关性,以调整肿瘤类型特有的混杂效应(补充数据)。 1 第二个FDR阈值为10%,用于识别具有统计学意义的年龄相关事件。我们以前已经成功地应用这个统计策略来识别与性别相关的体细胞突变特征。 53 ,54 .
如预期 40 ,41 我们在一系列肿瘤背景下发现了年龄和SNV积累之间的显著关联(图一)。 1A )。TCGA中年龄与SNV密度呈正相关(PAN-TCGA: ρ =0.31,FDR调整后的LNR p =4.1×10 −57 ,Bonferroni调整后的LNR p =4.1×10 −57 )和PCAWG(ρ=0.43,FDR调整后的LNR) p =1.6×10 −26 ,Bonferroni调整后的LNR p =4.1×10 −57 )数据。利用tcga和pcawg数据,我们估计SNV密度每年以每兆位0.077突变的速度增长(表)。 2 , 方法 )。我们还确定了11个TCGA,14个PCAWG和6个AACR基因肿瘤类型的阳性关联(图)。 1A )。其中,九种肿瘤类型在三个数据集中有两个显示出一致的结果(补充图)。 1 ,补充数据 2 ,补充数据 3 )包括前列腺癌(TCGA: ρ =0.25,FDR调整后的LNR p =0.015,Bonferroni调整后的LNR p =0.13;PCAWG: ρ =0.48,FDR调整后的LNR p =1.2×10 −4 ,Bonferroni调整后的LNR p =8.7×10 −4 , 估计0.12μt/mbp/年;如图所示。 1B )。表中列出了每年增加突变密度的估计数。 2 对于九种肿瘤类型,至少有两个数据集有一致的证据。
图1:突变密度和时间与诊断年龄有关。 年龄与年龄之间的关系摘要( A )SNV密度和( D )TCGA、PCAWG和AACR基因肿瘤基因组改变百分比(PGA)。网点大小和颜色显示Spearman相关性,背景阴影表示调整后的多元。 p 价值。只有肿瘤类型,至少有单一的显着性关联显示。之间的联系 B )SNV密度和( E )PGA与年龄有关的前列腺癌的三个数据集(n TCGA =492,n PCAWG =199,n AACR-基因 =582个生物独立样本)。单变量Spearman相关 p 值与fdr调整的多变量线性回归 p 所示值。 C 四种PCAWG肿瘤情况下树干克隆中SNVS发生的年龄与比例的相关性(Spearman相关和线性回归fdr调整后) p )。 F TCGA肺腺癌( n )、年龄和PGA与吸烟史有关(Kruskal-Wallis检验)和( G )PGA与年龄之间的负相关在目前吸烟者和新近改过自新的吸烟者中仍然显着(≤15岁;Spearman相关) p )。自上而下:从不吸烟(黄色),现在改过自新的吸烟者>15年(绿色),当前改进型吸烟者≤15年(淡蓝色),当前吸烟者(深蓝色)。图基盒图显示的框表示四分位数和须须分别绘制在下四分位数和上四分位数的1.5内四分位数范围内的最低值和最高点。源数据作为 源数据文件 .
接下来,我们询问这些SNV在肿瘤演化过程中发生的时间和描述PCAWG肿瘤进化史的杠杆数据是否有差异。 55 。我们首先调查了多克隆性,或在每个肿瘤中检测到的癌细胞数量。单克隆肿瘤,或那些所有肿瘤细胞都来源于一个祖细胞的肿瘤,在几种肿瘤类型中与更好的存活有关。 56 ,57 ,58 。虽然在非霍奇金淋巴瘤和前列腺癌中年龄和多克隆性之间存在着有趣的单因素关联,但这些在多变量模型中没有显着性(补充图)。 1 ,补充数据 3 )。然后我们关注多克隆肿瘤,并询问突变时机是否有关联:我们调查了SNVS、Indels或结构变异(SVS)是否更频繁地发生在主干的克隆突变或分支中的亚克隆突变。
我们确定了年龄和突变时间之间的几个重要关联。在泛PCAWG分析中,我们发现年龄与克隆性SNVS的比例呈正相关( ρ =0.20,FDR调整后的LNR p =1.4×10 −3 、图1. 1C )和克隆indels的比例( ρ =0.14,LNR p =0.013,补充数据 3 )。年龄也与两种肿瘤中克隆性SNV比例的增加有关:胃癌(胃腺癌: ρ =0.44,FDR调整后的LNR p =0.028,Bonferroni调整后的LNR p 和髓母细胞瘤(CNS-Medullo: ρ =0.34,FDR调整后的LNR p =2.5×10 −3 ,Bonferroni调整后的LNR p =5.1×10 −3 、图1. 1C )。这些肿瘤类型中的正相关表明,老年人的肿瘤在肿瘤演化早期积累了更多的SNV。相反,我们在黑色素瘤中发现了相反的趋势,年轻患者的肿瘤累积的亚克隆性比克隆性SNVS(ρ =−0.47,FDR调整后的LNR p =7.8×10 −3 ,Bonferroni调整后的LNR p =0.023)。克隆突变所占比例的差异表明肿瘤进化过程中存在差异突变时间,这可能是由于突变过程或驱动突变频率的差异等原因造成的。
我们接下来的重点是基因组不稳定性,这是一种拷贝数畸变(CNA)负担的测量方法,近似于CNAs(PGA)改变的基因组百分比。类似于SNV密度测量点突变的负担,PGA测量拷贝数改变的密度。我们发现在泛癌分析中,PCAWG中PGA随年龄的增加而增加。 ρ =0.19,FDR调整后的LNR p =0.022,Bonferroni调整后的LNR p =0.068)和AACR精灵( ρ =0.041,fdr调整后的lnr p =0.050,Bonferroni调整后的LNR p =0.16)(图1。 1D ),并估计PGA以每年0.010%的速度增长(表) 2 )。我们还确定了6个TCGA、3个PCAWG和3个AACR基因肿瘤类型之间的正相关关系。再次,前列腺癌显示出一致的年龄-PGA关联,这一次在所有三个数据集(TCGA: ρ =0.17,FDR调整后的LNR p =6.7×10 −5 ,Bonferroni调整后的LNR p =1.8×10 −4 ;PCAWG: ρ =0.27,FDR调整后的LNR p =3.0×10 −3 ,Bonferroni调整后的LNR p =4.4×10 −3 ;AACR精灵: ρ =0.11,FDR调整后的LNR p =0.050,Bonferroni调整后的LNR p =0.20,增加0.2%/年;如图所示。 1E )。年龄与胃癌资料中的PGA有关,估计每年增加0.19%( ρ =0.11,FDR调整后的LNR p =0.011,Bonferroni调整后的LNR p =0.011)和AACR精灵( ρ =0.38,FDR调整后的LNR p =0.041,Bonferroni调整后的LNR p 当其他年龄-PGA相关性在多个数据集之间没有统计学意义时,它们表现出相似的效应大小(补充图)。 1 )。有趣的是,我们在TCGA肺腺癌中检测到了阴性的年龄-PGA关联(如图所示)。 1D ),以及与之相应的PCAWG中的负面关联( ρ =−0.13)和AACR基因肺癌( ρ =−0.099)(附图。 1 )。PGA每年增加的估计数见表。 2 对于五种肿瘤类型,至少有两个数据集有一致的证据。
为了更好地理解为什么年轻患者的肺癌可能有更高的基因组不稳定性,我们调查了烟草的使用。吸烟是肺癌的一个众所周知的危险因素.我们的多变量肺癌回归模型确实考虑到了烟草的使用,但我们补充了我们的分析,对PGA、年龄和烟草历史之间的关系进行了更集中的研究。年龄与烟草历史有关(Kruskal-Wallis) p =1.6×10 −12 、图1. 1F , 顶 ),而现在的吸烟者被诊断为肺癌的年龄比从来没有过的要小(地点差异=−6.0,95%CI=−8.0-−4.0,Wilcoxon秩和检验) p =1.2×10 −7 )。PGA还与吸烟史有关(Kruskal-Wallis) p =1.6×10 −12 、图1. 1F , 底部 )目前吸烟者出现的肿瘤PGA较高(位置差异=5.0,95%CI=1.2-9.2,Wilcoxon秩和检验) p =1.0×10 −3 )。然后,我们检查了年龄和pga在每种烟草使用类别之间的关联,发现在从不吸烟者和改进型吸烟者≥15岁之间没有关联(Spearman相关)。 p ≥0.1,图1. 1g )。相比之下,当前吸烟者和改进型吸烟者的肿瘤呈统计学上的显著负相关,表明年龄与PGA之间的负相关取决于当前或近期的烟草使用情况。这些突变密度结果显示了衰老与突变积累之间关系的细微差别:突变在整个肿瘤进化过程中发生的时间以及它们通过不同的突变过程发生的方式存在差异。
年龄相关突变特征 我们继续通过突变签名数据探索突变过程。有关暴露的临床数据,如烟草使用历史和频率,由患者自行报告,可能不准确,记录错误或没有描述。此外,临床数据通常不包括暴露的信息,如二手烟,这也是已知的癌症危险因素。 59 。我们利用宇宙突变特征,将其应用于从基因组测序中分离出独特的突变模式。 60 。每个突变信号被认为代表一个特定的致癌过程--例如,单碱基信号(SBS)4代表烟草暴露。利用突变特征,我们不仅可以检测肿瘤内致癌过程的影响,还可以量化该过程的突变数量,并与肿瘤内其他活跃突变过程的活性相比,评估其相对活性。
针对吸烟特征SBS 4,我们将TCGA肺腺癌肿瘤分为SBS 4阳性(SBS 4+)组和阴性(SBS 4−)组。SBS 4+肿瘤在年轻患者中的检出率更高(Wilcox)。 p =1.1×10 −5 )并有较高的PGA(Wilcox) p =1.0×10 −3 、图1. 2A 左边 )。我们还发现SBS 4的突变数与年龄呈负相关(Spearman‘s)。 ρ =−0.12, p 值=0.086,与PGA(Spearman‘s)呈正相关 ρ =0.31, p 数值=2.9×10 −6 、图1. 2A 中心 )。这些发现表明,烟草相关突变的负担更多发生在年轻患者的肺肿瘤中,并与基因组不稳定性增加有关。当将SBS 4属性SNVS作为检测到的SNVS总数的一小部分时,我们发现年龄与SBS 4相对活性呈负相关(Spearman‘s)。 ρ =−0.16, p 值=0.017),与PGA(Spearman‘s)无关 ρ =0.082, p 值=0.23,如图所示。 2A 正确的 ):也就是说,虽然吸烟引起的突变在年轻患者中占更高的比例,但这种相对活性与基因组不稳定性的变化无关。此外,在分别检测SBS 4+和SBS 4−肿瘤中年龄与PGA的关系时,我们发现两组患者的年龄与PGA呈显著负相关(图一)。 2B ),提示SBS 4基因突变以外的其他因素可能导致年轻患者肺癌中PGA的增加。
图2:年龄相关的突变特征表明在潜在的突变过程中存在差异. A TCGA肺腺癌(LUAD); n 与烟草相关的标记SBS 4(左;双边Wilcoxon秩和检验)与年龄(顶级样地)和PGA(底部样地)相关。黄色和蓝色点分别表示SBS 4−和SBS 4+肿瘤。SBS 4基因突变的绝对数也与年龄和PGA(中;Spearman相关)有关。SBS 4型突变的相对比例与年龄呈负相关,与PGA无显著相关性(右;Spearman相关)。 B SBS 4+(蓝色)组和SBS 4−(黄组)组PGA与年龄呈显著负相关(Spearman相关)。 C 年龄与签名阳性肿瘤比例的关系摘要,其中点大小显示Logistic回归的边缘对数概率,背景阴影显示经调整的多变量。 p 价值。PCAWG数据在左侧,TCGA在右侧。 D 同样,年龄和相对签名活动之间的关联总结,点大小显示Spearman相关性和背景表示调整的线性回归。 p 价值。 E PCAWG和TCGA签名检测频率的比较。填圈和开圈表示差异在统计上有显着意义的比较(比例测试fdr调整后)。 p < 0.05) and not, respectively. Proposed SBS signature aetiologies are as indicated. Proposed DBS and ID aetiologies are: DBS1: UV, DBS2: tobacco, DBS5: platinum chemotherapy, DBS7: defective MMR, ID1: slippage during DNA replication, ID2: slippage during DNA replication, ID3: tobacco, ID6: defective homologous recombination, ID8: non-homologous end joining, ID13: ultraviolet radiation. Tukey boxplots are shown with the box indicating quartiles and the whiskers drawn at the lowest and highest points within 1.5 interquartile range of the lower and upper quartiles, respectively. Source data are provided as a 源数据文件 .
我们在TCGA肺鳞状细胞癌中重复了这一分析,并在SBS 4-肿瘤中检测到年龄与PGA之间类似的负相关(Spearman‘s)。 ρ =−0.17, p 数值=5.8×10 −3 ,但在SBS+肿瘤中没有关联(Spearman‘s) ρ =−0.0069, p 数值=0.94,附图。 2 )。肺腺癌SBS 4活性与年龄呈负相关(肺腺癌: ρ =−0.50,调整后的LNR p =0.025,补充图。 2 )。事实上,SBS 4和年龄在肺癌的两种亚型和两组数据集上一直呈负相关,尽管在经过多次测试调整后,并不是所有的关联都具有统计学意义。这支持了先前的发现,即烟草在年轻患者中具有更大的肿瘤发生作用,烟草相关的突变在肿瘤突变景观中的很大一部分来自较年轻的个体。61 .
PCAWG项目将宇宙签名v3更新为49个单碱基替换、11个双碱基替换(Dbs)和17个小插入和删除(Id)签名。 62 。我们将SBS 4的分析扩展到PCAWG数据中的所有77个突变签名和TCGA数据中的SBS签名。我们没有研究AACR基因数据中的突变特征,因为MSK影响面板有限的基因组覆盖导致的突变数目较少。就像我们对SBS 4的分析一样,我们检查了标记阳性肿瘤的比例以及相关的突变活性。以前关于突变特征的研究描述了年龄和特征属性突变之间的相关性,但忽略了签名检测和相关活动的其他方面。通过比较签名检测率,我们确定了在年轻患者和老年患者中更有可能活跃的突变过程,反之亦然。通过分析特征性突变在每个肿瘤总突变中所占的比例,我们得出了该特征对整个突变谱的贡献的信息。例如,sbs 1是众所周知的“时钟样”,其基因突变的数量随着年龄的增长而增加。 60 ,62 。然而,由于SBS 1几乎是普遍检测到的,它同样可能发生在年轻患者和老年患者的肿瘤中;当分析SBS 1突变占总突变的比例时,我们发现SBS 1突变的比例没有随年龄而变化,这表明SBS 1的相对活性随着年龄的增长而稳定(Spearman‘s相关性)。 p >0.1)。
在所有2562个PCAWG肿瘤中,我们发现12个突变特征与年龄相关的检测频率(图1)。 2C , 左边 )与年龄相关的相对签名活动(图一)。 2 , 左边 )。例如,老年患者出现的肿瘤更有可能是sbs 3阳性(边缘对数概率变化=0.0085,95%CI=0.0024-0.015,调整后的lgr)。 p =0.075),但在这些sbs阳性肿瘤中,sbs 3基因突变的比例随着年龄的增加而下降( ρ =−0.20,FDR调整后的LNR p =3.2×10 −3 ,Bonferroni调整后的LNR p =0.013)。SBS 3突变被认为是由有缺陷的同源重组DNA损伤修复引起的。这些结果表明,虽然来自老年人的肿瘤更有可能存在DNA损伤修复缺陷,但它对SNVS负担的相对影响要低于年轻个体的肿瘤。ID8与非同源dna端连接缺陷相关(边缘对数比数变化=0.024,95%CI=0.020-0.028,fdr调整的lgr)。p =3.4×10 −3 ,Bonferroni调整后的LNR p =0.021; ρ =−0.099,fdr调整后的lnr p =3.7×10 −5 ,Bonferroni调整后的LNR p =3.7×10 −5 )和id1,与dna复制过程中的滑动相关(边际日志概率变化=0.013,95%CI=0.0059-0.020,fdr调整的lgr)。 p =0.018; ρ =−0.059,fdr调整后的lnr p =0.048)。和SBS 4的结果一样,我们发现了年龄和其他与烟草相关的标记DBS 2和ID3之间的关联。相反,发生在老年人身上的肿瘤不太可能出现有缺陷的碱基切除修复(SBS 36)。所有突变特征的发现都在补充数据中3 .
这些泛癌差异持续存在于不同的肿瘤类型。我们在11个肿瘤类型中发现了23个年龄相关的信号,其中包括6个黑色素瘤的显著特征.在这种肿瘤类型中,老年患者产生的肿瘤优先为sbs 2阳性(边缘对数概率变化=0.051,95%CI=0.013-0.095,调整后的lgr)。p =0.029,图1。 2C ),归因于APOBEC胞苷脱氨酶活性。 63 。较年轻患者出现的黑色素瘤更有可能是与紫外线损害有关的特征(SBS 7a,b,d,图)。 2C ,补充数据 3 )。在年轻患者中,紫外线损伤所致突变的比例也较高(DBS 1, ρ =−0.29,FDR调整后的LNR p =0.019,图1。 二维空间 ),而在老年患者中,由于DNA复制过程中的滑动引起的突变比例较高(ID1, ρ =0.27,FDR调整后的LNR p =0.019,图1。 二维空间 )。这些结果提示年轻患者黑色素瘤更多地涉及紫外线照射和损伤,而老年患者黑色素瘤更多地受到内源性突变的影响。
利用TCGA数据中描述SBS签名的数据,我们重复了这一分析,以识别来自整个外显子序列(WXS)数据的签名中的年龄关联。在泛TCGA肿瘤中,我们检测到5个在老年人中发生频率更高的签名,3个在较年轻的个体中出现得更频繁(如图所示)。2C )。我们还鉴定了五个在年轻患者中具有较高相对活性的特征(如图所示)。 二维空间 ).
TCGA和PCAWG的结果有一定的一致性:虽然一个数据集的结果从未与另一个数据集的结果相矛盾,但在TCGA或PCAWG数据中,一些签名与年龄有关。其他特征,如SBS 1和SBS 5,在检测年龄和在任何一个数据集中的肿瘤类型范围内的相对活动都是相关的。只有SBS 2和SBS 4这样的签名是完全一致的。我们假设这是由于WXS和全基因组测序(WGS)数据之间的签名检测率的差异,并比较了每个签名在所有样本中被检测的频率(图)。 2E )。数据集间一致性较高的签名与SBS 2(检测差异=1.5%)和SBS 4(检测差异=1.1%)具有相似的检出率。发现不重复的特征有很大不同的检出率,如SBS 1(检测差异=7.2%)和SBS 5(检测差异=10%)。我们通过比较来自非PCAWG WGS和非TCGA WXS数据的签名数据进一步验证了这一点。PCAWG和TCGA数据在签名检出率上的差异反映在非PCAWG WGS和非TCGA WXS数据中(补充图)。 3 )。我们还专门研究了确定的年龄关联,并发现在相同的排序策略生成的数据中有很高的一致性(补充图)。 2 )。这些发现表明,在WGS和WXS数据中检测到的年龄关联有很高的可信度,并且需要对独立的WXS和WGS数据进行额外的研究,以验证TCGA-和PCAWG的具体发现。
与转录改变相关的CNA差异 全球突变特征,如基因组不稳定,是肿瘤进化史后期的特征。相反,早期阶段往往是由染色体或基因特定的事件所驱动的,例如特定染色体的丢失。 55 。Cnas通常会影响包含多个基因的广泛基因组片段,但并不是所有这些基因都具有选择性优势; 64 识别靶向癌基因和肿瘤抑制因子,并用于描述cna驱动因子的目录。 65 。因此,我们将注意力集中在由宇宙描述的87个已知的cna癌症驱动基因上。 66 。我们应用我们的统计框架,用单因素Logistic回归来识别与年龄相关的拷贝数驱动因素的得失,而那些超过10%的FDR阈值的人则采用多变量Logistic回归模型来解释混杂因素。我们进一步使用皮尔逊的 Χ 2 将所有驱动程序cnas作为一种正交度量来评估所有驱动cnas的测试,以尽量减少假阳性的命中率:我们只获得了在我们的统计框架中通过了两个堆叠的10%fdr阈值的结果,以及在x平方上超过10%f p 价值是重要的。我们将这些分析分别应用于PCAWG、TCGA和AACR基因数据集,以描述泛癌和肿瘤类型的特异性关联。我们用 p 如附图所示的Q-Q图。 4 .
在对tcga数据进行泛癌分析时,我们发现了20个更频繁丢失的驱动基因(如图所示)。 3A 以及在老年人肿瘤中更常见的8个驱动基因(如图所示)。3B )。与年龄有关的损失 FANCA (边际对数概率变化=0.015,95%CI=0.012-0.018,FDR调整后的最大似然比 p =3.2×10 −9 ,Bonferroni调整的MLR p =5.9×10 −9 (边缘对数概率变化=0.051,95%CI=0.036-0.066,fdr调整后的mrr)。 p =0.011,Bonferroni调整后的MLR p =0.011)。其他与年龄相关的损益事件在一个数据集中具有统计学意义,并至少在另一个数据集中得到类似影响的证实(补充数据)。 4 –5 )。在特定的肿瘤类型中也有年龄相关的CNA:我们在五种肿瘤类型中至少有两个数据集的证据来检测年龄相关的增益(图一)。 3B ),以及在六种肿瘤类型中的丢失(如图所示)。 3A ),最显著的是卵巢癌(补充数据) 5 )。这些关联大多是阳性的,表明这些CNA驱动因素更有可能发生在老年患者的肿瘤中。
图3:拷贝数驱动程序中的年龄关联与mRNA和存活率的功能变化有关. 所有检测到的与年龄相关的司机CNA摘要( A )损失(用蓝色协变量栏表示)和( B )三个数据集的增益(红色协变量条)。网点大小表示关联的大小与比例的差异,背景阴影表示调整后的多元。 p 价值。右协变量用红色表示拷贝数增益驱动,蓝色表示丢失驱动。 C 与年龄相关的CNA导致与CNA本身(顶部)、年龄(中间)以及CNA(底部)的特定年龄效应相关的mRNA丰度差异。 D TCGA肉瘤( n =255个生物独立样本), CDKN2A MRNA丰度在拷贝数丢失(蓝色)和无丢失(黑色)之间发生变化,并在低、高年龄时按年龄细分。图基盒图显示的框表示四分位数和须须分别绘制在下四分位数和上四分位数的1.5内四分位数范围内的最低值和最高点。FDR调整 p 给出了双边Wilcoxon秩和检验和Spearman相关的值. E SUFU 胶质母细胞瘤(GBM)丢失; n =574个生物独立样本)与年龄相互作用,以进一步分层病人的预后。调整后 p 显示拷贝数丢失-年龄交互项的值。源数据作为 源数据文件 .
接下来,我们询问年龄相关的cna驱动因素是否会导致下游转录改变,通过研究TCGA肿瘤匹配的mRNA丰度数据。我们使用年龄、拷贝数状态及其相互作用的线性模型作为预测因子。这些术语告诉我们,当CNA事件本身与mRNA丰度显著相关时(如图所示)。 3C 顶 ),当mRNA随年龄的不同而不同时(如图所示)。 3C 中间 当CNA对mRNA的影响取决于年龄(见图)。 3C 底部 )。在所有的mRNA分析中,我们调整了肿瘤纯度(根据病理学家的估计)。在43个年龄相关的CNA与mRNA数据,我们发现17个与mRNA丰度的变化显著相关(图)。 3C 顶 ,补充数据 6 )。有趣的是, CDKN2A 肉瘤的丢失本身并不与mRNA的改变显著相关,但确实与年龄有显著的交互作用(图一)。 3C 底部 )。下降幅度更大 CDKN2A 年龄较大者肉瘤中mRNA的表达(调整mRNA-cna-年龄)p =0.024,图1。 3E ).
为了探讨这些年龄相关的CNA的潜在临床意义,我们进行了生存分析以确定预后事件。以5年总生存期为终点,采用Cox比例风险(COX PH)模型.就像我们的mRNA模型一样,我们使用预测因子,包括拷贝数、年龄以及它们之间的相互作用。在胶质母细胞瘤中,年龄本身是已知的预后特征,老年患者预后较差(HR=2.1,95%CI=1.7-2.6,Wald) p =1.4×10 −13 )。我们发现 SUFU 没有预后,但结合年龄显示,年轻的个体没有SUFU 亏损的结果最好(HR=0.42,95%CI=0.30-2.3,调整后的Wald)。 p =5.5×10 −6 )。还有, SUFU 丢失将年轻个体分为两组,具有不同的运动轨迹,但在老年人胶质母细胞瘤中没有这样的预后价值(图一)。3E )。我们对所有与年龄相关的cnas的tcga肿瘤类型重复了这些mrna和生存期分析,并在补充数据中显示了所有结果。 6 .
与功能更改相关的SNV差异 最后,我们对年龄关联的基因水平的SNVS进行了研究.在pcawg分析中,我们使用了一组预定义的基因组驱动程序和线粒体基因。 67 。在tcga分析中,我们重点研究了一组679个宇宙驱动基因。 66 并应用一个复发阈值筛选出在<1%肿瘤中发生突变的基因。我们使用由MSK影响靶向测序产生的AACR基因数据,对多达468个癌症基因进行了测序,并以1%的复发阈值进行了筛选。除了其他混杂因素外,我们还在我们的多变量模型中包含了SNV密度。
在泛癌分析中,我们发现tcga中有102个年龄相关基因,aacr基因中有9个年龄相关基因,pcawg数据中有一个(补充数据)。 7 ). CREBBP -频率与年龄相关(边缘对数概率变化=0.030,95%CI=0.024-0.040,fdr调整的lgr。 p =0.049)和pcwg(边际日志概率变化=0.027,95%CI=0.0089-0.047,fdr调整的lgr)。 p =8.7×10 −3 、图1. 4A ,补充数据 7 )。在AACR精灵中, CREBBP- 多项测试校正后的状态和年龄无显着性差异(边际测井概率变化=0.011,95%CI=0.0047-0.022,fdr调整后)。 p >0.1)。 KDM6A 和 RBM 10 在TCGA和AACR基因的老年患者的肿瘤中更容易发生SNV,但在PCAWG数据中没有发生反复突变,也没有在该数据集中进行分析(图1)。 4A ,补充数据 7 )。在TCGA数据中发现的35个与年龄相关的基因在PACWG或AACR基因数据中显示出相似的效应大小,但没有达到统计学意义。
图4:核和线粒体SNVS的年龄关联显示ATRX是一种与年龄相关的低级别胶质瘤预后的生物标志物。 A 与年龄相关的核驱动程序概述 A )泛癌和( B )三组数据的肿瘤类型特异性分析。网点大小表示关联的大小与比例的差异,背景阴影表示fdr调整的多元回归(Mv)。 p 价值。左协变量 B )指明相关肿瘤类型。 C TCGA低级别胶质瘤( n =515个不依赖生物的样本)司机变异频率与调整后的多变量的年龄关联 p 值,边缘对数概率变化的10年年龄增长,和年龄的肿瘤比较(红色)和没有(灰色)的突变。 D PCAWG中与年龄相关的线粒体SNVS综述及卵巢癌数据的具体例子( n =110个生物独立样本) E ). F 在四种肿瘤情况下,线粒体拷贝数的变化也与年龄有关。 G TCGA低级别胶质瘤( n =515个独立于生物的样本):mRNA丰度变化 IDH 1 和 ATRX 当基因发生突变(红色或非黑色)时,按中位二分年龄进行比较。调整后的SNV-年龄相互作用 p 值显示。 H ATRX 突变与年龄相关,将低级别胶质瘤患者的预后分为4组。对数赔率 p 值显示。图基盒图显示的框表示四分位数和须须分别绘制在下四分位数和上四分位数的1.5内四分位数范围内的最低值和最高点。为( C 和 E ):肿瘤呈红色突变,无灰色,线性模型系数估计,95%置信区间。源数据作为 源数据文件 .
TCGA、PCAWG和AACR基因的SNV频率也存在肿瘤型特异性年龄关联。我们至少在两个数据集中确定了三种与年龄相关的SNV具有一致性和显着性的肿瘤类型,以及在一个数据集中具有显着性并在另一个数据集中显示相同效果的五种肿瘤类型(图1)。 4B ,补充数据 7 )。SNV FOXA 1 更多发生在老年人的乳腺和前列腺肿瘤。SPOP 前列腺肿瘤患者的年龄也与年龄呈正相关(PCAWG调整的LGR) p =0.099,AACR精灵调整的LGR p =0.03)。在黑色素瘤中, NF1 在老年人的肿瘤中更常见,而BRAF 在年轻人的肿瘤中,SNV更常见。我们还证实了年龄和肿瘤抑制因子突变之间的已知联系。IDH 1- 和 ATRX- 无论是高级别胶质母细胞瘤还是低级别胶质瘤, IHD 1- 和 ATRX- 在较年轻个体的肿瘤中更常见(图1)。4C ,补充数据 7 )。其他与年龄相关的snv包括子宫颈癌和头颈癌的阳性关联,以及结直肠癌的阴性关联(补充数据)。 7 ).
与核基因组一样,线粒体基因组在癌症中也经常发生突变。 68 。我们利用了来自PCAWG WGS的线粒体SNV(MtSNV)数据,并确定了年龄相关的mtSNV在泛癌分析和卵巢癌中的应用(图一)。 4D ,补充数据 7 )。所有显著的年龄关联都是mtsnv,即使在控制了每个肿瘤中线粒体拷贝数之后,mtsnv在老年患者的肿瘤中发生的频率也更高。牵连线粒体区 Mt-CYB ,编码细胞色素b和D-环,这是一个控制复制和转录的非编码区域。 69 ,70 (无花果) 4E )。通过与正常线粒体相比,我们还调查了肿瘤线粒体拷贝数是否与年龄有关。在泛癌分析中,线粒体拷贝数的增加与年龄和三种肿瘤类型确实有显著的关联(图一)。 4F ,补充数据 7 )。在这些肿瘤背景下,老年患者的肿瘤比年轻患者的肿瘤获得更多的线粒体拷贝。
与年龄相关的CNA一样,我们评估了SNVS对TCGA数据中mRNA丰度和存活的影响。我们发现与年龄相关的snv与mrna丰度之间存在显著的关联。 ATRX 和 IDH 1 低度胶质瘤(补充资料) 6 )。突变 ATRX 和 IDH 1 与这两个基因的mRNA丰度降低有关。年龄和年龄之间也有着显著的相互作用。 IDH 1- 频率(调整) p =2.1×10 −4 、图1. 4G )表明年龄对mRNA丰度的影响:突变 IDH 1 与年轻患者肿瘤中mRNA的减少有关。有趣的是,这一差异是由于基线的变化造成的。 IDH 1 MRNA:老年患者有较高的 IDH 1 MRNA丰度比年轻,突变 IDH 1 导致mRNA水平均衡。 IDH 1 编码异柠檬酸脱氢酶1,这是柠檬酸循环的一个组成部分:其基线丰度的差异可能是由于年轻和年老的大脑在代谢上的差异所致。 71 。相反,虽然年龄和突变状态之间没有交互作用,但mRNA的丰度(经调整) p =0.36,图1。 4G ), ATRX 年龄与预后密切相关,将低级别胶质瘤患者分为4组。 4H ).
低级别胶质瘤由星形细胞瘤和少突胶质细胞瘤亚型组成。 IDH 1 突变与胶质瘤亚型有内在联系,因为少突胶质细胞瘤的诊断是基于两者的1p/19q共缺失和突变。 IDH 1 或 IDH 2 72 。当我们的多变量模型对肿瘤亚型进行调整时,我们研究了 ATRX 和 IDH 1 较低级别胶质瘤的SNV突变频率更详细。将TCGA低级别肿瘤分为星形细胞瘤、少突胶质细胞瘤和少突胶质细胞瘤亚型,并对各组进行SNV、mRNA和生存率分析。我们发现 TP 53 和 ATRX SNV突变在所有三种亚型的年轻个体肿瘤中发生的频率更高(补充图1)。5 ). ATRX SNV突变频率与这三种亚型mRNA丰度降低有关,我们还发现一个显著的年龄- ATRX 星形细胞瘤的相互作用 ATRX -与年龄较大的人相比,老年人肿瘤的mRNA丰度下降更大(相互作用)。p =0.016,补充图。 5 ). IDH 1 SNV突变率与星形细胞瘤年龄呈负相关(Wilcox)。 p =1.3×10 −8 )和少星形细胞瘤(Wilcox) p =0.041),但不包括少突胶质细胞瘤(Wilcox) p =0.19),我们发现很大的年龄- IDH 1 少突胶质细胞瘤mRNA丰度分析中的相互作用(相互作用) p 和少星形细胞瘤(相互作用) p =6.2×10 −3 )。最后,我们发现了显著的年龄依赖关系。 ATRX SNV在星形细胞瘤中的地位,但不存在少突胶质细胞瘤或少突胶质细胞瘤:ATRX SNVS与老年患者的生存率提高有关,而在年轻患者中的生存率较差。