您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!2008-2022
Wuhan Xinqidi Biotech Co.Ltd
本企业通过iso9001质量体系认证

体细胞突变率的全基因组图谱揭示了癌症的驱动因素

 二维码
发表时间:2022-06-28 15:25作者:武汉新启迪Xinqidibio

摘要

识别赋予增殖优势的癌症驱动突变是理解癌症的核心;然而,由于对肿瘤基因组中观察到的高度可变的体细胞突变率进行建模的挑战,搜索通常局限于蛋白质编码序列和特定的非编码元件(例如启动子)。在这里,我们提出了Dig,一种在基因组任何地方寻找驱动因子和突变的方法。我们使用深度神经网络以千碱基规模的分辨率绘制全基因组的癌症特异性突变率。然后,通过将观察到的突变计数与预期的突变计数进行比较,对这些估计进行改进,以在整个基因组中寻找正选择下驱动突变的证据。我们绘制了37种癌症类型的突变率图,并应用这些图来识别内含子隐蔽剪接区、5’非翻译区和罕见突变基因内的推定驱动因子。我们的高分辨率突变率图,可用于基于网络的探索,是一种资源,使司机发现全基因组。

主要的

不为细胞提供增殖优势的中性(过客)突变主导了肿瘤的突变景观1,2。只有相对小部分的突变受到正向选择3,4,5因为它们能够通过促进细胞生长、抵抗细胞死亡或使组织侵入来驱动癌症6。因为正向选择突变在肿瘤中反复出现7,具有致癌可能性的基因组元件(例如,编码序列、启动子、增强子和长的非编码RNA)累积的突变比预期的多,与中性突变发生的速率相比,当在多个肿瘤中计数时8,9。寻找归因于正选择的过度突变,以发现驱动突变、基因和非编码元件,为癌症的机制提供了至关重要的见解4,5,10,11,12,13,14,15.

因为突变过量的可靠识别需要中性突变率的精确模型,仔细建模体细胞突变率的计算工具是定位其他癌症驱动因素的核心。癌症基因组中性突变的高度可变和组织特异性模式使得这项任务具有挑战性16,17。现有的方法通过将突变率的定制统计模型拟合到基因组的特定区域来应对这一挑战4,9,18,19,20,21。例如,通过使用同义突变作为中性突变的代理,设计用于识别驱动基因的方法特别在蛋白质编码序列内模拟突变率3,4,21,22。旨在识别非编码癌症驱动因素的最新方法训练了复杂的机器学习方法,如梯度增强机器,以模拟基因组子集内的突变率18,19,20(在最近对非编码驱动因子的泛癌分析中,约4%的基因组5).此外,一些模型在意想不到的核苷酸环境中寻找驱动突变10,在意外的集群中23或者通过直接(并且可解释地)预测选择基因的编码序列中变异的结果24。尽管取得了这一进展,但在任意基因组区域寻找驱动突变证据的能力仍不完善:现有方法不适用于大部分基因组(例如,因为它们仅在编码序列内起作用);需要对每组区域进行耗时且计算昂贵的模型训练,以在癌症群组中进行测试;或者不能用碱基对分辨率进行测试。这些限制导致癌症驱动因子的目录仍然不完整,特别是在非编码基因组中25,阻碍精确肿瘤学4,11,26,27.

在这里,我们介绍了一个全基因组的中性突变率模型,它可以快速检测基因组中任何地方的正选择驱动突变的证据。这种被称为Dig的方法基于两个关键的方法论进展。首先,我们引入了一种深度学习方法,以千碱基规模的分辨率在整个基因组中绘制癌症特异性体细胞突变率。第二,我们提出了一个概率模型,使用这些图谱来测试来自任意癌症队列的任何一组候选突变,以寻找阳性选择的证据。通过这个框架,我们的图谱能够利用个人电脑的资源在几分钟内评估任意癌症队列中的数百万个突变。我们应用我们的深度学习框架绘制了全基因组泛癌分析(PCAWG)数据集中37种癌症类型的癌症特异性体细胞突变率12使用来自健康组织的高分辨率表观遗传分析作为预测特征(众所周知的兆碱基规模的肿瘤突变率的相关性16,28).然后,我们使用Dig在公开可用的全基因组、全外显子组和靶向测序癌症数据集中识别新的编码和非编码候选癌症驱动因素。我们的突变图谱可以公开获得,既可以作为交互式基因组浏览器,也可以作为独立的软件工具,用于量化感兴趣的数据集中基因组任何地方的过量体细胞突变。

结果

用概率深度学习测试突变过度

为了能够快速评估基因组中任何地方的突变过量,我们设计了Dig来模拟给定类型癌症的全基因组体细胞突变率。因此,来自该癌症类型的肿瘤群组的任意组基因组位置上的中性突变的分布可以几乎瞬间被查找到。该方法采用了概率深度学习模型,该模型明确地捕获了体细胞突变率可变性的两个主要决定因素16,17,21(1)由表观基因组特性驱动的千碱基规模的变异,如复制时间和染色质可及性,其广泛影响DNA修复的功效9;和(2)由诱导体细胞突变的过程的序列背景偏差所驱动的碱基对规模的变异,例如APOBEC驱动的胞苷脱氨基和UV光暴露10,17,29,30。千碱基规模的变化用定制的深度学习架构来建模31它使用神经网络来预测10k b区域内的癌症特异性突变率,并使用高斯过程(GP)来量化预测的不确定性,将高分辨率表观遗传分析(以及可选的侧翼突变计数)作为输入(图。1a扩展数据图。1方法).通过将基因组严格划分为非重叠的训练、验证和持续测试集,具有五重交叉验证(使用对剩余五分之四中观察到的突变进行训练和验证的模型,预测每五分之一基因组中的突变率;方法),该网络构建了给定类型癌症的全基因组突变率的千碱基规模图(图。1b).随后使用生成图形模型模拟碱基对变异,该模型根据突变过程的核苷酸偏差模拟突变应如何分布到区域中的各个位置(补充图。1方法).在任一组位置上的中性突变数量的边缘分布具有封闭形式的解,该解取决于预测的区域突变率、预测不确定性和某一位置基于其相邻核苷酸发生突变的全基因组概率(方法).因此,一旦从给定癌症类型的训练群组中了解到这些参数的值,就可以针对相同癌症的任何肿瘤群组查询基因组中任何一组位置处预期的突变分布,并通过量化是否观察到过量突变来测试阳性选择的证据(图。1c方法).

图1:模拟全基因组中性体细胞突变率并鉴定癌症驱动因子。
figure 1

a深度学习方案,使用来自路线图表观基因组联盟和ENCODE的健康组织的表观遗传测序来预测体细胞突变的预期数量和预测不确定性。b、全基因组中性体细胞SNV图和在来自PCAWG队列的1mb窗口中观察到的snv密度(n= 2279个样本)。为了清楚起见,仅显示了染色体1、3和5。突出显示的区域对应于带有匹配颜色符号的面板。插图:以100-kb和10kb分辨率模拟的1号染色体上的区域。报道的R2在全基因组范围内计算观察到的和预期的SNV计数之间的统计。c,PCAWG数据集中的负荷测试示例(n= 2,279个样本)中的编码突变投资物业 (n=预期与观察到的突变;同义:0.81对1;错义:2.62对15;废话:0.22对0;indels: 0.23对3),非编码突变端粒酶催化亚基启动子(SNVs: 2.12对99;indels: 0.14对0)和剪接位点SNVs in俄罗斯超级冰球联赛(典型拼接信噪比:0.03对5;隐蔽剪接SNVs: 0.17对0)。预期值是95%置信区间的平均值。P来自Dig的值。d长度为1-1.5 kb的基因中非同义SNV计数的变异比例(n= 3,740个基因)在16个PCAWG群组中的差异(补充表中报告了每个群组的大小1).箱形图元素在中定义方法. e,通过方法在PCAWG群组中鉴定的假阳性和真阳性驱动基因的近似数量(跨越一系列调用阈值)。数字是近似的,因为真正的驱动基因是未知的。CGC基因被用作真阳性的保守近似值(非CGC基因可能仍然是真正的驱动因素)。f编码和非编码驱动程序检测方法的运行时。比较仅限于SNVs,因为并非所有方法都支持indels。编码分析结束n= 19,210个Dig和dNdScv基因,以及nMutSigCV的18862个基因。非编码分析结束n= 139,404个元素,用于消化、动力和幼虫n= 117,180个用于ActiveDriverWGS的元素。ActiveDriverWGS需要2天以上的时间来分析最大的群组。

我们构建了37种癌症类型的突变率图并推断了核苷酸突变偏倚(补充表格12和补充数据文件1)基于来自PCAWG数据集的体细胞突变12和路线图表观基因组中111个组织中723个染色质标记的100-bp模式32,来自ENCODE的10个细胞系的复制时间33,以及参考基因组的平均核苷酸和GC含量(补充表3).然后,我们使用解释的方差比例度量标准对我们的体细胞突变率模型的准确性进行了基准测试,我们将方差比例度量标准计算为预测和观察到的突变计数之间的相关系数的平方,与之前的工作一样16。Dig成功预测了77.3%的中位数(均值,70.6%;在10k b区域观察到的单核苷酸变异(SNV)率的变异范围为22.7-92.3%,中位数为94.6%(平均值为91.9%;范围,73.1–98.0%)1mb区域的方差(图。1b,补充表4方法)在16种癌症类型中,基准功效是足够的(大于100万突变,不包括淋巴瘤,其中活化诱导的胞苷脱氨酶在局部高突变区域产生极端异常突变计数)。与专门设计来分析平铺区域的现有方法相比34,编码序列4,21和非编码元件,其中同义突变不能用于校准突变率模型18,19(例如,增强子和非编码RNA),Dig分别解释了16个队列中14个的10kb区域内SNV计数、16个队列中16个的非同义SNV计数以及16个队列中15个的增强子和非编码RNA SNV计数的最大变化(图。1d,表格1,补充图。2和补充表格46).我们方法的准确性部分归因于深度学习网络识别局部表观遗传结构的能力,如活性转录起始位点,并将这些结构与突变率相关联(扩展数据图。2和补充说明1).

表PCAWG队列中观察到的SNV计数的方差比例(n= 2,279个样本)

这种准确性相应地支持强大的驾驶员识别。在测试下游识别先前识别的驱动元素中的正选择证据(即,过量突变)的能力的基准中,Dig匹配或超过了针对特定类元素定制的方法的性能4,18,19,20,21在全基因组和全外显子组测序样品中(图。1e补充图。35,补充表格710和补充说明23).考虑驱动基因——已知驱动基因的高质量数据库可以近似金标准真阳性(方法)—在32个PCAWG队列中的24个中,Dig具有最高的F1-得分(准确性的衡量标准)(不包括先前工作中的皮肤癌和血癌19由于局部超突变过程),并且与广泛使用的基于负荷的驱动基因检测方法相比,在16个全外显子组队列中的14个中最有效(图。1e补充图。34和补充表格89)(功率测量为近似接收器操作特征曲线下的面积,由于外显子组序列队列的较大尺寸,可对其进行估计;方法).

使用Dig识别潜在驱动因素比现有方法快1-5个数量级,现有方法为分析的每个元素和群组训练新模型(图。1f).例如,测试107观察到的阳性选择证据的突变在105非编码元素在单个CPU内核上完成Dig不到90秒,而其他方法需要大约10分钟到2天以上。因此,我们的方法匹配或超过了现有方法的能力,同时需要更少的运行时间,并提供了在全基因组范围内以突变水平的精度识别驱动因素的灵活性。

小变异集增加了识别驱动因素的能力

先前对非编码驱动因子的搜索已经得出结论,这种驱动因子可能很少,只有不到1%的样本携带5。使用我们的模型的生成能力的功率分析同时发生(方法),表明大多数已知的非编码元件(例如增强子)需要至少1-2%的样本携带驱动突变,才能在当前样本量下检测到超过90%的突变(约102对于个别癌症类型;~103对于泛癌队列)(补充图。6).然而,通过将测试元件的大小减少到仅包含几十到几百个位置(与迄今为止考虑的大多数非编码元件跨越数千个碱基对相反——例如,平均增强子大小:1,1,717 bp范围,600–30,200 bp),在< 1%的样本中识别驱动突变的能力增加了约20%(补充图。6).为了证明Dig发现推定驱动因子的能力,我们定义并测试了具有潜在功能影响的特定突变组,作为选择的证据。测试用户指定的全基因组特定突变的能力是我们方法的一个独特特征(据我们所知)。

量化隐性剪接SNVs上的泛癌选择

选择性剪接越来越被认为在功能上与癌症相关35,36最近的研究将规范剪接位点外的特定体细胞突变与表达数据中观察到的选择性剪接事件相关联37,38。因此,我们应用Dig严格地定量了隐性剪接SNVs的程度,它可能存在于基因的外显子和内含子中(图。2a),发生率超过中性突变率,因此,可能在选择下起驱动突变的作用。来自癌症基因普查(CGC)的肿瘤抑制基因39通过剪接预测的隐藏剪接snv40 (方法)发生的频率明显高于中立情况下的预期(283个TSG中观察到648个snv,而预期为550个snv;P= 2.38 × 10−5)(图。2b和补充表格1112);主要富集在内含子中(大多数这样的突变发生在内含子中);并且偏向于发生在对剪接具有高预测影响的位点(预测影响δ得分> 0.8的SNVs表现出1.75倍的富集(95%可信区间(CI):1.31–2.22倍),P= 2.52 × 10−5)(图。2b,c).总的来说,内含子隐蔽剪接snv估计占TSG中过量snv(潜在驱动因子)的4.5%(95% CI:1.3-7.4%),与规范剪接snv的7.4%(5.6-9.7%)相似,规范剪接snv的驱动因子潜力已被充分确定4(图。2d)(外显子超额SNV估计值与dNdScv的估计值一致;补充图7).结果对高突变负荷样本是稳健的(补充图。8)并且与不依赖于我们突变图的分析相一致(补充图。9).不在CGC的控制基因和在CGC的癌基因都不富含隐蔽剪接SNVs(扩展数据图)。3和补充表格11).癌基因缺乏富集表明,功能获得性剪接突变超过了那些诱导跳跃的功能获得性剪接突变遇见了外显子14非常罕见,这可能反映了内含子剪接突变的低可能性,这种突变导致在病理上激活癌基因的残基的框内添加。相反,TSGs的富集表明隐性剪接突变通常是失活的,可能是通过触发无义介导的mRNA转录物的降解或产生功能受损的蛋白质。

图TSGs中内含子隐蔽剪接SNVs正选择的证据。
figure 2

a,本分析中考虑的剪接变异snv示意图。对拼接的预测影响由拼接δ分数衡量(分数越高,拼接改变的可能性越大)。我们根据对拼接的预测影响对可能的snv进行了分层:低预测影响(0.2 <δ< 0.5)、中预测影响(0.5 <δ< 0.8)和高预测影响(0.8 <δ< 0.1)。b,根据变异类型分层的TSGs中观察到的突变与预期的中性突变相比的估计富集度(95% CI ),以及对剪接的预测影响n=来自PCAWG数据集的2,279个泛癌样本(n补充表中每个类别的突变11). c,预测重复突变TSG中观察到的内含子隐蔽剪接snv的剪接影响(剪接δ分数)(参见e)与在不在CGC中的基因中观察到的相比(**表示引导P < 3 × 10−4; 方法).箱形图元素在中定义方法. d,TSGs中过量SNVs的比例,由每种改变蛋白质的SNV类别贡献。e,每个癌症的已知TSG具有预测内含子隐蔽剪接SNVs的显著负荷(FDR < 0.1)(n补充表中每个基因的突变13). f在反复突变的TSGs中观察到的内含子隐蔽剪接SNVs到最近外显子边界的距离分布。g,在淋巴BNHL载体中堆积的RNA-seq reads是一个预测的,内含子很深的隐蔽剪接SNV(红色标记)反式激活蛋白和对照淋巴-BNHL样品,显示在隐蔽剪接SNV载体中包含隐蔽外显子(金)。弧形标记表示支持每个外显子连接的RNA-seq读数的数量。

考虑到单个基因,12种癌症类型中的7个TSG具有内含子隐蔽剪接SNVs的显著负担(错误发现率(FDR) < 0.1n= 37种癌症中的283个TSG)(方法,图。2e和补充表格13),TSG-癌症关联模式与已知的TSG组织特异性一致。泛癌,TP53SMAD4两者都与许多癌症有关,携带过量的隐蔽剪接SNVs。相反,造血特异性TSG反式激活蛋白和肾特异性TSGPBRM1分别在血液和肾脏恶性肿瘤中携带过量的隐蔽剪接SNVs。进一步支持这些关联的是,在这些TSG中观察到内含子隐蔽剪接snv,其中大部分(79.3%)位于注释剪接区域之外(即,距离外显子-内含子边界> 20 bp)(图。2f),对剪接的预测影响显著高于在非CGC中观察到的影响(图。2c)(平均拼接δ分数= 0.55对0.33;P < 3 × 10−4; 方法).此外,在6个具有足够覆盖范围的可用RNA测序(RNA-seq)数据的隐性剪接SNV携带者中,5个具有选择性剪接的证据(图。2g,补充图。10,补充表14和补充说明4)由切叶机定量41 (方法).总的来说,这些结果提供了证据,表明内含子隐蔽剪接snv在TSGs中处于正选择,并可能在多种癌症类型的百分之几的肿瘤中充当驱动事件。

不在CGC中的9个基因在6种癌症中也具有内含子隐蔽剪接SNVs的显著负荷(补充表15)在FDR < 0.1时,其中两个基因在更严格的Bonferroni (α < 0.05)校正下对所有基因和癌症进行的712,600次测试具有显著的负担。四个基因的负荷由每个基因单个内含子位置的重复突变驱动(补充表16).相关基因包括BTG2在淋巴瘤中,参与细胞周期G1/S转换的调节,最近根据其编码序列的突变被认为是血癌的驱动因素10,以及ADAM19在造血系统肿瘤中,其与乳腺肿瘤的发生有关42,前列腺43,结肠直肠44和卵巢45癌症。尽管应该谨慎解释新驾驶员的计算预测(讨论),这些基因可能是未来实验研究的有希望的目标,以调查其潜在的致瘤特性。

5′非翻译区的非编码候选癌驱动因子突变

假设indels通过破坏转录因子结合基序对基因表达有很大的影响,我们寻找启动子(n= 19,251)对于PCAWG数据集中的indels负荷(方法).这TP53启动子是唯一具有全基因组显着(FDR < 0.1)indel负荷的元件(观察到7个,预期为0.54个;P= 9.4 × 10−7)(图。3a),与之前使用限制性假设检验提高统计功效的分析一致5。观察到的突变——所有缺失明显大于预期(图。3b)(中值长度= 17 bp,而预期为1bp;P= 7.4 × 10−4,片面的曼恩–惠特尼U-test)-特别影响规范的5’非翻译区(UTR)的外显子1,破坏的关键序列元件(转录起始位点,包装53结合序列46,内部核糖体进入位点47,48和多外显子5’UTR的供体剪接区(图。3a)并表现出与隐蔽外显子剪接SNVs相当的富集TP53,这是很好的癌症驱动因素49(图。3c).外显子1剪接区域中超过一半的突变(7个中的4个)没有改变规范的剪接位点,这是一个与其他相比意想不到的模式TP53拼接区域(图三维(three dimension的缩写)) (P= 1.8 × 10−3,双侧费希尔精确检验)。5′UTR突变携带者的表达显著降低TP53比没有TP53突变和具有预测功能编码的个体TP53突变(1–2标准偏差减少TP53与非携带者相比,P= 1.2 × 10−4; 方法,图。3e和补充图。11),表明这些突变要么直接抑制TP53转录或导致mRNA转录物的无义介导的衰变。来自哈特维格医学基金会的2399个不同样本中的7个证实了这些结果50显示了相似的突变模式,三个携带> 10-bp的缺失,四个携带SNVs。TP53外显子1及其供体剪接区(图。3a).

图TP53和ELF3的5’UTRs中体细胞突变的富集。
figure 3

a,在规范TP53转录物的5’UTR的外显子1中观察到的来自PCAWG和Hartwig医学基金会队列的突变。来自GRCh37参考基因组(+链)的DNA序列。突变类型、相关序列和调控元件如图例所示。be对PCAWG数据集的分析(n= 2279个样本)。b在除TP53以外的基因的5′UTRs内观察到的indel大小的分布(n= 3,988英寸)且在TP53 5’UTR内(n= 7英德)。P单边Mann-Whitney的indel长度中值比较值U-测试。c,根据突变类型和位置(补充表中每个类别的突变数量)分层的TP53内相对于中性突变率(观察到的/预期的中性突变)的估计突变富集17).误差线,95%置信区间。d在规范TP53转录物的供体和受体剪接区(分别定义为外显子的3’和5’的20 bp)内观察到的突变分布。规范剪接SNVs和indels:改变紧邻外显子边界的两个碱基对的突变;剪接区域SNVs和indels:与剪接区域交叉但不与规范剪接位点交叉的突变。5’UTR外显子1的供体剪接区(显示于a)加粗。P通过双侧Fisher精确检验计算,与所有其他TP53剪接区域相比,观察UTR外显子1 5’供体剪接区域中规范和剪接区域突变分布的价值。eTP53 5′UTR突变携带者中TP53在标准偏差尺度上的表达(n= 6)和非载波(n= 1,205),针对PCAWG数据集中的肿瘤类型和拷贝数进行了调整(n= 2279个样本)。P单向曼恩-惠特尼的价值U-对调整和标准化的表达式值进行测试。箱形图元素在中定义方法. f在PCAWG和Hartwig医学基金会队列中,SNVs与ELF3重叠。插图:放大的El F3 5’UTR区域和该区域内95%顺式的估计突变富集(补充表格中每类突变的数量1718).

这些结果激发了对106个TSG和95个具有多外显子5’UTRs的癌基因(方法).一个额外的元素,5′UTRELF3,SNVs负担很重(图。3f)在PCAWG样本中(观察到6个snv,而预期为0.96;P= 2.9 × 10−4);来自Hartwig医学基金会的样品显示了类似的富集(观察到10,预期1.5;P= 3.8 × 10−4; 方法).在两组样品中,富集都集中在标准范围内ELF35′UTR;周围的序列(上游启动子和内含子1)没有富集突变(图。3f).这16个突变在很大程度上改变了5’UTR内的独特碱基对——尽管在PCAWG样本中突变的两个位置在Hartwig样本中也发生了突变——这表明该5’UTR可能对扰动广泛敏感,可能是通过促进启动子甲基化的变化而改变ELF3表示51。另一种可能性可能是该区域未建模的局部突变过程或技术人工制品9;然而,一项仔细的分析并没有发现任何可以解释其他非编码突变热点的证据5(补充说明5).少量的携带者和有限的转录组分析(只有三个来自PCAWG的携带者有RNA-seq数据)阻止了对这些5’UTR突变的可能功能的研究。因此,额外的随访,特别是评估5’UTR突变影响的实验性测定52必须确定这里的突变富集是代表正向选择还是代表一种新的中性突变过程。

常见和罕见驱动基因的共享景观

即使在特征明确的驱动基因中,小样本量对罕见的编码突变(这是肿瘤中大多数外显子突变的原因)是否起驱动作用的评估也有限。我们通过两种方式增加统计功效:(1)通过分析来自14,018个全外显子组和靶向测序样本的非同义SNVs的大型荟萃队列,代表10种实体瘤类型(每种癌症的样本中位数为1,195;范围,515–3,110)(补充表)19方法);和(2)通过仅考虑癌基因(从癌症基因组翻译中获得)中的激活突变23)和所有其他基因中的预测功能丧失(pLoF)突变。这种分析以前由于从大型公开的靶向测序数据集中排除同义突变而受到阻碍53,54,55,56,57因为现有的驱动基因检测方法依赖于同义突变。Dig避开了这个困难,因为模型参数已经从一个单独的训练队列中推断出来了。

对于每种癌症,我们首先将我们的分析局限于“长尾”基因,我们在最近三次大型泛癌驱动基因调查中将其定义为与该癌症类型无关的癌基因和TSG7,10,11。Dig估计1-5%的样本(取决于癌症)携带长尾癌基因中的活化SNVs(图。4a)和3-6.5%的携带plo的SNVs在长尾TSG中(图。4b).这些比率明显高于预期(P < 3.78 × 10−9用于激活所有群组中的SNVsP < 3.10 × 10−4对于除前列腺以外的所有队列中的pLoF SNVs(P前列腺= 0.056)。12,补充表格2021方法).当我们将分析仅限于全外显子组测序的样本时,这些比率是一致的,尽管由于样本量减少,检测阳性选择的能力下降(补充图。13和补充表格2223).考虑到单个基因,在最近的驱动基因泛癌调查中没有报道的92个癌基因-肿瘤对具有显著的(FDR < 0.1)激活SNVs的负担(图。4c和补充表格24).在泛癌调查中没有报道的46个TSG肿瘤对具有显著的pLoF突变负担(图。4d和补充表格25).与现有数据库中的驱动基因相比,新鉴定的候选驱动基因是罕见的(0.28%(四分位距,0.14-0.53%),而新发现的和已知的驱动基因分别为1.3%(四分位距,0.59-3.0%);P= 3.1 × 10−27,双面曼恩–惠特尼U-测试)。进一步支持这些预测的是,给定驱动基因中激活突变的分布在癌症中是相似的,在癌症中该基因是已知的、常见的驱动基因,在癌症中我们新发现该基因是假定的稀有驱动基因(扩展数据图)。4).例如,G12、G13、Q61和A146位置喀斯特地貌占了大部分喀斯特地貌常见和罕见情况下的SNVs(肺非小细胞肿瘤:568/586突变;前列腺肿瘤:12/17突变;神经胶质瘤:11/15),V600E突变解释了多数黑色素瘤尽管每个基因都有几十个已知的激活SNVs(分别为52和71),SNVs在常见和罕见的情况下。此外,一些预测的罕见驱动基因突变携带者表现出的表型与肿瘤中报道的基因为常见驱动基因的表型一致(补充说明6).例如,在DNA错配修复基因中具有罕见pLoF突变的中枢神经系统肿瘤MSH2MLH1在213个靶向测序基因中表现出显著增加的全局突变率(MSH2携带者的平均突变数为30.1,而非携带者为3.0;P= 3.8×10−7,片面的曼恩–惠特尼U-测试;MLH1携带者的平均突变数为35.3,而非携带者为3.1;P= 8.8×10−6,片面的曼恩–惠特尼U-测试)。

图4:蛋白质改变SNVs在“长尾”基因中的富集揭示了常见和罕见驱动基因的共享景观。
figure 4

a,b,致癌基因中过量致癌SNVs的95%顺式的估计突变率(a)和TSG中的pLoF变体(b)之前与给定的癌症没有关联(x轴)在三个大的驱动基因目录中7,10,11。星号表明致癌(pLoF) SNVs的负担在癌症类型(P每个类别的snv值和数量在补充表格中2021). c,d,致癌基因-肿瘤对和TSG肿瘤对,具有致癌或蛋白截断SNVs的显著负荷。Dietlein等人先前报道的基因-肿瘤对。10,贝利等人。11或马丁内斯-希门尼斯等人。7用灰色标出。不在这些星表中的配对用红色标出,颜色强度表示关联的显著性。在考虑癌症特异性中性突变率后,标记大小与估计的过度突变率成比例。CNS,中枢神经系统;非小细胞肺癌。

另外29个基因-肿瘤对具有显著(FDR < 0.1)的pLoF基因突变,这些突变不在任何癌症的癌症驱动数据库中(方法和补充表格26),其中两个在更严格的Bonferroni (α < 0.05)校正下对测试的基因总数显著,另外六个由一个名义(P < 0.05) burden of missense mutations. The top hit is the cell polarity gene PARD3在胃食管癌中(9个观察到的pLoF SNVs对1.1个预期值;P= 1.57 × 10−6),尽管没有出现在主要的驱动基因数据库中,但它是癌基因的已知融合伴侣浸水使柔软并且与多种实体癌的肿瘤发生有关58。区分低突变频率基因中突变负荷的能力,例如PARD3(827个样本中的9个携带者),强调了我们的方法可以通过在大型队列中测试特定的突变集来获得积极选择的证据,从而提高统计能力。

我们的结果代表了一个无偏见的、泛癌的驱动基因目录的进展,并表明驱动机制在常见和罕见的实体癌驱动景观中是共享的。然而,在目前的样本量下,稀有驱动基因的计算鉴定依赖于小的突变计数,预测应该小心地解释。相关癌症中基因功能的实验表征对于证实它们的致癌作用是至关重要的。

讨论

Dig是一种概率性深度学习方法,能够快速测试基因组元素上的正选择证据,可以用基因组中任何地方的个体突变的精度来定义。该方法在建模突变率和识别候选驱动因素方面的强大性能凸显了深度学习的强大功能,可以利用高通量测序获得的数据来捕捉复杂的细胞过程40,59,60,61,62,63。特别是,基于表观遗传学与体细胞突变率相关的观察17,我们表明,应用于高分辨率染色质免疫沉淀和测序(ChIP-seq)分析的神经网络能够了解局部表观遗传结构和体细胞突变模式之间的细微非线性联系。此外,这里介绍的技术适用于其他环境。例如,通过将高斯过程耦合到神经网络的最后一层来量化预测不确定性,可能是一种实用的解决方案,可以提高其他深度学习设置中预测的可靠性和可解释性64.

应用我们的高分辨率突变率图来量化全基因组的突变负担,提供了对罕见和非编码驱动突变的一瞥,我们预计随着癌症序列样本量的持续增长,这些突变将会出现。尽管我们报道的驱动候选物——在隐蔽的剪接位点、5’UTR和很少突变的基因中——单独出现的频率较低,但我们的估计表明,它们共同导致了高达10%的肿瘤的疾病病理(将预测在这些元件中的每一个中携带过量突变的肿瘤百分比相加)。这一估计可能是保守的,因为一些分析使用了不太可能全面的突变数据集(例如,预测的隐蔽剪接SNVs和已知的激活SNVs的目录)。这些罕见的驱动事件的量化是重要的,部分是因为它提出了通过改变治疗方法来扩大患者治疗选择的途径;针对一种癌症类型突变的靶向治疗可能对其他癌症类型具有相同突变的患者有益。事实上,癌症不可知的患者分层方法目前正在一些癌症中心使用65.

此外,目前的样本量不足以揭示中度或弱阳性选择下的非频繁驱动因素。我们预计Dig将特别有助于发现这种突变,因为它能够快速评估大范围基因组中的突变。例如,我们对增强子网络进行的初步分析确定了几个具有增强子突变负担的基因(补充表27和补充说明7),包括FOXA1,其中启动子突变被认为是通过增加基因表达来驱动乳腺癌66。利用现有数据增加样本量的一种可能方法是,利用大规模靶向或全外显子组测序临床队列的脱靶读数,调用编码序列侧翼区域的体细胞突变。

然而,单独的计算预测不足以确定一个元素或突变在癌症病理学中的因果作用,因为与中性突变率相比,过量的突变并不能最终证明阳性选择。此外,最近的研究表明,典型的癌症驱动基因突变可能存在于看似健康的组织中67,68,69,70,71,增加了解释突变是否或如何导致恶性表型的复杂性。最终,实验验证是必要的,以确定突变作为癌症驱动因素的因果作用。Dig为体外和体内研究的计算机指导提供了一个工具,因为它能够对可能在编码和非编码基因组中起驱动作用的精确突变组进行优先排序。这些特定的突变可以在实验系统中进行评估。例如,通过对细胞系进行CRISPR碱基编辑,然后进行药物筛选分析,可以将Dig鉴定为推定驱动因子的预测隐性剪接突变作为可能的药物靶标进行评估72。因此,我们预计深度学习,特别是我们的工具,可以提高不断增长的癌症基因组测序数据的计算、实验和临床效用。


武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297