用概率深度学习测试突变过度 为了能够快速评估基因组中任何地方的突变过量,我们设计了Dig来模拟给定类型癌症的全基因组体细胞突变率。因此,来自该癌症类型的肿瘤群组的任意组基因组位置上的中性突变的分布可以几乎瞬间被查找到。该方法采用了概率深度学习模型,该模型明确地捕获了体细胞突变率可变性的两个主要决定因素 16 ,17 ,21 (1)由表观基因组特性驱动的千碱基规模的变异,如复制时间和染色质可及性,其广泛影响DNA修复的功效 9 ;和(2)由诱导体细胞突变的过程的序列背景偏差所驱动的碱基对规模的变异,例如APOBEC驱动的胞苷脱氨基和UV光暴露 10 ,17 ,29 ,30 。千碱基规模的变化用定制的深度学习架构来建模 31 它使用神经网络来预测10k b区域内的癌症特异性突变率,并使用高斯过程(GP)来量化预测的不确定性,将高分辨率表观遗传分析(以及可选的侧翼突变计数)作为输入(图。 1a 扩展数据图。 1 和 方法 ).通过将基因组严格划分为非重叠的训练、验证和持续测试集,具有五重交叉验证(使用对剩余五分之四中观察到的突变进行训练和验证的模型,预测每五分之一基因组中的突变率; 方法 ),该网络构建了给定类型癌症的全基因组突变率的千碱基规模图(图。 1b ).随后使用生成图形模型模拟碱基对变异,该模型根据突变过程的核苷酸偏差模拟突变应如何分布到区域中的各个位置(补充图。1 和 方法 ).在任一组位置上的中性突变数量的边缘分布具有封闭形式的解,该解取决于预测的区域突变率、预测不确定性和某一位置基于其相邻核苷酸发生突变的全基因组概率( 方法 ).因此,一旦从给定癌症类型的训练群组中了解到这些参数的值,就可以针对相同癌症的任何肿瘤群组查询基因组中任何一组位置处预期的突变分布,并通过量化是否观察到过量突变来测试阳性选择的证据(图。 1c 和 方法 ).
图1:模拟全基因组中性体细胞突变率并鉴定癌症驱动因子。 a 深度学习方案,使用来自路线图表观基因组联盟和ENCODE的健康组织的表观遗传测序来预测体细胞突变的预期数量和预测不确定性。 b 、全基因组中性体细胞SNV图和在来自PCAWG队列的1mb窗口中观察到的snv密度( n = 2279个样本)。为了清楚起见,仅显示了染色体1、3和5。突出显示的区域对应于带有匹配颜色符号的面板。插图:以100-kb和10kb分辨率模拟的1号染色体上的区域。报道的R 2 在全基因组范围内计算观察到的和预期的SNV计数之间的统计。 c ,PCAWG数据集中的负荷测试示例( n = 2,279个样本)中的编码突变 投资物业 (n =预期与观察到的突变;同义:0.81对1;错义:2.62对15;废话:0.22对0;indels: 0.23对3),非编码突变 端粒酶催化亚基 启动子(SNVs: 2.12对99;indels: 0.14对0)和剪接位点SNVs in 俄罗斯超级冰球联赛 (典型拼接信噪比:0.03对5;隐蔽剪接SNVs: 0.17对0)。预期值是95%置信区间的平均值。 P 来自Dig的值。 d 长度为1-1.5 kb的基因中非同义SNV计数的变异比例( n = 3,740个基因)在16个PCAWG群组中的差异(补充表中报告了每个群组的大小 1 ).箱形图元素在中定义 方法 . e ,通过方法在PCAWG群组中鉴定的假阳性和真阳性驱动基因的近似数量(跨越一系列调用阈值)。数字是近似的,因为真正的驱动基因是未知的。CGC基因被用作真阳性的保守近似值(非CGC基因可能仍然是真正的驱动因素)。 f 编码和非编码驱动程序检测方法的运行时。比较仅限于SNVs,因为并非所有方法都支持indels。编码分析结束 n = 19,210个Dig和dNdScv基因,以及 n MutSigCV的18862个基因。非编码分析结束 n = 139,404个元素,用于消化、动力和幼虫 n = 117,180个用于ActiveDriverWGS的元素。ActiveDriverWGS需要2天以上的时间来分析最大的群组。
我们构建了37种癌症类型的突变率图并推断了核苷酸突变偏倚(补充表格 1 和 2 和补充数据文件 1 )基于来自PCAWG数据集的体细胞突变 12 和路线图表观基因组中111个组织中723个染色质标记的100-bp模式 32 ,来自ENCODE的10个细胞系的复制时间 33 ,以及参考基因组的平均核苷酸和GC含量(补充表 3 ).然后,我们使用解释的方差比例度量标准对我们的体细胞突变率模型的准确性进行了基准测试,我们将方差比例度量标准计算为预测和观察到的突变计数之间的相关系数的平方,与之前的工作一样 16 。Dig成功预测了77.3%的中位数(均值,70.6%;在10k b区域观察到的单核苷酸变异(SNV)率的变异范围为22.7-92.3%,中位数为94.6%(平均值为91.9%;范围,73.1–98.0%)1mb区域的方差(图。 1b ,补充表 4 和 方法 )在16种癌症类型中,基准功效是足够的(大于100万突变,不包括淋巴瘤,其中活化诱导的胞苷脱氨酶在局部高突变区域产生极端异常突变计数)。与专门设计来分析平铺区域的现有方法相比 34 ,编码序列 4 ,21 和非编码元件,其中同义突变不能用于校准突变率模型 18 ,19 (例如,增强子和非编码RNA),Dig分别解释了16个队列中14个的10kb区域内SNV计数、16个队列中16个的非同义SNV计数以及16个队列中15个的增强子和非编码RNA SNV计数的最大变化(图。 1d ,表格 1 ,补充图。 2 和补充表格 4 –6 ).我们方法的准确性部分归因于深度学习网络识别局部表观遗传结构的能力,如活性转录起始位点,并将这些结构与突变率相关联(扩展数据图。 2 和补充说明 1 ).
表PCAWG队列中观察到的SNV计数的方差比例( n = 2,279个样本) 这种准确性相应地支持强大的驾驶员识别。在测试下游识别先前识别的驱动元素中的正选择证据(即,过量突变)的能力的基准中,Dig匹配或超过了针对特定类元素定制的方法的性能 4 ,18 ,19 ,20 ,21 在全基因组和全外显子组测序样品中(图。 1e 补充图。 3 –5 ,补充表格 7 –10 和补充说明 2 和 3 ).考虑驱动基因——已知驱动基因的高质量数据库可以近似金标准真阳性( 方法 )—在32个PCAWG队列中的24个中,Dig具有最高的F1-得分(准确性的衡量标准)(不包括先前工作中的皮肤癌和血癌 19 由于局部超突变过程),并且与广泛使用的基于负荷的驱动基因检测方法相比,在16个全外显子组队列中的14个中最有效(图。 1e 补充图。 3 和 4 和补充表格 8 和 9 )(功率测量为近似接收器操作特征曲线下的面积,由于外显子组序列队列的较大尺寸,可对其进行估计; 方法 ).
使用Dig识别潜在驱动因素比现有方法快1-5个数量级,现有方法为分析的每个元素和群组训练新模型(图。 1f ).例如,测试10 7 观察到的阳性选择证据的突变在10 5 非编码元素在单个CPU内核上完成Dig不到90秒,而其他方法需要大约10分钟到2天以上。因此,我们的方法匹配或超过了现有方法的能力,同时需要更少的运行时间,并提供了在全基因组范围内以突变水平的精度识别驱动因素的灵活性。
小变异集增加了识别驱动因素的能力 先前对非编码驱动因子的搜索已经得出结论,这种驱动因子可能很少,只有不到1%的样本携带 5 。使用我们的模型的生成能力的功率分析同时发生( 方法 ),表明大多数已知的非编码元件(例如增强子)需要至少1-2%的样本携带驱动突变,才能在当前样本量下检测到超过90%的突变(约10 2 对于个别癌症类型;~103 对于泛癌队列)(补充图。 6 ).然而,通过将测试元件的大小减少到仅包含几十到几百个位置(与迄今为止考虑的大多数非编码元件跨越数千个碱基对相反——例如,平均增强子大小:1,1,717 bp范围,600–30,200 bp),在< 1%的样本中识别驱动突变的能力增加了约20%(补充图。 6 ).为了证明Dig发现推定驱动因子的能力,我们定义并测试了具有潜在功能影响的特定突变组,作为选择的证据。测试用户指定的全基因组特定突变的能力是我们方法的一个独特特征(据我们所知)。
量化隐性剪接SNVs上的泛癌选择 选择性剪接越来越被认为在功能上与癌症相关 35 ,36 最近的研究将规范剪接位点外的特定体细胞突变与表达数据中观察到的选择性剪接事件相关联 37 ,38 。因此,我们应用Dig严格地定量了隐性剪接SNVs的程度,它可能存在于基因的外显子和内含子中(图。 2a ),发生率超过中性突变率,因此,可能在选择下起驱动突变的作用。来自癌症基因普查(CGC)的肿瘤抑制基因 39 通过剪接预测的隐藏剪接snv 40 (方法 )发生的频率明显高于中立情况下的预期(283个TSG中观察到648个snv,而预期为550个snv; P = 2.38 × 10 −5 )(图。 2b 和补充表格 11 和 12 );主要富集在内含子中(大多数这样的突变发生在内含子中);并且偏向于发生在对剪接具有高预测影响的位点(预测影响δ得分> 0.8的SNVs表现出1.75倍的富集(95%可信区间(CI):1.31–2.22倍), P = 2.52 × 10 −5 )(图。 2b,c ).总的来说,内含子隐蔽剪接snv估计占TSG中过量snv(潜在驱动因子)的4.5%(95% CI:1.3-7.4%),与规范剪接snv的7.4%(5.6-9.7%)相似,规范剪接snv的驱动因子潜力已被充分确定 4 (图。 2d )(外显子超额SNV估计值与dNdScv的估计值一致;补充图 7 ).结果对高突变负荷样本是稳健的(补充图。 8 )并且与不依赖于我们突变图的分析相一致(补充图。 9 ).不在CGC的控制基因和在CGC的癌基因都不富含隐蔽剪接SNVs(扩展数据图)。 3 和补充表格 11 ).癌基因缺乏富集表明,功能获得性剪接突变超过了那些诱导跳跃的功能获得性剪接突变 遇见了 外显子14非常罕见,这可能反映了内含子剪接突变的低可能性,这种突变导致在病理上激活癌基因的残基的框内添加。相反,TSGs的富集表明隐性剪接突变通常是失活的,可能是通过触发无义介导的mRNA转录物的降解或产生功能受损的蛋白质。
图TSGs中内含子隐蔽剪接SNVs正选择的证据。 a ,本分析中考虑的剪接变异snv示意图。对拼接的预测影响由拼接δ分数衡量(分数越高,拼接改变的可能性越大)。我们根据对拼接的预测影响对可能的snv进行了分层:低预测影响(0.2 <δ< 0.5)、中预测影响(0.5 <δ< 0.8)和高预测影响(0.8 <δ< 0.1)。 b ,根据变异类型分层的TSGs中观察到的突变与预期的中性突变相比的估计富集度(95% CI ),以及对剪接的预测影响 n =来自PCAWG数据集的2,279个泛癌样本( n 补充表中每个类别的突变 11 ). c ,预测重复突变TSG中观察到的内含子隐蔽剪接snv的剪接影响(剪接δ分数)(参见 e )与在不在CGC中的基因中观察到的相比(**表示引导 P < 3 × 10−4 ; 方法 ).箱形图元素在中定义 方法 . d ,TSGs中过量SNVs的比例,由每种改变蛋白质的SNV类别贡献。 e ,每个癌症的已知TSG具有预测内含子隐蔽剪接SNVs的显著负荷(FDR < 0.1)( n 补充表中每个基因的突变 13 ). f 在反复突变的TSGs中观察到的内含子隐蔽剪接SNVs到最近外显子边界的距离分布。 g ,在淋巴BNHL载体中堆积的RNA-seq reads是一个预测的,内含子很深的隐蔽剪接SNV(红色标记) 反式激活蛋白 和对照淋巴-BNHL样品,显示在隐蔽剪接SNV载体中包含隐蔽外显子(金)。弧形标记表示支持每个外显子连接的RNA-seq读数的数量。
考虑到单个基因,12种癌症类型中的7个TSG具有内含子隐蔽剪接SNVs的显著负担(错误发现率(FDR) < 0.1n = 37种癌症中的283个TSG)( 方法 ,图。 2e 和补充表格 13 ),TSG-癌症关联模式与已知的TSG组织特异性一致。泛癌, TP53 和 SMAD4 两者都与许多癌症有关,携带过量的隐蔽剪接SNVs。相反,造血特异性TSG 反式激活蛋白 和肾特异性TSG PBRM1 分别在血液和肾脏恶性肿瘤中携带过量的隐蔽剪接SNVs。进一步支持这些关联的是,在这些TSG中观察到内含子隐蔽剪接snv,其中大部分(79.3%)位于注释剪接区域之外(即,距离外显子-内含子边界> 20 bp)(图。 2f ),对剪接的预测影响显著高于在非CGC中观察到的影响(图。 2c )(平均拼接δ分数= 0.55对0.33; P < 3 × 10−4 ; 方法 ).此外,在6个具有足够覆盖范围的可用RNA测序(RNA-seq)数据的隐性剪接SNV携带者中,5个具有选择性剪接的证据(图。 2g ,补充图。 10 ,补充表 14 和补充说明 4 )由切叶机定量 41 (方法 ).总的来说,这些结果提供了证据,表明内含子隐蔽剪接snv在TSGs中处于正选择,并可能在多种癌症类型的百分之几的肿瘤中充当驱动事件。
不在CGC中的9个基因在6种癌症中也具有内含子隐蔽剪接SNVs的显著负荷(补充表 15 )在FDR < 0.1时,其中两个基因在更严格的Bonferroni (α < 0.05)校正下对所有基因和癌症进行的712,600次测试具有显著的负担。四个基因的负荷由每个基因单个内含子位置的重复突变驱动(补充表 16 ).相关基因包括 BTG2 在淋巴瘤中,参与细胞周期G1/S转换的调节,最近根据其编码序列的突变被认为是血癌的驱动因素 10 ,以及 ADAM19 在造血系统肿瘤中,其与乳腺肿瘤的发生有关 42 ,前列腺 43 ,结肠直肠 44 和卵巢 45 癌症。尽管应该谨慎解释新驾驶员的计算预测( 讨论 ),这些基因可能是未来实验研究的有希望的目标,以调查其潜在的致瘤特性。
5′非翻译区的非编码候选癌驱动因子突变 假设indels通过破坏转录因子结合基序对基因表达有很大的影响,我们寻找启动子( n = 19,251)对于PCAWG数据集中的indels负荷( 方法 ).这 TP53 启动子是唯一具有全基因组显着(FDR < 0.1)indel负荷的元件(观察到7个,预期为0.54个; P = 9.4 × 10 −7 )(图。 3a ),与之前使用限制性假设检验提高统计功效的分析一致 5 。观察到的突变——所有缺失明显大于预期(图。 3b )(中值长度= 17 bp,而预期为1bp; P = 7.4 × 10 −4 ,片面的曼恩–惠特尼 U -test)-特别影响规范的5’非翻译区(UTR)的外显子1,破坏的关键序列元件(转录起始位点, 包装53 结合序列 46 ,内部核糖体进入位点 47 ,48 和多外显子5’UTR的供体剪接区(图。 3a )并表现出与隐蔽外显子剪接SNVs相当的富集 TP53 ,这是很好的癌症驱动因素 49 (图。 3c ).外显子1剪接区域中超过一半的突变(7个中的4个)没有改变规范的剪接位点,这是一个与其他相比意想不到的模式 TP53 拼接区域(图 三维(three dimension的缩写) ) (P = 1.8 × 10 −3 ,双侧费希尔精确检验)。5′UTR突变携带者的表达显著降低 TP53 比没有TP53 突变和具有预测功能编码的个体TP53 突变(1–2标准偏差减少 TP53 与非携带者相比, P = 1.2 × 10 −4 ; 方法 ,图。 3e 和补充图。 11 ),表明这些突变要么直接抑制 TP53 转录或导致mRNA转录物的无义介导的衰变。来自哈特维格医学基金会的2399个不同样本中的7个证实了这些结果 50 显示了相似的突变模式,三个携带> 10-bp的缺失,四个携带SNVs。 TP53 外显子1及其供体剪接区(图。 3a ).
图TP53和ELF3的5’UTRs中体细胞突变的富集。 a ,在规范TP53转录物的5’UTR的外显子1中观察到的来自PCAWG和Hartwig医学基金会队列的突变。来自GRCh37参考基因组(+链)的DNA序列。突变类型、相关序列和调控元件如图例所示。 b –e 对PCAWG数据集的分析( n = 2279个样本)。 b 在除TP53以外的基因的5′UTRs内观察到的indel大小的分布( n = 3,988英寸)且在TP53 5’UTR内( n = 7英德)。 P 单边Mann-Whitney的indel长度中值比较值 U -测试。 c ,根据突变类型和位置(补充表中每个类别的突变数量)分层的TP53内相对于中性突变率(观察到的/预期的中性突变)的估计突变富集 17 ).误差线,95%置信区间。 d 在规范TP53转录物的供体和受体剪接区(分别定义为外显子的3’和5’的20 bp)内观察到的突变分布。规范剪接SNVs和indels:改变紧邻外显子边界的两个碱基对的突变;剪接区域SNVs和indels:与剪接区域交叉但不与规范剪接位点交叉的突变。5’UTR外显子1的供体剪接区(显示于 a )加粗。 P 通过双侧Fisher精确检验计算,与所有其他TP53剪接区域相比,观察UTR外显子1 5’供体剪接区域中规范和剪接区域突变分布的价值。 e TP53 5′UTR突变携带者中TP53在标准偏差尺度上的表达( n = 6)和非载波( n = 1,205),针对PCAWG数据集中的肿瘤类型和拷贝数进行了调整( n = 2279个样本)。 P 单向曼恩-惠特尼的价值 U -对调整和标准化的表达式值进行测试。箱形图元素在中定义 方法 . f 在PCAWG和Hartwig医学基金会队列中,SNVs与ELF3重叠。插图:放大的El F3 5’UTR区域和该区域内95%顺式的估计突变富集(补充表格中每类突变的数量 17 和 18 ).
这些结果激发了对106个TSG和95个具有多外显子5’UTRs的癌基因( 方法 ).一个额外的元素,5′UTR ELF3 ,SNVs负担很重(图。 3f )在PCAWG样本中(观察到6个snv,而预期为0.96; P = 2.9 × 10 −4 );来自Hartwig医学基金会的样品显示了类似的富集(观察到10,预期1.5; P = 3.8 × 10 −4 ; 方法 ).在两组样品中,富集都集中在标准范围内 ELF3 5′UTR;周围的序列(上游启动子和内含子1)没有富集突变(图。 3f ).这16个突变在很大程度上改变了5’UTR内的独特碱基对——尽管在PCAWG样本中突变的两个位置在Hartwig样本中也发生了突变——这表明该5’UTR可能对扰动广泛敏感,可能是通过促进启动子甲基化的变化而改变 ELF3 表示 51 。另一种可能性可能是该区域未建模的局部突变过程或技术人工制品 9 ;然而,一项仔细的分析并没有发现任何可以解释其他非编码突变热点的证据 5 (补充说明 5 ).少量的携带者和有限的转录组分析(只有三个来自PCAWG的携带者有RNA-seq数据)阻止了对这些5’UTR突变的可能功能的研究。因此,额外的随访,特别是评估5’UTR突变影响的实验性测定 52 必须确定这里的突变富集是代表正向选择还是代表一种新的中性突变过程。
常见和罕见驱动基因的共享景观 即使在特征明确的驱动基因中,小样本量对罕见的编码突变(这是肿瘤中大多数外显子突变的原因)是否起驱动作用的评估也有限。我们通过两种方式增加统计功效:(1)通过分析来自14,018个全外显子组和靶向测序样本的非同义SNVs的大型荟萃队列,代表10种实体瘤类型(每种癌症的样本中位数为1,195;范围,515–3,110)(补充表) 19 和 方法 );和(2)通过仅考虑癌基因(从癌症基因组翻译中获得)中的激活突变 23 )和所有其他基因中的预测功能丧失(pLoF)突变。这种分析以前由于从大型公开的靶向测序数据集中排除同义突变而受到阻碍 53 ,54 ,55 ,56 ,57 因为现有的驱动基因检测方法依赖于同义突变。Dig避开了这个困难,因为模型参数已经从一个单独的训练队列中推断出来了。
对于每种癌症,我们首先将我们的分析局限于“长尾”基因,我们在最近三次大型泛癌驱动基因调查中将其定义为与该癌症类型无关的癌基因和TSG 7 ,10 ,11 。Dig估计1-5%的样本(取决于癌症)携带长尾癌基因中的活化SNVs(图。 4a )和3-6.5%的携带plo的SNVs在长尾TSG中(图。 4b ).这些比率明显高于预期( P < 3.78 × 10−9 用于激活所有群组中的SNVs P < 3.10 × 10−4 对于除前列腺以外的所有队列中的pLoF SNVs( P 前列腺= 0.056)。 12 ,补充表格 20 和 21 和 方法 ).当我们将分析仅限于全外显子组测序的样本时,这些比率是一致的,尽管由于样本量减少,检测阳性选择的能力下降(补充图。 13 和补充表格 22 和 23 ).考虑到单个基因,在最近的驱动基因泛癌调查中没有报道的92个癌基因-肿瘤对具有显著的(FDR < 0.1)激活SNVs的负担(图。4c 和补充表格 24 ).在泛癌调查中没有报道的46个TSG肿瘤对具有显著的pLoF突变负担(图。 4d 和补充表格 25 ).与现有数据库中的驱动基因相比,新鉴定的候选驱动基因是罕见的(0.28%(四分位距,0.14-0.53%),而新发现的和已知的驱动基因分别为1.3%(四分位距,0.59-3.0%); P = 3.1 × 10 −27 ,双面曼恩–惠特尼 U -测试)。进一步支持这些预测的是,给定驱动基因中激活突变的分布在癌症中是相似的,在癌症中该基因是已知的、常见的驱动基因,在癌症中我们新发现该基因是假定的稀有驱动基因(扩展数据图)。 4 ).例如,G12、G13、Q61和A146位置 喀斯特地貌 占了大部分 喀斯特地貌 常见和罕见情况下的SNVs(肺非小细胞肿瘤:568/586突变;前列腺肿瘤:12/17突变;神经胶质瘤:11/15),V600E突变解释了多数 黑色素瘤 尽管每个基因都有几十个已知的激活SNVs(分别为52和71),SNVs在常见和罕见的情况下。此外,一些预测的罕见驱动基因突变携带者表现出的表型与肿瘤中报道的基因为常见驱动基因的表型一致(补充说明 6 ).例如,在DNA错配修复基因中具有罕见pLoF突变的中枢神经系统肿瘤 MSH2 和 MLH1 在213个靶向测序基因中表现出显著增加的全局突变率( MSH2 携带者的平均突变数为30.1,而非携带者为3.0; P = 3.8×10 −7 ,片面的曼恩–惠特尼 U -测试; MLH1 携带者的平均突变数为35.3,而非携带者为3.1; P = 8.8×10 −6 ,片面的曼恩–惠特尼 U -测试)。
图4:蛋白质改变SNVs在“长尾”基因中的富集揭示了常见和罕见驱动基因的共享景观。 a ,b ,致癌基因中过量致癌SNVs的95%顺式的估计突变率( a )和TSG中的pLoF变体( b )之前与给定的癌症没有关联( x 轴)在三个大的驱动基因目录中 7 ,10 ,11 。星号表明致癌(pLoF) SNVs的负担在癌症类型( P 每个类别的snv值和数量在补充表格中 20 和 21 ). c ,d ,致癌基因-肿瘤对和TSG肿瘤对,具有致癌或蛋白截断SNVs的显著负荷。Dietlein等人先前报道的基因-肿瘤对。 10 ,贝利等人。 11 或马丁内斯-希门尼斯等人。 7 用灰色标出。不在这些星表中的配对用红色标出,颜色强度表示关联的显著性。在考虑癌症特异性中性突变率后,标记大小与估计的过度突变率成比例。CNS,中枢神经系统;非小细胞肺癌。
另外29个基因-肿瘤对具有显著(FDR < 0.1)的pLoF基因突变,这些突变不在任何癌症的癌症驱动数据库中( 方法 和补充表格 26 ),其中两个在更严格的Bonferroni (α < 0.05)校正下对测试的基因总数显著,另外六个由一个名义( P < 0.05) burden of missense mutations. The top hit is the cell polarity gene PARD3 在胃食管癌中(9个观察到的pLoF SNVs对1.1个预期值; P = 1.57 × 10 −6 ),尽管没有出现在主要的驱动基因数据库中,但它是癌基因的已知融合伴侣 浸水使柔软 并且与多种实体癌的肿瘤发生有关 58 。区分低突变频率基因中突变负荷的能力,例如 PARD3 (827个样本中的9个携带者),强调了我们的方法可以通过在大型队列中测试特定的突变集来获得积极选择的证据,从而提高统计能力。
我们的结果代表了一个无偏见的、泛癌的驱动基因目录的进展,并表明驱动机制在常见和罕见的实体癌驱动景观中是共享的。然而,在目前的样本量下,稀有驱动基因的计算鉴定依赖于小的突变计数,预测应该小心地解释。相关癌症中基因功能的实验表征对于证实它们的致癌作用是至关重要的。