我们分析了丹麦双子登记处305人的DNA甲基化数据,其中116人有一个或多个芯片突变,其中55个有一个或多个芯片突变。DNMT3A突变44例TET 2突变(附图)1–3和补充表1)。用Illumina 450 k阵列对甲基化谱进行了表征,427,112个CpG位点通过质量控制。没有一个人TET 2或DNMT3A在丹麦国家病人登记处,突变被诊断为髓系疾病。在没有芯片的VS个体之间,以及在没有芯片的个体之间,全球平均β甲基化水平没有差异。TET 2或DNMT3A基因突变与无芯片个体的比较(附图)。4)。我们分析了从dna甲基化水平推断的血细胞类型比例的差异,发现TET 2突变与更高比例的单核细胞(P,但在其他情况下,细胞比例在有无细胞比例的个体之间没有显着性差异。TET 2或DNMT3A突变(附图)5)。观察到的更高的单核细胞计数TET 2突变与小鼠实验数据一致。16以及人类的观测数据17.
TET 2突变与芯片中广泛存在的CpG甲基化有关
接下来我们研究了DNMT3A以表观基因组的方式进行突变和甲基化水平的比较DNMT3A对189名没有任何芯片突变的个体进行突变,同时调整年龄、性别、批处理效应、四个主成分以及从甲基化特征推断出的血细胞比例,并观察到P值(基因组膨胀系数,λ=1.12,图1。1A和补充数据1)。在对44人进行类似的分析时TET 2突变,我们发现基因组膨胀要大得多,表明TET 2突变可能影响大量位点的甲基化水平(λ=1.29,图1。1B和补充数据2)。火山的结果TET 2-具体分析表明CpG位点低P值几乎完全与TET 2突变状态(图1.1C)。我们将超甲基化位点定义为与TET 295%的CpG位点高度甲基化的显着性阈值突变(图1)。1D)。在…P < 1.4 × 10−5在2885个位点中,有2741个位点发生了甲基化,我们选择了这2741个位点进行进一步的研究。我们测试了2741个位点的甲基化水平是否与TET 2VAF发现其中2694个(98.3%)是这样(P < 1 × 10−16,补充图。6)。由于芯片和dna甲基化都被证明与吸烟有关,我们对累积烟草暴露和当前吸烟情况进行了敏感性分析,并观察到结果没有任何有意义的变化(所有2741个甲基化位点都与吸烟呈正相关。TET 2在这两项分析中,95%的突变仍然低于显着性阈值,并且是观察到的最高值。P校正后值为4.3×10−5、补充方法1和补充图。7)。曼哈顿的一幅图显示,2741个位点并不局限于一个或几个特定的位点,而是分布在整个基因组中(如图所示)。1E)。这个DNMT3A-具体分析发现160个CpG位点DNMT3A突变载体(附图)8和9)。再一次,我们没有发现吸烟的证据(补充图)。10)。总之,这些结果证明了芯片突变的存在TET 2与大量基因组位点CpG甲基化水平升高有关,而DNMT3A突变只会导致相对较少的位点发生可检测的变化。这种高甲基化表型最有可能与TET 2突变而不是由于细胞类型组成的变化,因为这是调整在模型中。
图1:表观基因组范围的关联研究DNMT3A和TET 2突变。aQQ策划P差异甲基化分析中的值分布DNMT3A突变状态(55)DNMT3A-变异基因,而无芯片者189人)。b和A一样,但是比较44TET 2-无芯片突变个体至189人。c火山结果图TET 2-具体分析。水平虚线P=1.4×10−5。角落中的数字表示每个象限中用虚线分隔的CpG站点的数目。红点和蓝点分别代表高和低甲基化CpG位点,低于显着性阈值.d选择P在C.红线中使用的值截止值显示超甲基化位点的比例随着减少而增加P价值截止。水平虚线表示95%的站点是过甲基化的。垂直虚线表示选定P1.4×10−5. e曼哈顿地块显示2741个CpG站点TET 2突变相关的高甲基化以红色突出显示。P所有面板中的值和效应大小估计都是以双对为随机截距的线性混合效应回归。全P值是双面的,不能对多个比较进行调整.
高甲基化位点的基因本体富集和染色质状态分析
基因本体富集分析表明,2741个高甲基化位点位于或接近参与多个生物学过程的基因,所有这些都与免疫反应和(尤其是髓系)白细胞功能有关。2A)。使用DNMT3A-具体分析。接下来,我们利用Roadmap表观基因组学的ChromHMM数据,将我们的发现与单核细胞的染色质状态进行了比较。18结果发现,在2741个高甲基化位点中,近三分之一(31%)位于活性增强区,而只有7%的非甲基化位点(P < 10−16, χ2测试图。2B)。同样,被标注为基因增强子的区域和活性转录区域在2741个CpG位点中高度富集,而其他区域如抑制的多梳状体和静止的染色质的表达量较低。此外,虽然32%的非甲基化CpG位点位于CpG岛,但在2741个超甲基化位点中,只有8%是这样的(P < 10−16, χ2相反,在低CpG密度的基因组区域(如图所示),这些基因的表达量过高。2C)。这些观察结果与以前报道的TET 2在增强子(如髓系小鼠细胞)上的结合是一致的。19。此外,TET 2突变似乎不会影响癌症中CpG岛的甲基化状态。12,可能是由于TET 1和H3K4me3机制严格控制CpG岛甲基化所致。20.
图2:2741个cpG位点的特征TET 2-变异芯片a2741个超甲基化位点基因本体术语的丰富。P使用基于区域的二项分布测试导出的值在很大程度上没有经过多次比较的调整。b单核细胞染色质在高甲基化和非过甲基化位点的状态。c甲基化和非甲基化位点的CPG岛关系。
总之,我们发现TET 2相关的CpG过甲基化在有芯片的个体的癌前状态已经被发现,并且这些CpG位点主要发生在增强子区域。
复制TET 2CCUS患者突变相关DNA甲基化特征的研究
调查是否TET 2突变对CCUS中DNA甲基化的影响相似,我们对5例CCUS患者外周血粒细胞进行了DNA甲基化分析。TET 2-变异克隆(VAF:33%、45%、47%、50%和50%)和8名健康对照(补充表)2),这一次使用较大的Illumina 850 k史诗阵列,它对增强子区域和非CpG岛有更好的覆盖范围。使用我们的定义TET 2突变相关的CpG高甲基化位点,我们发现12,096个CpG位点是明显的过甲基化(图1)。3A和补充数据3)。在2741个在芯片中过甲基化的cpG位点中,2460个在质量控制后可在ccus数据中进行评估,其中2427个(99%)与TET 2CCUS突变(P < 10−16, χ2测试)。同样,CCUS中93%的高度甲基化位点与TET 2芯片突变(P < 10−16, χ2测试图。3B)。对12,096个高甲基化位点进行基因本体富集分析,发现许多与髓系白细胞功能相关的生物过程作为芯片分析(图一)。3C)。此外,低CpG密度的促进剂和区域的比例与芯片上的分析结果非常相似(图1)。3D,e).
图3:表观基因组分析结果TET 25例CCUS患者和8例健康对照者粒细胞DNA突变。a火山图CCUS结果。红色点表示芯片中2741个高甲基化位点的CpG位点(如图所示)。1C)。边距显示2741个站点的分布与EPIC数组的其余部分。角上的数字表示每个象限中用虚线分隔的点(两种颜色)的数目。P在Limma中使用线性模型导出的值和影响大小估计。P值是双面的,不能对多个比较进行调整.b芯片结果火山图(与1C相同),黄色点表示CCUS颗粒细胞(面板右上象限)中12,096个明显过甲基化位点的CpG位点。a)。只显示芯片和CCUS中分析的位置。P在Limma中使用线性模型导出的值和影响大小估计。P值是双面的,不能对多个比较进行调整.cCCUS中12,096个超甲基化位点基因本体术语的丰富P使用基于区域的二项分布测试得出的值在很大程度上是不经调整的,不适用于多个比较。d单核细胞染色质状态为高甲基化和非甲基化位点。e甲基化和非甲基化位点的CPG岛关系。
为了研究观察到的甲基化是否存在于粒细胞以外的其他系中,我们分析了20例CCUS患者的T细胞缺失、骨髓来源的单个核细胞(Mnc)的dna,其中10例有a。TET 2变异(中位数VAF:40%[四分位数范围38-41%],补充表3)。在芯片中高度甲基化的位点中,99.6%的位点与TET 2CCUS多核细胞突变(P < 10−16, χ2测试,补充图。11A和补充数据4)。相应地,96.3%的CCUS粒细胞高度甲基化位点与TET 2CCUS多核细胞突变(P < 10−16, χ2测试,补充图。11B)。基因本体富集分析、染色质状态分析和CpG岛关系分析结果与粒细胞DNA分析结果相似。11C-E).
转录起始点甲基化在癌症中起着重要的调控作用。21。为此,我们确定了芯片和CCUS中TSS位点的甲基化区域。两个芯片和两个CCUS数据集之间只有一个超甲基化的TSS位点重叠(补充方法)。2),并且本网站没有已知或怀疑在癌症中的作用(补充表)。4).
总之,我们发现TET 2芯片和CCUS中与突变相关的CpG高甲基化。在全血、外周血粒细胞和骨髓来源的多核细胞中都能清楚地检测到甲基化现象.同时观察到CCUS粒细胞样本中变异的克隆在每5例患者中至少占血细胞的90%,这些结果进一步支持了我们的结论:TET 2突变与观察到的恶性前状态的甲基化有关。
TET 2-相关的超甲基化与特定转录因子基序共定位
由于已知tet 2的活性发生在不同细胞背景下不同转录因子结合位点附近,我们接下来对增强子区域进行了基序富集分析。TET 2芯片和CCUS中突变相关的高甲基化。我们定义了位于单核细胞增强子中每个CpG位点中心的200个bp区域,并分别根据芯片和粒细胞数据中的过甲基化程度对它们进行了排序。在分析的678种独特转录因子中,46种在芯片中显著富集,75种在CCUS(补充数据)中富集。5)。其中,28枚同时在芯片和CCUS中富集(P < 1 × 10−16, χ2测试)。最值得注意的是,ETS转录因子家族的大量成员,包括elF 2、ETS 1和主造血调节因子SPI 1,在芯片和CCUS中都有很强的富集(图1)。4)。在25个ETS转录因子基序中,21个(84%)在芯片(P < 1 × 10−16,Fisher‘s确切试验)和23(92%)富集在CCUS(Fisher’s确切试验)中P < 1 × 10−16)。此外,十分之七(70%)C/EBP相关转录因子在芯片中富集(Fisher‘s精确检验)。P=0.03和9/10(90%)在CCUS中富集(Fisher‘s精确检验)P=1×10−8).
图4:芯片和CCUS中超甲基化单核细胞增强子区的部分富集转录因子结合基序。超甲基化区域被定义为位于增强子区域的CpG位点周围200 bp的侧翼区域。浓缩(E)值,由菲舍尔精确测试法导出,用于分析母模富集。E值调整P由HOCOMOCO v11完整数据集测试的转录因子结合基序数目的校正值(N=769)。
总之,我们发现ETS和C/EBP转录因子结合基序在或附近都有很强的富集。TET 2突变相关的CpG甲基化在芯片和CCUS中均存在,提示TET 2的活性与关键转录因子的合成直接相关,对细胞的识别和造血分化有指导作用。
TET 2AML突变与造血干细胞特异性增强剂甲基化水平升高有关。
调查是否TET 2突变相关的甲基化在AML和芯片与ccus之间是一致的,我们分析了90例AML患者的可用序列和450 k甲基化阵列分析数据,这些数据来自于癌症基因组图谱(Tcga)LAML队列,其中4人有TET 2突变。在…P < 0.01, 2000 sites were hypermethylated, constituting 72% of all sites below this significance cutoff (P=8.2×10−12, χ2测试)。
在芯片中发生过甲基化的2741个位点中,有2310个位于tcga数据集中,其中1895个(82%)与TET 2突变(P < 1 × 10−16, χ2测试图。5A)。同样,78%在CCUS粒细胞中过度甲基化的位点也在AML中发生过甲基化(P < 1 × 10−16, χ2测试图。5B)。在急性髓细胞白血病2000例高甲基化位点中,只有54%与TET 2芯片突变(P=0.81,χ2测试,补充图。12)。与此形成对照的是,在AML中的2000多甲基化位点中,72%的位点也与AML呈正相关。TET 2CCUS粒细胞突变(P < 1 × 10−16, χ2测试图。5C)。这些结果表明,虽然芯片中观察到的甲基化在AML中也能检测到,但在AML中也有许多额外的位点被过甲基化,而这些位点在芯片中也没有过甲基化。在反洗钱中被过甲基化的站点在CCUS中也更有可能被过甲基化,这表明尽管TET 2芯片和CCUS中的相关甲基化是高度相似的,CCUS也显示出与AML中观察到的更相似的额外的甲基化特征。
图5:TET 2TCGA LAML数据中突变相关的高甲基化。a4例和86例AML患者表观基因组相关研究结果TET 2分别突变。红色点表示芯片中2741个高度甲基化位点的CpG位点(图1)。1C)。水平虚线P=0.01。边距显示2741个站点的分布与其他站点的分布情况。角上的数字表示每个象限中用虚线分隔的点(两种颜色)的数目。P在Limma中使用线性模型导出的值和影响大小估计。P值是双面的,不能对多个比较进行调整.b类似于a。橙色点表示CCUS粒细胞中12,096个明显过甲基化位点的CpG位点。只显示这两个集合之间的重叠点。P在Limma中使用线性模型导出的值和影响大小估计。P值是双面的,不能对多个比较进行调整.c火山图的CCUS粒细胞的结果(与图中相同)。3A)但随着2000年在AML中的高度甲基化位点的突出(紫色点)。P在Limma中使用线性模型导出的值和影响大小估计。P值是双面的,不能对多个比较进行调整.d造血干细胞(HSC)特异性AML中甲基化和非甲基化位点的比例(N=14,398)和单核细胞特异性促进剂(N=14 017)。e平均标度效应大小估计TET 2所有位于HSC-特异性CpG位点的突变(N=47,748)和单核细胞特异性促进剂(N=37 518)。误差栏表示95%的置信区间。见附图。13用于数据分发图。
基因本体富集分析的2000多甲基化位点没有发现任何显着丰富的生物过程。此外,位于单核细胞增强子中的CpG位点在2 000个高甲基化位点中仅略有富集(9%vs 7%的非甲基化位点),P=7×10−5, χ2测试图。5D)。由于单核细胞中的染色质状态可能不是AML细胞的一个很好的替代物,我们还计算了CD 34的路线图表基因组ChromHMM注释中位于增强子中的AML中高甲基化位点的比例。+造血干细胞(HSCs),并发现增强子区有较高程度的富集(15%在HSCs中,8%在单核细胞中,P < 1 × 10−16, χ2测试)。然后我们比较了平均TET 2芯片、ccus和AML的突变相关甲基化差异在注释为单核细胞增强子的区域(单核细胞特异性增强子)和被注释为hsc增强子的区域(hsc特异性增强剂)的位点之间存在差异,并且发现只有单核细胞特异性增强子在芯片和ccus中被过度甲基化(这两个位点都是hsc增强子而不是单核细胞增强子)。P < 1 × 10−16、学生的t测试图。5E和补充图。13Hsc特异性增强剂在AML中的甲基化程度明显高于单核细胞特异性增强剂(P=5.7×10−10、学生的t测试)。基元富集分析TET 2高甲基化的HSC增强子区显示238种转录因子的过量表达。在芯片和CCUS中,ETS转录因子的表达量过高(84%的基序显著丰富,P=5.6×10−7, χ2测试),但不包括C/EBP因素(P=0.18)。总之,这些结果表明TET 2AML的突变与芯片和CCUS中的许多甲基化变化有关,它们也与大量其他位点的甲基化有关,特别是在HSCs中与活性增强子有关的位点,而在成熟的单核细胞中则不然。同样,对于DNMT3A突变,芯片上观察到的少数甲基化变化在AML中也可能存在,但同时在芯片中没有检测到更多的变化。
DNMT3A突变与AML中广泛的低甲基化有关TET 2超甲基化
我们观察到DNMT3ATCGA AML组突变和CpG低甲基化,19,235个低甲基位点在P < 0.018 (Supplementary Fig. 14)。160个CpG位点DNMT3A-突变芯片DNMT3A在这两个数据集中的133个CpG位点中,有125个[94%]的AML突变状态,P=4.1×10−13, χ2测试)。AML中19,235个低甲基化位点也在增强子区富集(20%,而其余7%),P < 1 × 10−16, χ2测试,补充图。15)。我们问是否和在多大程度上DNMT3A和TET 2影响同一CpG位点的甲基化状态。在芯片中,与DNMT3A在2741人中,突变率较低。TET 2-相关的甲基化CpG位点(48%,而其他位点为54%),P=6×10−10, χ2测试补充图16),但在反洗钱方面,2000年TET 2-相关的高甲基化位点在DNMT3A突变肿瘤中被富集以进行低甲基化(P < 1 × 10−16, χ2测试)。两种疾病均无AML患者。TET 2和DNMT3A突变意味着相互排斥。最后,DNMT3AAML的突变与强烈的低甲基化状态有关,包括少数几个低甲基化位点。DNMT3A-变异芯片AML,而不是芯片,显示了CpG位点之间的关联,这些位点在TET 2突变样本DNMT3A-变异样本。
预测TET 2芯片和CCUS的突变
我们的发现表明TET 2已处于恶性前状态的基因调控功能相关位点的突变状态和CpG高甲基化。接下来,我们询问甲基化状态在多大程度上可以预测TET 2突变状态。为此,我们开发了一个基于dna甲基化的预测模型。TET 2突变状态。这样的模型原则上可以用于识别载货人。TET 2只使用DNA甲基化信息的突变。我们首先使用一个弹性网络逻辑回归模型的左一出交叉验证来预测44。TET 2芯片队列中的突变。虽然这种方法准确地预测了44人中的11人TET 2变异病例对应的敏感度为25%,全部261人无TET 2突变分类正确,特异性为100%(补充表)5和补充图。17)。在……里面TET 2突变载体、预测概率与克隆大小呈正相关(P=2.3×10−6)。接下来,我们使用基于芯片队列中所有个体的相同模型来预测。TET 2两个CCUS队列中的突变,并准确地分类了所有8名健康对照者和10名没有CCUS的CCUS患者。TET 2突变(特异性100%)和15例中的9例,敏感性为60%(补充表)6和补充图。18).
总之,我们的结果表明,基于甲基化的模型可以用于预测。TET 2变异状态,即使有一个适度的队列大小。