SH2As已进化成癌组蛋白特征。 有五个 X -连接人类的sH2A基因:H2A.B.1.1( H2AFB 2 ),H2A.B.1.2( H2AFB3 ),H2A.B.2( H2AFB 1 ),H2A.P( 油麻油 )和H2A.Q(未加注释) 8 。我们比较了sH2As和标准H2A的氨基酸序列,以评估它们的快速进化是否会导致癌组蛋白样改变。这一分析表明,在所有野生型sH2A序列中,许多最常见的癌相关突变在典型的h2A中已经存在(如图所示)。 1A ,补充图。 1A,b )。这包括R29Q/F替换,它们对应于规范H2A中第二个最频繁的突变(图1)。 1A ,补充图。 1A,b )2 ,3 。此外,所有野生型sH2As都有一个C末端截断,删除了E 121,这是典型H2A中最常见的突变(如图所示)。 1A ,补充图。 1A,b )2 ,3 。灵长类动物的系统发育分析表明,尽管它们进化迅速,但这些癌组蛋白样的变化是高度保守的(图一)。 1B ,补充图。 1A-c )8 。这种保护意味着功能性后果,因为其中许多残基是组蛋白-dna或组蛋白-组蛋白相互作用的关键接触点。 1 ,13 ,14 ,15 ,16 。这些数据表明,sH2As含有与癌症中典型的H2A突变相似的癌组蛋白特征。
H2A.B在多种癌症中被重新激活 SH2As固有的癌组蛋白特性表明,它们可能通过上调而在癌症中发挥作用。我们把重点放在H2A.B Paralogs的表达上,因为它们有很好的注释,并且已经被证明对核小体的稳定性和细胞周期的进展都有影响。 22 。为了研究H2A.Bs在不同癌症中是否被激活,我们首先使用了来自肿瘤基因组图谱(TCGA)的转录数据。这一分析表明,H2A.B类似物在多个癌症类型的单个肿瘤中被激活(阈值为>1.5/百万转录本(TPM))(如图所示)。2A ,补充数据 1 ,补充数据 2 ),但从未出现在相邻正常组织中(补充数据) 1 ),也很少(<1.5%)来自基因型组织表达数据库的非睾丸组织样本(补充表)。 1 )。表达范围差异很大,两个样本中H2A.B编码的转录本出现在>100 TPM处(补充数据)。 2 )。虽然许多肿瘤会重新激活 H2AFB 1 单独,大多数肿瘤表达 H2AFB 2 也表示 H2AFB3 (无花果) 2A )。这一发现可能源于转录协同调节,因为它们的基因组相近(补充图)。 2B )或无法通过短读映射来区分这些接近相同的参数。 8 ...尽管它们有相似之处,但我们还是能够在几个肿瘤样本中区分这两个基因(如图所示)。 2A ).
图2:H2A.B在多种癌症中表达。 a 热图显示H2A.B蛋白在表达任何一种H2A.B副命令的单个肿瘤中的共同表达(根据RNA-seq的测量值>1.5TPM),对于至少有10个肿瘤表达任何H2A.B副序的癌症类型。每种肿瘤类型中表达H2A.B副反应的肿瘤百分比显示。b H2A.B编码转录本在三个独立的B型急性淋巴细胞白血病数据集中的表达水平(TPM),用RNA-seq测量的水平线标定1.5TPM。仅显示任何H2A.B类似物非零表达的样本:从Liu等人中省略了18、5和1个样本。2016,钱等人。以及Yasuda等人。分别为2016年。 c 如 b ,而是来自CCLE的癌细胞系,按其谱系分组。只显示任何样本>1.5TPM的谱线,以及任何H2A.B模拟的非零表达的样本。
在TCGA数据集中,弥漫性大B细胞淋巴瘤(DLBCLs)的异常H2A.B表达频率最高,为50%(图一)。 2A )。DLBCL基因组分析鉴定出五种不同的分子亚型 24 ,包括一个与组蛋白突变相关的良好预后-生发中心(FP-GC)亚型。我们研究了H2A.B的表达是否仅限于FP-GC亚型。我们询问了37个dlbcl样本中与fp-gc亚型相关的突变,包括linker h1和核心组蛋白、免疫回避基因、pi3k、nf-κb和jak/stat/ras通路成分。 24 。25个样本至少有一个基因突变,包括15个不同的组蛋白突变样本(补充数据)。 3 )。H2A.B在13份fp-gc突变样本中表达,在10份fp-gc样本中有6份没有组蛋白突变(补充数据)。 3 )。为了与另一种DLBCL亚型进行对比,我们分析了H2A.B在预后较差的生发中心亚型中的表达,该亚型与染色质修饰物的突变相关。 EZH 2,CREBBP,EP 300,KMT2D, 和 BCL11A 24 。虽然我们没有发现 EZH 2 突变,15个样本至少有一个染色质修饰基因突变。其中9个样品也有H2A.B上调。这些分析表明H2A.B在多个生发中心DLBCL亚型中表达。
H2A.B异常表达的TCGA数据还包括子宫体子宫内膜癌(UCEC)(9.5%)、尿路上皮性膀胱癌(BLCA)(4.7%)、宫颈鳞状细胞癌(4.5%)和子宫颈癌(4.5%)。 2A )。这些癌症在tcga数据集中的核心组蛋白突变频率最高,从5%到8%不等。 2 。我们发现了一些同时存在H2A突变和H2A.B表达的标本(补充数据) 4 )然而,共享这两种特征的样本数量较少,妨碍了有意义的相关分析。
H2A.B在HL中的上调作用 23 和DLBCLs(图1. 2A )促使我们分析来自其他淋巴系来源的低突变癌症的数据集,以检测H2A.B的异常表达。我们询问了四个独立的B-急性淋巴细胞白血病(B-All)数据集,在>1.5TPM时发现6-7%的H2A.B编码转录本(图1)。 2B )在三组数据中 25 ,26 ,27 ,占第四(附图)的13%。 2C )28 ...由于H2A.B表达的液态和固态肿瘤的多样性,我们检索了癌细胞株百科全书(CCLE)数据库。29 H2A.B表达>1.5TPM的细胞系。与高频H2A.B在TCGA DLBCL中的表达相一致,淋巴瘤中H2A.B阳性细胞的比例最高(如图所示)。 2C 70%的HL和25%的非霍奇金淋巴瘤细胞株表达H2A.B。其他肿瘤中H2A.B的表达谱在CCLE和TCGA数据集之间也是相似的(图一)。 2C )。我们的结论是,H2A.B在广泛的癌症中异常表达。
我们研究了H2A.B诱发癌症的潜在原因。虽然对H2A.B编码位点在睾丸中的转录调控知之甚少,但X染色体倍性的变化与癌细胞适应度的提高有关。 30 。我们研究了H2A.B在癌症中的表达是否是由于在这些样本中的一个额外的X染色体的大区域、扩增或增益的整体去表达所致。我们比较了H2A.B表达和沉默样本中X-和常染色体连接转录本的水平,发现没有显着性差异(补充图)。 2A )。我们还研究了个体的表达特征。H2AFB 位点及其周围区域,发现上调仅限于每个个体H2A.B-编码位点,而不上调相邻位点(附图)。2B )。这些结果与我们在TCGA数据集中的发现一致,其中232个H2A.B阳性样本的H2A.B表达中位数为~3 TPM(补充数据)。 2 ),相当于所有表达基因的第49百分位数。这种表达水平更有可能是个体局部的、特定的激活的结果。H2AFB 比重复扩增或更广泛的X染色体功能障碍。
H2a.bs与癌症特异性相关,而不是泛癌基因表达程序。 H2A.B蛋白 H2AFB 1 和 H2AFB 2/3 顺序几乎相同。然而,独立的恢复 H2AFB 1 和 H2AFB 2/3 在不同的癌症标本中,这些密切相关的基因目录可能与不同的全球基因表达程序有关。为了探索这一点,我们比较了 H2AFB 1- 重新激活的样本与来自 H2AFB 2/3 -同一癌症类型的重新激活样本。我们发现成千上万的基因在UCEC、hNSC、LUSC和BLCA中普遍上调或下调。 3A ),表明不同的H2A.B蛋白在相似的基因表达环境中起作用。
图3:H2A.B-再活化癌的基因表达分析。 a 基因表达差异的散点图(以折叠变化表示),比较 H2AFB 1 -阴性肿瘤阳性( x ),以及 H2AFB 2/3 -阴性肿瘤阳性( y (斧头)红色和蓝色边框显示的基因通常上调--或下调--超过1.19倍。并给出了Pearson相关系数。 b 比较H2A.Z水平的箱形图 H2AFZ ),H3.3( H3F3A ),H2A.X( H2AFX )和NAP 1( NAP1L1 )H2A.B-阳性(绿色)与阴性(橙色)癌的转录本来自TCGA和B-所有数据集。星号显示了双边Mann-Whitney在tpm上的差异的统计意义。 U 测试一下。* p < 0.05; **p < 0.01; ******p < 0.000001; *******p < 0.0000001. Number of cancer samples in each group are listed in Supplementary Table 2 。方格表示第一四分位数、中位数和第三四分位数,而晶须从方格端延伸到不大于/小于四分位数范围1.5倍的数值。所有数据点都是另外绘制的。 c 方略 b 比较TCGA和B-全癌中H2A.B阳性癌(绿色癌)和阴性癌(橙色癌)的CTAs评分。对于每个肿瘤,CTAs的表达被概括为CTA评分:前40位表达最多的CTAs(在每种癌症类型内)的和Z-归一化log表达。星号显示单面Mann-Whitney的CTA分数差异的统计意义。 U 测试一下。* p < 0.05; **p < 0.01. Outlier points beyond the whiskers are additionally plotted.
我们研究了其他基因的表达是否与H2A.B的表达相一致。我们发现146个基因被上调,90个基因在H2A.B阳性的癌症中被下调(补充数据) 5 )。我们没有发现其他睾丸特异性组蛋白变异体,如H2A.1(TH2A)或H2B.1(TH2B)的共同上调作用。 20 (补充数据) 5 )在H2A.B-表达的癌症中。H2A.Z、H2A.X和H3.3三种组蛋白变异体在H2A.B阳性和阴性癌之间也没有一致的差异,但UCEC中H2A.Z和H2A.X值较低(图1)。 3B )。我们注意到,中位H2A.X水平与H2A.B的最大值相似(图1)。 3B ,补充数据 1 )。我们还检测了组蛋白伴侣NAP 1( NAP1L1 ),可以组装含H2A.B的核小体。 15 ,21 。我们在所有TCGA癌中检测到NAP 1编码的转录本,其中DLBCL的表达水平最高(如图所示)。 3B ,补充表 2 )。这种相关性的染色质后果,即NAP 1水平升高是否导致H2A.B在染色质中的掺入是未知的。
我们注意到,在常见的上调基因中,12/146是肿瘤-睾丸抗原。如 H2AFB 1 与hl中cta的子集共同表达。 23 ,我们确定了H2A.B活化的癌症是否与CTA的上调有关.我们总结了单个CTAs在每个肿瘤中的综合“CTA评分”的表达情况,并比较了H2A.B-再激活和沉默样本的评分(图一)。3C )。虽然H2A.B-表达的HNSCs、LUSCs和UCECs有统计学意义,但DLBCLs和SARCs没有表达。 3C )。我们还检查了四个B-所有数据集,发现H2A.B的表达与CTA上调有关(见图)。 3C )。然而,个别的CTAs,例如NY-ESO-1(CTAG1B )和 CT45A5 在癌症中的不同表达(补充数据) 5 ),与这类基因公认的转录异质性一致。 31 ,32 。这些数据表明,H2A.B的表达与CTA在几种肿瘤类型中的表达有关。
CTAs受内源性免疫监测机制的影响 23 已知tcga肿瘤样本中含有不同数量的免疫浸润。 33 。我们研究了H2A.B的表达是否与免疫浸润有关,因为这可能混淆我们的转录组分析。我们发现B细胞、T细胞亚群、NK细胞、单核细胞和活化巨噬细胞的转录水平在H2A.B表达的肿瘤中没有一致的富集(补充图)。 3 )。事实上,UCEC在 PRF 1 表达以及多个巨噬细胞和中性粒细胞标记物。预测有几种sH2A衍生肽能结合人类白细胞抗原(HLA)分子。 34 ,35 (补充数据) 6 ),提示免疫抑制微环境可能与UCEC中H2A.B的持续表达有关。在H2A.B阳性的TCGA标本中缺乏过量的免疫浸润和H2A.B阳性的癌细胞株的鉴定(如图所示)。 2C )支持H2A.B在癌细胞中的上调,尽管不能排除患者标本中周围基质的贡献。
H2A.B-表达的癌症有不同的剪接模式 H2A.B与RNA直接结合,与剪接因子相互作用,H2A.B的表达影响剪接模式。 17 ,18 ,19 ,20 ,22 。为了确定H2A.B的表达是否与剪接失调有关,我们从TCGA数据集中注释并量化了H2A.B-激活和沉默的肿瘤的转录过程中的所有构成性和选择性剪接事件。我们发现了数千例癌症之间的剪接事件(图一)。 4A,b )。我们发现H2A.B的表达与替代“盒外显子”(Se)和近端替代3‘聚腺苷化(APA)位点(补充图)的利用率降低有关。 4A,b )。这些特征在BLCA、SARC和UCEC中尤为突出。 4A ,补充图。 4A )。虽然变化是个别不大的(补充图)。4C-f ,补充数据 7 ),它们是广泛存在的,也就是说,我们在数千个不同癌症类型的部位观察到了显著的变化(如图所示)。 4A,b )。这些模式不是H2A.B副命令特有的,因为在表达这两种特征的标本中都观察到了类似的模式。 H2AFB 1 或 H2AFB 2/3 (补充图。 4A,b ).
图4:H2A.B-再活化癌症的剪接分析。 a 条形图显示H2A.B阳性肿瘤与阴性肿瘤时上调和下调剪接事件的百分比(构成性和可选性),其中至少有10种肿瘤表达任何H2A.B副反应。 b 比较H2A.B阳性个体事件的不同癌症的可选盒外显子包含的散点图(y 轴向阴性肿瘤( x (斧头)AXIS单位是包含选择性盒式外显子(PSI)的转录本的一部分。红色和蓝色点表示H2A.B阳性肿瘤中显著上调或下调的事件,其阈值为 p < 0.05 (one-sided Mann–Whitney test) and the difference in Psi >0.1. The number of significantly up- and downregulated events are tallied in the bottom of each panel. c 如 a 但是对于B-所有的数据集。
我们还探索了四个B-所有数据集的拼接。与骨髓增生异常综合征和急性髓细胞白血病不同 36 B-all与剪接因子的突变无关,全球剪接调控失调也不被认为是这些白血病的主要驱动因素。当我们比较每个数据集中的H2A.B重新激活和沉默样本中的剪接模式时,我们观察到异常剪接的规模类似于H2A.B阳性的TCGA癌症,并减少了替代外显子和APA的使用。然而,最显著的特点是在所有四个数据集中保留的内含子“ri”持续减少(如图所示)。 4C )。我们的结论是,H2A.B的表达与剪接功能障碍有关,在许多癌症中有一些共同的特征,而另一些则是以特定上下文的方式发生的。