您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!2008-2021
Wuhan Xinqidi Biotech Co.Ltd
本企业通过iso9001质量体系认证

完整的PAN癌症分析揭示了肿瘤类型和细胞特异性染色质结构域的表观基因组变异

 二维码
发表时间:2021-03-08 11:59作者:武汉新启迪Xinqidibio

摘要

表观遗传机制有助于肿瘤的发生和发展,表观遗传变异促进了促进肿瘤进化和适应的动态基因表达模式。虽然NCI-60小组代表了一组不同的人类癌细胞株,这些细胞系已经被用于筛选化学化合物,但是这些细胞的完整的表观图谱却一直缺乏。在这里,我们报告了60人癌症表观基因组的综合分析,代表了激活和抑制组蛋白修饰的目录。我们在肿瘤抑制子的启动子区域,H3K27ac标记的常规增强子和超级增强子区域,以及在H3K9me3和H4K20me3标记的异染色质结构域中广泛存在的癌间和癌内特异性变异,确定了典型的尖锐和宽的H3K4me3结构域的全基因组图谱。此外,我们还确定了染色质状态的特征,包括染色体上染色质状态的转换,组蛋白修饰密度与基因突变的相关性,DNA甲基化,调控区DNA结合单元的富集,以及基因的活性和无活性。这些发现强调了整合表观基因组图谱与基因表达和遗传变异数据的重要性,以了解人类癌症的分子基础。我们的发现为人类癌细胞表观基因组图谱的挖掘和表观遗传学治疗靶点的识别提供了一种资源。

导言

表观遗传失调有助于肿瘤的发生和发展,表观遗传变异促进动态基因表达模式,从而促进肿瘤的进化和对治疗的适应。1,2,3,4。了解癌症类型和细胞类型特异性表观基因组可能有助于发展新的癌症诊断方法和个性化的表观遗传学治疗,目标是患者特定的表观遗传学和转录网络。国家癌症研究所-60(nci-60)人泛癌细胞系小组代表了一组不同的人类癌细胞株,最初是为了进行药理学筛选而开发的。5。该小组由代表9种来源细胞和组织类型的人癌细胞株组成,包括血液、乳腺、结肠、中枢神经系统、肾脏、肺、卵巢、前列腺和皮肤。6。广泛使用的面板代表了用于询问癌细胞的高通量方法的一种资源,并通过rna-seq转录组分析在全球范围内进行了描述。7,整个外显子序列8,9,核型10,副本编号更改(CNA)11,DNA甲基化12,蛋白质组分析13,以及代谢组学方法14。然而,组蛋白修饰的表观基因组图谱尚未全面应用于NCI-60面板所代表的细胞系。

通过整合来自正交研究的数据集,利用各种方法,例如在nci-60面板上应用的下一代测序技术,它们可以相互关联。15。这种累积的模块化分析方法可以通过转录谱来预测人癌细胞的药敏性。16,17。因为癌细胞的染色质结构和共价组蛋白修饰在整个基因组中的分布与正常细胞相比都有改变。18,19,20,通过系统的高通量分析为nci-60面板构建组蛋白修改的全球地图将有助于注释。顺式-调控元素,将癌症基因组划分为常染色质和异染色质结构域,并评估组蛋白修饰与基因活性之间的相关性,或DNA突变或DNA甲基化等正交遗传或表观遗传学特征之间的相关性。

尽管在高通量分析技术方面取得了进展,但目前尚不清楚表观基因景观的改变如何在人类癌症中促进细胞异质性、干细胞性和化学抗药性。为了了解表观遗传模式如何促进肿瘤形成和肿瘤进展的生物学,我们系统地分析了来自NCI-60面板的60个癌细胞的组蛋白修饰。我们将本研究中生成的芯片-seq数据与rna-seq转录组分析等下一代测序分析相结合。7、DNA突变分析8,9全基因组亚硫酸亚铁测序(WGBS)/DNA甲基化12,21分析。汇编的数据代表了人类癌症表观基因组简编,作为更广泛的转移科学界的资源。在这里,我们报告了组蛋白修饰谱(H3K4me3,H3K27ac,H3K9me3和H4K20me3)60人癌细胞代表九种不同类型的癌症在NCI-60面板。组蛋白修饰的基因组位置富集被用于构建染色质状态图谱,对相关基因进行功能注释,以确定其共有的和特定于癌症类型的特征。顺式-监管区域,并利用主题富集分析确定这些州的潜在上游监管机构.我们还构建了以抑制性组蛋白修饰h3k9me3和h4k20me3为标志的异染色质结构域图,因为丢失h4k20me3是癌症的一个特征。22。我们的发现揭示了癌细胞的染色质状态,在基因活性、基因密度、与核层的联系以及DNA甲基化等方面表现出差异。我们还观察到H3K4me3和H3K27ac富集区的基因突变增加,而H3K9me3和H4K20me3标记区域的突变率降低。这些发现为使用组蛋白修饰数据询问人类癌症表观基因组提供了一个框架。

结果

人癌细胞泛癌表观基因组图谱

询问NCI-60小组所代表的9种癌症的全球表观遗传学景观(补充数据)。1)我们进行染色质免疫共沉淀,然后进行下一代测序(芯片-seq)。23,24探讨活化和抑制组蛋白的修饰,包括H3K4me3、H3K27ac、H3K9me3和H4K20me3。H3K4me3主要在高表达基因的启动子和转录起始点(Tss)富集。23,它被认为是rna聚合酶II(Rnapii)结合和目标基因激活的平台。25,26,27。H3K27ac在典型的增强剂中高度富集。28超增强子区29。此外,抑制性组蛋白修饰物h3k9me3和h4k20me3在异染色质区富集,这些区域不受dna结合因子的影响,且大部分转录沉默。30。H4K20me3参与异染色质的形成和基因表达的抑制。31,包括重复的dna元素32,33,34,并参与调节基因组稳定性32。H3K9me3对异染色质的形成也很重要。35,36,并与h4k20me3在异色区共定位。37.

我们的数据集提供了一个跨多种人类癌症类型的组蛋白修饰的全局视角。NCI-60细胞株的综合组蛋白图谱允许对多种类型癌细胞的表观基因组进行多维分析。总体而言,我们观察到最大数量的H3K27ac芯片富集峰(见“方法”一节),其次是H3K4me3、H3K9me3和H4K20me3峰(图1)。1A)。我们使用ChromHMM来学习染色质状态,使用多变量隐马尔可夫模型(HMM)。38。该方法评估组蛋白修饰的组合是否存在以训练染色质状态模型。我们的15状态模型确定了活性和非活性染色质状态与H3K4me3、H3K27ac、H3K9me3和H4K20me3标记的组合。1B)。这些染色质状态由活性基因、二价活性基因、增强子、活性二价增强子、5‘端转录基因和二价/弱转录基因组成。非激活状态包括抑制增强子,非活性转录起始位点(TSS),异染色质,抑制,弱转录,静止/低,和二价/稳定的TSS。弱转录区和静止区占基因组的52%,而抑制区和异染色质区占基因组的14%。活性增强子平均富集在每个参考表观基因组的4.4%,而标记为H3K27ac和抑制性H3K9me3或H4K20me3标记的双价增强子占基因组的11%。我们还计算了CpG岛在15个州的占用率,并观察到CpG岛在染色质态中的富集,这些染色质态通常包括2-5、12和14-15(图1)。1C).

图1:肿瘤类型特异性染色质状态动态。

a人癌细胞NCI-60面板中组蛋白修饰(H3K4me3、H3K27ac、H3K9me3、H4K20me3)富集区数的条形图表示。b用ChromHMM富集组蛋白修饰确定染色质态101。染色质状态下组蛋白修饰的概率被描述为热图(左)。基因和非基因元素的平均基因组覆盖率和注释(中间)。H1 ES细胞活性区和非活性区位置表达的注释(右)(TSS转录起始点,TES转录结束位点)。c跨越CpG岛的富集n60株癌细胞在15种染色质状态下表现为活性团簇2-5、12和14,15相对于被动或非活性团簇1、6-11和13。每个盒状图显示CpG占位。方格表示第一和第三四分位数(25和75百分位数,上和下界),第二四分位数(中心)和极小−最大值(1.5*四分位数范围,胡须)。d分层聚类2 Mb基因组间隔(行)的标准化观察和随机相对染色质状态频率,这是平均的所有癌症表观基因组。右侧为ES细胞的基因密度、细胞发生带和H1 ES细胞层B 1的富集。分层聚类热图:x轴向显示15种染色质态(E1-E15)和y-轴显示染色质状态频率(0-1)。e每个人癌细胞表观基因组的相对染色质状态频率。源数据作为源数据文件提供。

当ChromHMM用200 bp的基因组宾区间定义染色质状态以获得核小体水平的分辨率时,我们进一步询问了60种低分辨率的细胞类型(2 Mb)中染色质态的富集情况,以评估高级染色质的结合(图1)。1D)。我们从这些分析中得到的结果表明,增强子和活性基因在基因组的一小部分中富集,而不活跃的区域则构成了基因组的大部分(图1)。1D)。活性染色质和非活性染色质状态的存在与以前报道染色质结构区的研究是一致的。39,40。这些发现还揭示了这两个区域进一步分层为以H3K27ac和H3K4me3为标志的区域,它们在基因组的三分之一(簇2、3)、不活跃区域(簇1、4、5、7、8)和H3K4me3/H3K20me3双价区(簇6)中富集。这些更广泛的区域可以进一步细分其潜在的染色质状态。活性染色质和非活性染色质状态的存在与以前报道染色质结构区的研究是一致的。39,40.

我们还评估了每个2Mb间隔的基因密度、LaminB 1占用率和细胞遗传学带(图1)。1D)。异染色质区基因贫乏,与核层有关。异染色质和核层在癌症中的调控异常,核层相关区域相对于细胞核核心层间区显示出更高的dna突变频率。41。此外,有缺陷的核膜和异染色质与癌症的非整倍体和基因组不稳定性有关。42。异染色质缺陷与肿瘤发生有关。43对浓缩染色质的去抑制会导致结构缺陷,如易位和缺失。我们的发现揭示了LaminB 1的动态模式化和跨越15个染色质状态的细胞遗传学条带,这与异染色质标记H3K9me3和H4K20me3在多个癌细胞中的模式变化是一致的。1B)。此外,我们评估了60个表观基因组中每个染色质状态的覆盖范围(图1)。1E,补充图。1),以及每种癌症类型(附图)。2)。这些结果揭示了代表9种癌症类型的60种癌细胞株中15种染色质状态的基因组覆盖模式,并进一步揭示了肿瘤内和癌间基因组覆盖的异质性(补充图)。1)。黑色素瘤和肾癌有无TSS表达区富集,白血病细胞富集H3K4me3/H4K20me3双价区,基因5‘端转录。乳腺癌、中枢神经系统、结肠癌、肺癌和白血病癌的活性基因比黑色素瘤、卵巢癌、前列腺癌或肾癌更丰富。以H3K27ac/H3K4me3/H3K9me3标记的活性二价增强子富集肺癌和白血病。乳腺癌细胞富集增强剂,二价增强子标记为H3K27ac/H3K9me3和异染色质区。卵巢癌有抑制染色质区的富集。黑色素瘤细胞经双价标记H3K9me3/H3K4me3和弱转录区富集。无H3K4me3、H3K27ac、H3K9me3或H4K20me3(补充图3)的乳腺癌和卵巢癌细胞具有弱转录区。12)。总之,这些发现揭示了在60个癌细胞株之间染色质状态组合模式的变化,包括60个癌细胞的整体活性和非活性染色质景观,以及进一步细分为增强子、静止、二价、弱转录区等。这些结果可能有助于理解肿瘤特异性和细胞类型特异性对表观遗传药物的敏感性,在这种情况下,具有异常抑制或异染染色质景观的癌细胞无法激活肿瘤抑制基因,或过度允许染色质景观,可能能够取样各种不同的程序,其中一些程序可能允许癌细胞适应各种环境或逃避抗增殖疗法。

接下来,我们利用h1-es细胞和K-562细胞产生的数据,调查了转录因子结合位点(Tfbs)在15种染色质状态下的富集情况。44。TFBS的覆盖主要集中在几个染色质状态,包括3(5‘转录)、4(活性基因)、5(活性二价)、12(二价/弱转录)和14(仅H3K4me3),其次是2(二价活性;附图)。3A)。TSS位点周围的TFBS富集主要表现为染色质态3和5(5‘,活性双价促进剂),而转录终点(TES)周围的TFBS富集多个态:染色质态3和5的TFBS富集量最高,其次是2、12和14(补充图1)。3B)。我们还评估了15种染色质态重复DNA元素的富集情况。长间隔元素(行)和长末端重复(LTR)元素在染色质状态1、6、8-9、11-12中富集,而状态2-5、13-15则显示富集量减少(补充图1)。3C)。重复的家庭成员,如ERVK,在1,6,9,11-12状态中被富集(补充图1)。三维空间低复杂度重复序列在状态1和14中富集,RC/Helitron转座子(TE)在状态1-2和6中富集。RNA重复序列在状态2、5和12中富集,而正弦重复序列在状态1、6-8中富集。此外,卫星重复序列主要在10、12和15状态中富集。此外,对重复亚家族成员的调查还揭示了15种染色质状态中重复元素的动态组织(附图)。3E)。UCSC浏览器查看代表9个癌症类型的60个细胞系的ChromHMM基因组注释,发现在一个具有代表性的位点上染色质状态的富集(补充图)。3F).

为了研究肿瘤基因在15种染色质状态下的富集情况,我们评估了抑癌基因、癌基因和家政基因的密度。45,46在60个癌细胞株中,跨越癌症类型。这些发现揭示了多种染色质状态(2-4,12和14)中抑癌基因和癌基因的异源富集(补充图)。4A),60例癌细胞染色质状态(2-5,14)肿瘤抑制因子和癌基因的富集(补充图1)。4B)。与抑癌基因和癌基因相关的染色质状态由H3K4me3结构域富集。1B).

为了研究60种癌细胞和9种癌症类型中15种染色质态突变的富集情况,我们使用公开的外显子测序数据计算了突变密度。47。对突变密度和亚型的评估显示,结肠癌和白血病细胞表现出最大的突变负担(补充图5)。5A-C6)。在不同的染色质状态下,在不同的肿瘤类型之间观察到突变的可变富集,其中染色质态15在结肠癌细胞中表现出最高的突变密度(补充图5)。5A6)。这些发现将染色质状态域和组蛋白修饰谱与癌症类型特异性突变谱联系起来,从而提供了对表观遗传学和突变谱与肿瘤发生之间关系的深入了解。

为了了解染色质状态在癌症表观基因组中的组织结构,我们调查了所有60个细胞的染色质状态转换频率,以及同一类型癌症样本之间的染色质状态转换频率(癌内转换;图1)。2A,以及来自不同类型癌症的样本之间(癌间转换;图1)。2A,右)。这些发现揭示了在活性和非活性染色质状态之间切换的富集。我们还观察到染色质状态在活性增强子和双价标记增强子周围切换的富集,这可能表明肿瘤基因组中增强子的模式选择。此外,我们还观察到,不同癌症类型的样品之间以及不同类型的癌症样本之间存在着更大的状态转换,包括增强子、双价标记增强子和抑制增强子(例如5-9状态)。2A,右)。这些发现反映了增强子区域相对于TSS或基因体/转录区的动态调节。此外,相对于同类样品(癌内),更高频率的2:7(双价活性增强子:增强子)和5:7(活性二价增强子:增强子)的状态转变在癌间更丰富。

图2:人癌细胞染色质状态转换和DNA甲基化。

a相对于癌间类型转换(右),60个人癌症表观基因组(左)中15个染色质状态的癌内型转换概率。状态转变(x-轴至y-轴)。b在15个染色质状态下,60个表观基因组的保守性得分。c全基因组亚硫酸亚铁测序(WGBS)获得的dna甲基化水平9。甲基化CpG二核苷酸的百分比显示为15状态模型(红色,高CpG甲基化)。来自9种癌症(60株细胞)的细胞显示在y-轴和15个染色质态显示在x-轴心。源数据作为源数据文件提供。

对9种癌症类型染色质转换的进一步分析揭示了几种状态之间可变的开关概率(补充图)。7)。值得注意的是,与中枢神经系统、肺、黑色素瘤、前列腺和肾脏相比,乳腺癌、结肠癌、白血病和卵巢癌的4:14(活性基因:静止)状态转换频率较低。我们还观察到了13:11(弱转录:抑制)、1:10(无TSS表达:异染色质)和8:1(二价增强子:无TSS表达)在肿瘤类型间切换的变异性。这些发现强调了染色质状态分配在人类癌症表观基因组中的动态调控,包括从活跃的染色质状态到抑制的染色质状态的转变。染色质状态转变的改变可能导致异常的基因激活或沉默,或基因组不稳定,这是由于活跃或抑制的染色质结构域的扩展所致。

接下来,一项与染色质状态转变相关的突变富集的研究揭示了癌症类型的特异性变异(补充图)。8)。我们观察到抑制染色质态10:11(异染色质:抑制)和11:10(抑制:弱转录)和13:11,14:13(仅H3K4me3:弱转录)和13:14在多种类型的癌细胞中共富集突变和状态切换事件,以及在肺和卵巢癌细胞(补充因子)中切换事件9:10(抑制增强子:异染色质)。78)。我们还观察到在CNS、结肠、白血病、黑色素瘤、卵巢癌细胞、3:4状态(转录5‘:Active)和4:3在肺、黑色素瘤、卵巢和肾癌细胞中共富集4:14(活动状态:H3K4me3)和14:4(只有微弱转录:H3K4me3)和14:13(仅转录:H3K4me3)和14:13在CNS和肺癌细胞中共富集突变和染色质转换。在含有转录增强子4:7(活性:增强子)和7:4的染色质状态下,在肺、白血病、黑色素瘤、卵巢、前列腺和肾癌细胞中共富集突变和切换事件,在乳腺癌、中枢神经系统(CNS)、肺、白血病、卵巢和前列腺癌中观察到1:8(不含TSS Exr:二价增强子)。此外,在结肠癌细胞中含有双价标记染色质3:2(转录的5‘:二价活性)的染色质状态(转录的5’:二价活性)、结肠癌、白血病、黑色素瘤和肾癌的3:15状态(转录的5‘:活性二价增强子)、CNS、结肠癌和肺癌的12:11(二价/弱:抑制)、乳腺癌、结肠癌、白血病和卵巢癌中的3:15(转录的5’:活性二价增强子)、12:11(二价/弱/抑制)、15:10(双价TSS:异染色质)、2:1(二价活性:无TSS外)、和状态3:8(转录5‘:二价增强子)在结肠癌和前列腺癌(补充图)。8)。此外,我们评估了突变亚型相对于染色质状态在所有癌细胞株上的富集情况(补充图)。910)。这些结果将染色质状态转变和组蛋白修饰谱与肿瘤类型和细胞类型特异性突变谱联系起来,从而了解突变谱与抑制染色质、活性染色质、增强子和双价标记染色质区的组织结构之间的关系。

我们的模型还显示了一些染色质状态4和14的进化守恒,其中包括由H3K4me3标记的活性基因和基因(图3)。2B)。然而,没有组蛋白修饰的弱转录区域(状态13)显示保守性降低(图1)。2B)。我们还观察到MDA-MB-231(E1-3,E8-10,E15)和SK-OV-3细胞(E2,E3,E5)在几种染色质状态下的保守性增强。2B)。这些发现可能反映了H4K20me3基因调控失调的模式,包括异染色质区和整个基因组中这些标记的缺失,但在基因组区域保留了H4K20me3标记的子集,例如具有较高保守分数的启动子和外显子。

细胞间保守性的差异可能与活化和抑制性组蛋白修饰模式组合富集的差异有关,与其他肿瘤细胞相比,H4K20me3和H3K9me3峰数较低的细胞系的染色质状态可能存在较高的保守性(图1)。1A)。作为激活组蛋白修饰,如h3k4me3和h3k27ac与保守的基因组序列相关,而抑制组蛋白修饰h3k9me3和h4k20me3则与非保守序列相关。48,H3K9me3或H4K20me3标记的缺失可能导致构成染色质态的区域内组合模式的保守性改变。

DNA甲基化信息的整合9在我们的15态模型中,CpG岛富集的染色质态表现出较低的DNA甲基化。我们的发现揭示了3-4,14状态的低DNA甲基化(转录在5‘,活性基因,和H3K4me3只有;图1)。2C)。我们还发现,一些白血病和黑色素瘤细胞株在其他几个染色质状态(状态6,9-13,15)中表现出DNA甲基化降低。较低的DNA甲基化水平可能意味着染色质区域的去抑制。DNA甲基转移酶在HL-60和molt-4等低甲基化细胞系中的遗传变异可能是导致DNA甲基转移酶调控失调的原因之一。MOLT-4在DNA甲基转移酶DNMT 1(c.2189G>A;c.4031T>C)、DNMT3A(c.1529delG;c.2096delG)、Dnmt3b(c.970C>T;c.934C>T)和DNMT3L(C.721G>A;C.184C>T)中存在致病错义(替换)突变。47(补充数据)2)。此外,HL-60在Dnmt3b(c.1586 G>A;c.1610 G>A)中存在错义(替换)突变。有害突变的组合可能导致HL-60和Molt-4细胞的DNA低甲基化。

在癌细胞株中,维持和新的DNA甲基转移酶的错误表达也可能是导致DNA甲基化改变的原因之一。相对于72%的NCI-60细胞株,LOX IMVI黑色素瘤细胞中维持性dna甲基转移酶DNMT 1的表达较低,而dnmt3A在LOX imvi细胞中的表达较高,占nci-60细胞株的80%。7(补充数据)2)。维持性DNA甲基转移酶和脱氧核糖核酸甲基转移酶的可变表达可能导致肿瘤细胞DNA甲基化的异常表达,其中denovo DNA甲基转移酶的高表达可能导致新的基因组位点发生异常甲基化,而维持性DNA甲基转移酶的表达减少则可能导致甲基化程度降低。DNA甲基转移酶的低甲基化可能会导致基因组的不稳定和潜在重复dna序列的去抑制,并允许癌症基因组取样转录程序,其中有些可能使癌细胞适应并逃避抗增殖治疗。此外,我们还观察到了一些二价态(2,5-6,12)的60个表观基因组的DNA甲基化变异。这些发现揭示了组蛋白修饰、DNA甲基化和RNA转录之间的关系。

H3K4me3模式识别癌症表观基因组

为了进一步评估H3K4me3在多种类型癌细胞中的分布,我们比较了60株H3K4me3细胞的密度。主成分分析(PCA)显示,结肠、中枢神经系统、白血病、前列腺癌和肾癌细胞聚集相对接近,肺和黑色素瘤细胞在2D空间中分布较多,乳腺和卵巢细胞分布较分散(图一)。3A)。使用干预的H3Kme3芯片富集峰的两两交叉点(见“方法”部分)49显示了H3K4me3在60种细胞系中的占用率之间的相关性(见图)。3B)。这些发现显示,在肾、肺、卵巢和中枢神经系统细胞中,H3K4me3标记的模式比较相似,而且H3K4me3在黑色素瘤、卵巢、乳腺、肺、肾和前列腺细胞中所占比例甚至更大。这一分析还揭示了H3K4me3在9种肿瘤细胞中的占用率有显着性差异。H3K4me3入住率的荷马注释50显示活跃的基因组特征丰富,如启动子和内含子区域,其次是基因间区域(图1)。3C)。利用nCBI david对基因本体(GO)功能注释术语(生物过程)进行了评价,并通过基因本体语义分析和GoSemSim软件对其进行了进一步的评价。51。虽然我们观察到在9个癌症类型的60个细胞系中,所有H3K4me3所占区域的GO术语都有很高的相关性,但对癌症类型特异性H3K4me3峰的注释显示出GO术语在某些癌症类型的子集中共同富集(图1)。三维空间,上图,附图。11;补充数据3大卫被用来计算p-价值观)。例如,乳腺癌和黑色素瘤特异性H3K4me3峰表现出相似的GO期富集。此外,特定GO条件的富集(如发育)在癌症类型特异性H3K4me3峰中相对于所有峰的富集程度更高(如图所示)。三维空间、底部)。发育程序的失调可能意味着分化受阻或向更原始的细胞状态重新编程。52,53。由于染色质在发育过程中部分起到稳定细胞命运的作用,染色质网络的失调导致肿瘤的发生。60株细胞系的H3K4me3的自定义视图显示,在一个具有代表性的基因位点上有可供选择的模式,包括在乳腺、肺、白血病和肾癌细胞的启动子区域和基因体区域的广泛区域富集(图1)。3E).

图3:60株人癌细胞株H3K4me3的动态和突变分析。

aH3K4me3密度水平的主成分分析(PCA)(标记密度)在60个细胞系中。9种肿瘤类型为BR乳腺、CNS中枢神经系统、CO结肠、LC肺癌、LE白血病、ME黑色素瘤、OV卵巢、PR、RE肾。bSICER成对交点100-定义(FDR<0.0001)H3K4me3富集区。利用干涉法生成H3K4me3区成对交点的热图49. c60株癌细胞H3K4me3区基因组的荷马注释50. d用david丰富的基因本体论(GO)功能注释术语对基因tss附近的h3k4me3峰进行注释。102基于GoSemSim语义相似性分析的聚类分析51。NCBI David被用来计算p-价值观。语义相似矩阵(TOP)和气泡图的热图显示了9种癌症类型中最高级生物过程GO术语的富集,并针对每一种癌症类型(u唯一,底部)。eUCSC浏览器视图的H3K4me3分布在代表基因跨越60个癌细胞。f宇宙4760株癌细胞H3K4me3区突变分析H3K4me3区宇宙突变的分层聚类热图密度g堆叠条形图显示60个细胞系的突变数和突变类型。h突变密度(突变/bp)在H3K4me3标记区域相对大小和频率相似的随机区域和没有H3K4me3的区域。p-价值是用一个双边费舍尔的精确测试来确定的。iDNA甲基化水平在有或没有H3K4me3区的抑癌基因(上)和癌基因(下)。源数据作为源数据文件提供。

接下来,我们研究NCI-60面板中的编码变异或突变是否在H3K4me3标记的区域中富集。为此,我们利用公开的整个外显子测序数据,计算了60个细胞系中h3k4me3区域基因组变异体的富集情况。47。然后,我们对与H3K4me3区域共定位的突变进行聚类,并观察到癌细胞子集中突变的富集情况(见图)。3F)。对突变多样性和突变数量的评价表明,HCC 2998、HCT 15和MOLT4的肿瘤突变负担最大,而KM 12、DU-145、HCT-116、IGROV 1、M14和CCRF-CEM也表现出较高的突变量(图1)。第三代)。错义替换突变在60个癌细胞株中最为普遍。在癌细胞中也观察到了有害的帧内缺失突变.接下来,我们研究了突变是在H3K4me3被占领的地区还是在没有H3K4me3的区域中富集的。我们的分析表明,H3K4me3标记区域相对于大小和频率相近的随机基因组区和没有H3K4me3的区域具有更高的突变密度(图3)。3H)。这些结果突出了以转录活性为主的含H3K4me3标记的染色质区与不含H3K4me3的染色质区之间的突变密度的差异,后者一般表现为低转录活性。

而DNA甲基化与CpG岛和启动子区H3K4me3的富集之间存在着很强的负相关。54,h3k4me3在启动子区因dna过甲基化而丢失,或h3k4me3在恶性转化过程中因低甲基化而增加。55目前尚不清楚H3K4me3的动态调控是如何发生在没有CpG岛的启动子区域,或者在基因间H3K4me3区域发生在一系列不同的癌细胞株上。因此,我们研究了9种癌症的DNA甲基化水平与H3K4me3在抑癌基因和癌基因上的发生之间是否存在相关性。使用不同类型癌症附加注释的抑癌因子和癌基因的管理数据库47,总的来说,我们发现含有H3K4me3的区域表现出较低的DNA甲基化水平(如图所示)。3I)相对于没有H3K4me3的区域。此外,我们观察到在几种类型的癌细胞中,高甲基化和不含H3K4me3的区域以及DNA甲基化程度较低但H3K4me3占用率较低的区域的数量存在差异。结肠癌、肺癌、白血病和肾癌的DNA甲基化程度较高,抑癌基因不含H3K4me3,乳腺癌、中枢神经系统、黑色素瘤、卵巢癌和前列腺癌的计数不对称(图一)。3I)。然而,在癌基因上,CNS和结肠癌细胞的DNA甲基化程度较高,没有H3K4me3,而乳腺、肺、白血病、黑色素瘤、卵巢、前列腺和肾癌细胞数量不对称。这些发现突出了H3K4me3活性组蛋白修饰标记与多种肿瘤细胞中抑癌基因和癌基因的抑制性DNA甲基化之间的关系,提示肿瘤抑制因子和癌基因甲基化的动态调控可能导致不同类型癌症的染色质特征不同,其中抑癌基因的异常甲基化或癌基因的低甲基化可能促进肿瘤的增强和发展。我们对DNA甲基化和H3K4me3图谱的综合分析为进一步了解H3K4me3的不同使用和在恶性肿瘤细胞中的肿瘤特异性基因的DNA甲基化模式提供了更多的见解。

广泛的H3K4me3结构域与癌细胞抑癌基因相关

广泛的H3K4me3结构域标记与细胞同一性相关的基因56位于正常细胞中的抑癌基因。57。此外,肿瘤抑制基因(TSG)的宽结构域长度的改变与转录失调有关,而宽结构域的缩短与转录抑制有关。为了研究H3K4me3在多种癌症中的宽度序列,并比较广泛的H3K4me3在TSGS中的富集情况,我们对NCI 60癌细胞H3K4me3启动子区的高度和宽度进行了系统分析。我们观察到不同类型癌细胞的宽H3K4me3峰数(>4kb)和总H3K4me3峰百分比(图1)。4A)。用干预软件进行的两两交叉分析显示,广泛的H3K4me3结构域在癌症类型之间是共享的(补充图)。12A,b)。用David和GoSemSim对与宽的H3K4me3峰相关的基因进行GO注释,揭示了多个GO术语的可变富集,包括癌症类型特异性的发育和形态发生(图一)。4B;补充数据3大卫被用来计算p-价值观)。GoSemSim分析显示,在九种类型的癌症中,在所有广泛的H3K4me3占据区域富集的david go术语之间有很高的相关性,而对癌症类型特定的宽h3k4me3峰的注释显示出在癌症类型的子集中共同富集GO术语(补充图1)。12C).

图4:启动子相关的广泛的H3K4me3结构域与抑癌基因相关。

a宽(>4kb)H3K4me3峰数跨越60个癌细胞,代表9种癌症类型。圆的大小表示宽的H3K4me3峰的数目,而颜色表示H3K4me3峰的百分比。bDavidGo功能注释分析与启动子H3K4me3峰相关的基因。气泡图显示了9种癌症类型中最高级生物过程GO术语的富集,并且具体针对每一种癌症类型(u:唯一,底部)。NCBI David被用来计算p-价值观。cH3K4me3高度散点图y-轴)和宽度(x-轴)。蓝色和红色点分别代表尖峰和宽峰。d富集示意图p-价值(y肿瘤抑制因子(TSG)、癌基因(OG)和与H3K4me3启动子相关的基因的轴向。左:顶部n用500个抑癌基因、癌基因和500个随机基因进行分析。右:全部(n使用TSG、OG和管家基因。p-价值(y-轴)采用双边Fisher‘s精确测试法测定。方格表示第一和第三四分位数(25和75百分位数,上和下界),第二四分位数(中心)和极小−最大值(1.5*四分位数范围,胡须)。p-价值(x-轴)用双侧Kolmogorov-Smirnov试验测定.e气泡图表示富集p-TSG、OG和内务基因对60株癌细胞株与宽的H3K4me3相关基因的值。p-以气泡大小和颜色表示的值(−log 10)。P值用双边Fisher精确检验确定.H3K4me3散点图(f)宽度(y-轴)或(g)高度(x-轴)和基因表达(x-AXIS)作为一种具有代表性的癌细胞株。红点和蓝点分别表示宽峰和尖峰。h盒图显示与top相关的基因的表达水平n=500宽或尖锐的H3K4me3峰在典型的癌细胞株中。P < 1 × 10−20(KS-测试)方格表示第一和第三四分位数(25和75百分位数,上和下界),第二四分位数(中心)和极小−最大值(1.5*四分位数范围,胡须)。p-数值是用双侧Kolmogorov-Smirnov检验确定的.iUCSC浏览器视图广泛的H3K4me3分布在一个代表位点的60个癌细胞(评分:0-0.15标准)。标签密度)源数据作为源数据文件提供。

我们通过对GO项进行层次聚类,进一步研究了癌症类型特异性GO术语的富集问题。p-与所有宽的H3K4me3峰相关的基因值(−log 10)(补充图1)。13A与癌症类型特异性宽的H3K4me3峰相关的基因(补充图1)。13B,补充数据3大卫被用来计算p-价值观)。这些分析揭示了乳腺癌细胞(如细胞迁移、膜去极化调节、趋化性、乳腺发育、神经元发育和神经元分化)、中枢神经系统细胞(如神经发生、纹状体和心肌细胞分化、突触组织、轴突和端脑发育、细胞运动和迁移、血管发育和形态发生、胶质分化、前脑和大脑皮质发育)、结肠癌细胞(如细胞生物合成过程、性别分化、性腺发育、蛋白质糖基化、糖蛋白生物合成过程、干细胞增殖、心血管发育)、肺癌细胞(如管状形态发生、中枢神经系统发育)、结肠癌细胞(如细胞生物合成过程、性别分化、性腺发育、蛋白质糖基化、糖蛋白生物合成过程、干细胞增殖、心血管发育)、肺癌细胞(如管状形态发生、中枢神经系统发育)等细胞GO术语的丰富。神经元投射发育、配子体型细胞迁移、上皮细胞迁移的调节、对酸性化学物质的反应、流体剪应力的反应)、白血病细胞(例如造血、免疫系统发育、淋巴细胞活化、T细胞分化、白细胞聚集、淋巴细胞增殖、防御反应)、黑色素瘤细胞(例如肌动蛋白细胞骨架组织、建立囊泡定位发育色素、神经元识别)、卵巢癌细胞(如初生生殖层形成、中胚层形成、O-糖加工、RNA生物合成过程的调节)、前列腺癌细胞(对id激素的反应、激素介导的信号传导途径、细胞对类固醇激素刺激的反应)、和肾癌细胞(如血管生成、对损伤的反应、细胞通讯的调节、纤毛组织)(补充数据)3)。虽然这些发现提供了对肿瘤表型的洞察,例如黑色素瘤细胞表现出丰富的色素沉着现象,或者白血病细胞表现出淋巴细胞增殖途径的富集,但这些结果也突出了在不同类型的癌细胞中激活的不同的细胞途径。

用干涉配对交叉分析方法对正常细胞的公共芯片-Seq数据进行比较,结果表明,H3K4me3型癌的宽型与正常细胞中的宽型H3K4me3型有很大区别(附图)。14)。除正常血细胞和白血病细胞外,癌细胞与正常细胞之间的变异大于癌内或正常细胞内异质性。由于广泛的H3K4me3型在癌细胞和正常细胞之间有很大的区别,而且在癌细胞中也存在异质性,因此我们的研究结果可能表明在肿瘤发生过程中可能会获得广泛的H3K4me3结构域的肿瘤类型特异性异质性。

我们发现了一个宽的低密度H3K4me3峰的子集和另一个窄的高密度H3K4me3峰的子集(图1)。4C;补充图。15)。为了研究广泛的h3k4me3结构域与癌症的关系,我们利用了肿瘤抑制因子和癌基因前500位,这是由8000对肿瘤正常人的体细胞突变谱定义的。45。家务活基因(500个随机基因)也被用作对照。46。利用与每个癌细胞H3K4me3峰相关的基因,我们评估了前500个抑癌基因、癌基因和500个随机内务基因的富集情况(图一)。4D,左转,无花果。4E,补充图。16A,补充数据4),或所有肿瘤抑制因子、癌基因和内务基因(如图所示)。4D,对,补充图。16b,补充数据4)。我们观察到肿瘤抑制因子相对于癌基因和管家基因在不同癌症类型的细胞系中有更多的富集(图一)。4E,补充图。16b)。我们还使用癌症类型特异性抑癌基因和癌基因进行了分析(补充数据)。4),并类似地观察到不同癌症类型的肿瘤抑制因子相对于癌基因和内务基因的更多富集(补充图)。17A)和大多数癌细胞系(附图)。17B).

与宽的H3K4me3峰(>4kb)相关的基因相对于与尖锐峰(<4kb)相关的基因在较高水平上表达(如图所示)。4F-h,补充图。1820)。当广泛的H3K4me3结构域在抑癌基因上富集时,我们也在癌基因的子集上观察到广泛的H3K4me3结构域,如MYC(无花果)4I)。而广泛的H3K4me3结构域出现在MYC所有NCI-60细胞株的基因H3K4me3水平在NCI-60面板上都是可变的(如图所示)。4I)。我们还观察到了附近H3K27ac的变化水平和分布。MYC广泛的H3K4me3结构域,包括基因间H3K27ac标记增强子的动态癌症类型特异性模式(补充图)。21基因启动子区的H3K4me3水平与H3K27ac水平的相关性较强,与基因间H3K27ac水平的相关性较强。癌基因上广泛的H3K4me3峰可能促进肿瘤的持续表达,从而促进肿瘤的增强或肿瘤的进展。

具有保守的h3k4me3峰的基因代表泛癌抑制因子。57为了探讨H3K4me3结构域长度的改变与基因表达水平的关系,我们对不同类型癌细胞的保守H3K4me3结构域的相对缩短或延长进行了系统的比较。与TSS区相交的H3K4me3峰位于50%以上的癌细胞株(>30细胞)中。用500 bp的减法截断,我们将H3K4me3峰的延长定义为:相对于60个癌细胞株的平均宽度而言,宽度大于500 bp,缩短为宽度小于500 bp的减小。接下来,我们评估了与保守的H3K4me3峰相关的抑癌基因、癌基因和内务基因的表达,它们相对于平均水平延长或缩短。通过这种方法,我们发现保守的H3K4me3结构域的缩短主要与肿瘤抑制因子的低表达有关(补充图1)。22)和癌基因(补充图。23延长与高表达或低表达有关。在合同中,保守的H3K4me3结构域的缩短导致大多数癌细胞的内务基因表达的名义变化(补充图)。24)。这些发现表明,保守的宽H3K4me3的长度变异与多种类型癌细胞的抑癌基因和癌基因的不同表达模式有关。

H3K27ac增强子在癌细胞简编中的谱分析

增强子是一种非编码dna调控元件,通常由多个转录因子(Tfs)结合。58,59,控制细胞类型特异性的基因调控谱,增强子的活性主要是细胞型特异性的。60,61。促癌剂在癌症形成中起着至关重要的作用。62肿瘤细胞相对于正常组织增强其活性。然而,动态转录网络和增强子景观在癌细胞中往往是不受调控的。63,目前尚不清楚癌细胞中是否激活了癌症类型特异性增强剂或通用增强剂。查询动态增强器的活动顺式-调控元件跨面板的人癌细胞,我们分析了H3K27ac芯片-Seq数据在本研究中产生。对交叉分析表明,H3K27ac在多个黑色素瘤细胞株和肾癌细胞中的占用率高,CNS与结肠癌细胞之间有高度的相关性(图一)。5A)。这一分析还显示了H3K27ac在几种癌症类型中的共同占用率,包括肾癌、肺癌和中枢神经系统癌。我们还观察到不同癌症类型(癌间)和同一癌症类型(癌内)细胞之间H3K27ac谱的总体差异,表明不同类型癌症的增强子标记具有广泛的异质性。利用PCA对芯片富集峰的H3K27ac密度进行了评估,证实黑色素瘤、肾脏、结肠和中枢神经系统癌细胞在2D空间相互聚集在一起(图1)。5B),而乳腺、肺、白血病、卵巢和前列腺癌细胞之间的距离更远,进一步表明增强剂标记在这些癌细胞中具有更大的异质性。用HOMER对H3K27ac富集的区域进行功能注释,结果显示,H3K27ac在基因间和内含子区域主要富集。5C)。基因组覆盖分析显示,几个乳腺癌(HS-578 T,MDA-MB-468),黑色素瘤(LOX IMVI,SK-Mel-2,SK-Mel-28),卵巢(NCI/ADR-RES,OVCAR-5,OVCAR-8,SK-OV-3)癌细胞的占用率较高,几个乳腺癌(MDA-MB-231)、结肠(HCT-15,KM 12)、肺(NCI-H23)和白血病(CC-CEM,molt-4)细胞的占用率较低。5D)。H3K27ac芯片富集峰的数目并不总是与基因组覆盖率相关,这表明H3K27ac峰的宽度是有差异的。H3K27ac峰与细胞遗传学带型的比较表明,H3K27ac区大部分位于相对去致密的染色质区。5E).

图5:典型的H3K27ac增强子横贯多种类型的癌症。

a60株肿瘤细胞H3K27ac峰成对交点(FDR<0.0001)。通过干预生成了H3K27AC区域成对交点的热图。bPCa显示H3K27ac密度(正常值)。标记密度)跨越60个癌细胞株。c用HOMER注释60株癌细胞H3K27ac峰丰富的基因组区。d泡状图显示H3K27ac基因覆盖了代表9种癌症的60个癌细胞。每一行代表癌症类型。圆的大小表示H3K27ac峰的数目,颜色表示基因组覆盖率。e显示H3K27ac峰的细胞遗传带型。从UCSC基因组浏览器中获得细胞带。f肿瘤型特异性H3K27ac标记增强子模块跨越60个细胞系。将H3K27c标记的基因间增强子进行对角线排序。g基因TSS附近的H3K27ac峰用David进行功能标注,聚类采用GoSemSim语义相似性分析。使用David识别的生物过程GO术语。对60株细胞株的H3K27ac峰和肿瘤类型特异性峰进行注释。h气泡图显示最高级生物过程GO术语的富集,从所有峰和癌症类型特异性峰从9个癌症类型,包括60个细胞株(u独特)。iH3K27ac的突变密度(突变/bp)相对于大小和频率相近的随机区域和没有H3K27ac的区域。p-价值是用一个双边费舍尔的精确测试来确定的。j60个癌细胞在基因间区域富集增强子调控基序的评价。编码基元64对60个细胞进行基因间H3K27ac芯片-Seq数据集的基序分析。

我们进一步研究了不同细胞遗传学条带重叠H3K27ac峰区域基因组突变的富集情况。这些发现表明,在含有G-阴性光带和G-阳性带的染色质区,替换错义和编码沉默突变丰富,与H3K27ac峰相交,而替换无义突变在几个癌细胞株含有G-阳性带的染色质区更丰富(补充图G)。25)。此外,缺失的移码突变在含有G-阳性条带的染色质区富集.相反,插入区、缺失区和插入区的移码突变在含有G-阴性和G-阳性光带的染色质区富集。此外,我们观察到G-阳性光带中复杂插入区突变的富集.总的来说,这些发现揭示了变异亚型的基因组位置相对于细胞遗传学显带模式和H3K27ac峰在60个癌细胞基因组中的变化。这些结果也突显了H3K27ac区突变和染色体畸变的异质性,这些区域具有明显的细胞遗传带型。

为了确定癌细胞类型特异性增强子模块,我们重点研究了基因间H3K27ac区。通过对所有基因间H3K27ac区域进行干预和聚类分析,成对交叉分析揭示了增强子模式的癌症类型、特异性和癌内异质性(补充图)。26a,b)。用干涉配对交叉分析方法对正常细胞的公共芯片-Seq数据进行进一步比较,发现NCI-60癌细胞与正常细胞之间的基因间H3K27ac模式有很大差异(补充图)。27),除正常肾细胞和星形胶质细胞外,与其他正常细胞或癌细胞的重叠减少。此外,对H3K27ac基因间增强子的k均值聚类分析进一步揭示了肿瘤类型特异性和正常H3K27ac基因间的类型(补充图)。28a,b)。肿瘤细胞H3K27ac模式的异质性(团簇3、5、6、8、10、11、13)降低了正常细胞H3K27ac的富集(附图)。28B,c基因间H3K27ac在正常细胞(簇2、4、7、9、12、17)中的占用率降低。我们还观察到不同基因间H3K27ac模式在癌症和正常细胞中的数目较少的增强剂(簇18-21)。这些发现也揭示了增强子的活性在正常细胞和癌细胞之间是相似的。第5组增强子在肾癌细胞和正常细胞中被激活,第16组增强子在白血病细胞和正常血细胞中活性降低。

综上所述,这些发现表明H3K27ac标记的增强子在癌细胞和正常细胞之间是不同的,而在癌细胞和正常细胞中,增强子的活性都是以细胞类型特异性的方式进行的。这些结果提示,H3K27ac基因间的癌型特异性异质性可能部分是由于起源细胞中的差异增强子模式的形成和肿瘤形成过程中差异增强子模式的获得所致。

接下来,我们按照上升的顺序,对至少50%的癌细胞类型特定区域进行了聚类(图1)。5F)。这一策略使我们能够区分特定于每一种癌症类型的基因间增强子模块,并从相同的癌症类型(癌内)中识别不同细胞株之间的共有增强子模块。接下来,我们寻求识别功能注释的模式,Go术语在癌症类型特定模块中得到丰富。在使用NCBI David识别丰富的GO术语之后,我们使用GoSemSim进行了语义分析。这些发现突出显示了所有带注释的基因间H3K27ac峰GO术语的总体类似富集,但揭示了GO术语的不同癌症类型特异性富集(图一)。5G)。发育和分化GO术语在乳腺癌和肺癌中表达过高,其次是CNS、结肠、黑色素瘤和肾癌细胞(图1)。5H)。卵巢、前列腺和白血病细胞在发育和分化方面表现出较低的富集。

我们还研究了基因组突变是否在H3K27ac被占领地区或H3K27ac区域富集。我们的结果表明,相对于随机基因组区和没有H3K27ac的区域,H3K27ac占据区的突变密度较高。5I)。这些发现与我们对H3K4me3的研究结果是一致的,并且表明有活性组蛋白修饰的染色质区域相对于没有活性染色质标记的区域来说,突变率增加了。

此外,我们还使用encode基序对复合调控单元进行了系统搜索。64,并观察到基因间H3K27ac增强子模块中转录因子结合的几个DNA序列基序的富集,包括FOXL1、NFE 2、SETDB 1、Egr1、NRF 1、CTCF以及CTCF亚基RAD 21和SMC 3(图3)。5J)。而ctcf是一种基因组绝缘体,它可以阻断增强子的活性,防止活性和非活性染色质区域之间的串扰。65,ctcf也被证明可以介导增强子-启动子之间的相互作用。66。这些发现表明,增强子模块的子集可能在多种类型的癌症中共同调控,这些癌症可能由共同的上游调控器控制。此外,我们还研究了TF结合的DNA序列基序是否含有基因突变。我们在基因组范围内观察到与FOXL1、NFE 2、SETDB 1、Egr1、NRF 1、CTCF、RAD 21和SMC 3结合的DNA序列的突变(补充图)。29),我们没有观察到H3K27ac基因间区的突变。我们还发现CTCF的结合基序在前两个核苷酸上的突变频率增加(补充图)。29)。DNA结合基序的遗传改变可能对TF结合产生负面影响,影响相关基因的表达。

超增强子(Se)活性与肿瘤类型特异性基因相关。

SE是一组紧密相连的增强子,它们促进细胞状态基因的转录。29,67。在癌症中,SE是由癌基因和促癌基因产生的。67,癌细胞对异常增强子的活性上瘾。68。为了了解SE与定义癌症的细胞状态之间的关系,我们询问了跨越多种类型的癌细胞的超增强子序列。使用芯片-seq数据和荷马50我们使用基于Whyte等人的策略来区分SE和基于H3K27ac信号的典型增强子(TE)。29。在12.5kb范围内识别的H3K27ac峰被拼接在一起,并将得分最高的增强子定义为SE(见“方法”一节)。50。一组促进剂表现出较高水平的H3K27ac占用率(如图所示)。6A)。与TE(附图)形成对比。26B、图1.5F),大多数SE都是细胞类型特异性的(如图所示)。6B,c)。我们观察到相对于正常增强剂,SE不同细胞类型的H3K27ac占用率降低(如图所示)。5A)。此外,我们还比较了正常细胞和癌细胞特异性SE在本研究中的活性。从人超增强子数据库(Sedb)中提取了9种正常组织的SE综合列表。69。结果表明,乳腺癌、结肠癌、肺癌、白血病、黑色素瘤、卵巢癌和前列腺癌相对于正常组织显示出更高的活性(图一)。6d),而中枢神经系统和肾脏的活性则略有下降。我们还观察到,相对于正常组织而言,癌症SE的数量更多(见图)。6E)。SES相关基因的功能表征70基因本体论分析表明,基因与其各自的癌症类型相关的生物学过程有关。6f;补充数据5; p-计算值时使用70)。在NCI-60细胞(约80%的细胞系)的子集中发现的超增强子簇的代表性视图显示了H3K27ac的动态图案(如图所示)。6g)。使用从SEDB获得的超级增强子区域列表69我们发现大多数正常细胞在这个基因组区域没有表现出超增强子的模式。进一步比较来自正常细胞的公共芯片-Seq显示,H3K27ac水平在这个具有代表性的基因组区域相对于癌细胞降低(补充图)。30a,b)。综上所述,这些发现表明超级促进剂在癌细胞中具有细胞类型特异性,并且在正常细胞和癌细胞之间有明显区别。

图6:癌症表观基因组超增强子(SE)的鉴定。

a60份人癌细胞系H3K27AC密度超斜率饱和曲线。绘制了H3K27ac标记的典型增强子和超增强子(SE)的数目。H3K27ac归一化芯片-Seq信号跨越所有H3K27ac标记增强子的子集。Se是用HOME确定的(见“方法”一节)。Se被确定为位于斜坡1以外的区域。b干预H3K27ac定义SE的成对交点。c热图显示60个癌细胞的对角排序SE。d图示典型或正常增强剂(黄色)和SE(绿色)在癌症中的SE活性。H3K27ac密度(log2范数)。标签密度)显示。方格表示第一和第三四分位数(25和75百分位数,上和下界),第二四分位数(中心)和极小−最大值(1.5*四分位数范围,胡须)。p-用双面K-S检验计算.e癌(黑色)和正常细胞(灰色)中SE的数目。f p-计算值时使用70癌症类型特异性SE区域的GO功能注释(−log 10)p-价值)。gSE群集的UCSC浏览器视图。红色“x”表示没有超级增强剂。h前10%表达的RPKM的RNA-Seq表达谱(Log2RPKM)和60种细胞中9种肿瘤的所有转录本。p所有<2.2e−16的值(K-S检验)。方格表示第一和第三四分位数(25和75百分位数,上和下界),第二四分位数(中心)和极小−最大值(1.5*四分位数范围,胡须)。i热图显示转录因子结合位点(TFBS)在H3K27ac定义的9种肿瘤类型的SE区富集。TFS在至少一种癌症类型的前10%的转录本中表达,其识别基序在东南区域显著丰富(p < 0.05). The size of the circle is proportional to the p-基元浓缩值(−log 10)p-值),圆圈的颜色代表特定癌症类型中TF的表达水平(红色,高表达;绿色,低表达)。展示了丰富的序列特征。荷马模分析50被用来计算p-价值观。蓝框显示肿瘤特异性富集TF结合位点。源数据作为源数据文件提供。

为了研究转录因子结合位点在多种癌症中的富集情况,我们采用荷马基序分析方法分析了超增强子区同源一致dna结合基序的频率。50。其次,我们评估了TFs的平均表达,其识别基序对每种癌症类型的识别有统计学意义(共识结合基序),并随后着重于每种癌症类型中表达最高的TFs(前10%)(图1)。六小时)。利用这一方法,我们确定了9种肿瘤细胞的103个转录因子识别基序(图1)。6I)。已知的癌基因,如MYC,在九种类型的癌细胞中都有高水平的表达。我们还确定了以特定癌症类型高水平表达的TFs,其基序在统计学上得到了丰富。我们鉴定了乳腺癌富集TFs,包括GATA 3、PITX 2、NR1H2、BCL 6和GSR、CNS富集TFs RUNX 2、SOX 2和GLIS 3、结肠癌富集TFs TCF7L2、EHF、HOXA 9和KLF 3、白血病富集TFs ZNF 692、STAT5B、CELF2、BCL11A和NFE 2、黑色素瘤富集TFs,包括MII、SNAI 2、MAFF、NR4A1、NPAS 2、MNT、ETS 1和SCLY、前列腺癌-TF、FOXA1和富集肾癌TF、ATF7。6I)。总的来说,这些发现揭示了对SE的癌症类型特异性调控的关键洞察力,并进一步表明共同的上游TFs可能调节不同癌症类型的不同靶基因。

癌细胞的异染色质景观

染色质景观划分为两类:常染色质(开放和转录活性)和异染色质(紧凑和一般转录沉默)。30。异染色质以两种状态存在:一种是稳定的凝聚态异染色质,另一种是在发育过程中被动态抑制的兼性异染色质。肿瘤的形成涉及本构和兼性异染色质状态的失调。H3K9me3和H4K20me3在富含重复dna的本构和兼性异染色质上共定位。71,72,73,74,这些组蛋白修饰可作为抑制染色质区的代用品。H3k9me3结构域标记本构区和组织特异性区域,这些区域不受转录调节因子的结合。75.

H3K9me3和H4K20me3可能是促进异染色质形成的多余组蛋白修饰。76,因为H3K9组蛋白甲基转移酶(HMTases)SUV 39H1和SUV 39H2被证明在H4K20 HMTases SUV 420H1和SUV 420H2上游起作用。33,77。H3K9me3/H4K20me3组蛋白甲基转移酶(HMTases)在癌细胞中的表达或突变异常可能导致H3K9me3和H4K20me3的序列沉积紊乱,或改变H3K9me3和H4K20me3的沉积模式,从而导致异染色质失调和基因组不稳定。

为了了解抑癌染色质在肿瘤细胞中的动态调控,我们通过对H3K9me3和H4K20me3在不同类型肿瘤中的占用率进行了调查,了解了异染色质的分布情况。一项对H3K9me3富集区间两两交点的评估显示,60个癌细胞之间的染色质景观有很大区别,这表明异染色质区的标记是异质性的(图一)。7A)。此外,我们观察到H4K20me3峰的重叠减少。7b)相对于H3K9me3、H3K27ac或H3K4me3峰值,表明H4K20me3在多种癌症中丢失。我们还比较了H3K9me3和H4K20me3在60个癌细胞间的密度,并观察到异染色质景观中的共富集现象(图一)。7C)。H3K9me3和H4K20me3的双重标记可能反映了中心异染色质的特征。通过使用PCA询问H3K9me3和H4K20me3的密度,我们观察了不同类型癌症细胞之间的异质抑制景观(图一)。7D)。对H3K9me3或H4K20me3所占基因组区的注释显示,基因组在基因间和内含子区域富集(图1)。7E)。此外,我们还观察到相对于其他NCI-60细胞而言,在外显子区域的MDA-MB-231 H4K20me3峰所占百分比较大,与大多数NCI-60细胞相比,在启动子区的SK-OV-3H4K20me3峰所占比例更高。接下来,我们使用NCBIDavid对H3K9me3或H4K20me3区域附近的基因进行了功能注释。利用这一方法,我们发现了H3K9me3相关基因的异质性发展性GO术语富集(附图)。31A,c),以及与H4K20me3相关的基因在发育中的GO术语的更大的多样性(补充图1)。31B,d)。这些结果提示发育性基因表达程序可能在癌细胞中表现出H3K9me3或H4K20me3的异常标记或缺失。基因组覆盖分析显示,几个细胞株的H3K9me3结构域覆盖全基因组(卵巢:SK-OV-3;白血病:Sr;乳腺:MCF 7,MDA-MB-468)。7F)。此外,MCF 7乳腺癌细胞对60种癌细胞的H4K20me3覆盖率最高。H3K9me3或H4K20me3所占基因组区的细胞遗传学条带显示浓缩染色质区富集。7g在开放染色质区富集了一部分区域。

图7:肿瘤表观基因组的异染色质动力学。

abSICER定义的成对交点(fdr<0.0001)aH3K9me3和bH4K20me3富集区有60个癌细胞。通过干预生成成对交叉口的热图。cH3K9me3和H4K20me3密度散点图(log2范数)。标记密度)跨越代表9个癌症亚型的60个癌细胞株。dH3K4me9(左)和H4K20me3(右)密度的PCA分析(正常值)。(标记密度)在60个细胞系中。癌症类型是彩色编码的。eH3K9me3(TOP)和H4K20me3(底部)富集区的基因组位置注释(H3K9me3和H4K20me3)。f泡状图显示H3K9me3(左)和H4K20me3(右)对代表9种癌症类型的60个癌细胞的基因组覆盖。每一行代表癌症类型。圆圈大小表示H3K9me3或H4K20me3峰数,颜色表示基因组覆盖率。g结果表明,H3K9me3峰(左)和H4K20me3峰(右)呈细胞遗传带型。hH3K9me3(左)和H4K20me3(右)区域的突变密度(突变/bp)相对于大小和频率相近的随机区域,而没有H3K9me3或H4K20me3的区域。p-价值是用一个双边费舍尔的精确测试来确定的。i60细胞中H3K9me3标记区域的UCSC浏览器视图。源数据作为源数据文件提供。

我们还研究了富含H3K9me3或H4K20me3的区域与基因组变异的相关性。这些发现表明,H3K9me3和H4K20me3标记区域相对于随机基因组片段或没有H3K9me3或H4K20me3的区域具有较低的突变密度。7H)。然而,这些突变不包括结构易位事件,这可能是由于丢失H4K20me3。这些发现表明,相对于开放的常染色质区而言,致密的异色化基因组区对基因组突变更难接受。3H)。总的来说,这些结果描述了异染色质区域对多种类型癌细胞的动态调节。


武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297