绘制恶性转化的分子变化图
我们生成了从8名FAP和7名非FAP献血者收集的81份样本的单细胞数据(图。1a和补充表格1和2).对于每个组织,我们进行了匹配的scATAC-seq和snRNA-seq (10x基因组学)。我们从80个样本中获得了447,829个细胞的高质量单细胞染色质可及性分布图,大多数样本的平均转录起始位点(TSS)富集度约为8(扩展数据图)。1a).在去除低质量的snRNA-seq细胞和样品后,我们从70个样品中获得了201,884个细胞的单细胞转录组(扩展数据图。1b).只要有足够的组织,我们就生成显微病理学数据(扩展数据图。2a和补充表格2)并发现大多数息肉是管状腺瘤,这是结肠镜检查中识别的最常见的息肉类型。
图1:大肠癌发育过程中表达和染色质可及性的单细胞图谱。a,总结本研究中的样本。柱状图显示了每个患者的正常/未受影响的结肠组织(灰色)、腺瘤(紫色)和结肠腺癌(红色)的数量。对单个患者进行化验的样本的位置显示在右上方的结肠上。这些数据包括4名FAP患者的深度分析,我们分析了其中的8-11个息肉,0-1个癌和4-5个匹配的正常(未受影响)组织。从非FAP供体中,我们收集了正常结肠(9个样品来自2个供体)、息肉(1个样品来自1个供体)和CRC组织(4个样品来自4个患者)的数据。b,c,所有snRNA-seq的UMAP表示(b)和scATAC-seq(c3)根据细胞是否分离自正常/未受影响的结肠组织、腺瘤或CRCs而着色的细胞。d,g,UMAP对免疫的表述和注释(d)和基质(g)细胞。e,h每次免疫的分数(e)和基质(h)从正常(绿色)、未受影响(蓝色)、息肉(紫色)和CRC(红色)样品中分离的细胞类型。每种颜色内的色阶代表每个样本的贡献(例如,每个红色阴影代表一个CRC)。f,八个息肉和两个CRC的法典图像,其中细胞用深蓝色标记,CD3用绿色标记,PD1用浅蓝色标记。所有测试的样品如所示f。个体标本的抄本成像没有被复制。图中显示了整个标本图像的代表性部分。DC,树突状细胞;纤维。、成纤维细胞;GC,生发中心;先天淋巴细胞;肌纤维。、肌成纤维细胞/平滑肌;NK,天生杀手。
当所有的snRNA-seq细胞(图。1b)和scATAC-seq细胞(图。1c)被投影到低维子空间中,基质和免疫细胞通常按细胞类型聚集,而上皮细胞很大程度上分成不同的群,包括来自息肉、未受影响的组织或CRCs的细胞。因此,我们通过亚组化所有样品中的细胞来注释免疫和基质细胞,并分别分析上皮细胞。
息肉和结直肠癌中富含t细胞和髓样细胞
免疫区室包括B细胞、T细胞、单核细胞、巨噬细胞、树突细胞和肥大细胞(图。1d).我们检测了已知标记基因的表达(扩展数据图。1c)来注释snRNA-seq数据,并检查与标记基因相关的染色质活性分数(给定基因体内和周围可及性的量度)来注释scATAC细胞(扩展数据图。1d).我们在scATAC数据中鉴定了一群耗尽T细胞,其表现出T细胞耗尽标记基因的高基因分数和耗尽T细胞基序的可及性,并被公布的数据集标记为耗尽T细胞(扩展数据图。3a–g和方法)15.
所鉴定的细胞类型存在于几乎所有的样本中,尽管某些细胞类型在特定的疾病状态下富集或减少(图。1e和扩展数据图。2b,c, 3h和4).使用Wilcoxon测试和一种称为Milo的基于广义线性模型的方法,确定了细胞类型丰度的显著差异16,这产生了一致的结果。例如,相对于未受影响的组织,调节性T细胞(Tregs)在息肉中富集,而相对于息肉,初始B细胞、记忆B细胞和生发中心细胞在未受影响的组织中富集(扩展数据图)。4a、b).最近有报道称,在22例错配修复熟练和13例错配修复缺陷的肾细胞癌中,骨髓细胞和特定类型的T细胞富集,而B细胞减少17,我们在癌前息肉中观察到类似的肿瘤免疫组成变化。
(1)息肉和CRC中Tregs的富集和(2)CRC中衰竭T细胞的富集提示了癌前和癌状态中免疫逃避的机制18。t细胞衰竭是对慢性抗原刺激的反应,其特征是细胞因子产生减少和抑制性受体表达增加,被认为是癌症免疫逃避的主要机制19,20。为了进一步支持仅在CRC中发生的T细胞衰竭的观察,我们对CD3和PD1进行了CODEX成像,发现在8个息肉中PD1表达低或不可检测,但在测试的两个CRC样品中均发现PD1表达(图。1f).
在基质区室中,我们鉴定了神经胶质细胞、脂肪细胞和多种类型的内皮细胞和成纤维细胞(图。第一代).成纤维细胞亚型包括隐窝成纤维细胞(WNT2B或者RSPO3高)、绒毛成纤维细胞(WNT5B高)和肌成纤维细胞(ACTA2和转胶蛋白高)(扩展数据图。1f,g和5a)21,22。与以前的结果一致,我们观察到BMP信号基因在绒毛成纤维细胞中的高表达(扩展数据图。5a).与最近关于隐窝成纤维细胞分泌信号素支持上皮细胞生长的报道一致,我们观察到一个信号素高表达的成纤维细胞群(扩展数据图。5a)23。这组成纤维细胞表现出最高的表达水平。RSPO3,一个支持肠干细胞小生境的因子24。我们还观察到一群几乎完全由来自CRCs的细胞组成的癌相关成纤维细胞(CAFs ),以及一群富含来自息肉和CRCs的细胞的scATAC成纤维细胞,其在一些与CAFs相同的基因周围具有可及性,我们称之为癌前相关成纤维细胞(preCAFs )(图。1h和扩展数据图。2d,e和4).这些观察表明,表型不同的成纤维细胞存在于息肉和肿瘤中,因此可能在癌前病变的肿瘤发生中起作用。
接下来,我们整合了我们的scATAC-seq和snRNA-seq数据集,以分析潜在驱动基因表达的调控元件和TF。我们将数据集与典型相关分析(CCA)进行比对,并为每个scATAC-seq细胞分配RNA-seq图谱(整合表达)25。然后,我们用最接近的snRNA-seq细胞标记scATAC细胞,这与人工免疫非常一致(扩展数据图。1i)和基质(扩展数据图。5b)注释。最后,我们在我们的数据集中确定了与邻近基因的基因表达高度相关的峰,这导致了52,443个基质峰-基因链接(扩展数据图。5c,d).
scATAC揭示了前卡夫种群
CAFs通过多种机制促进癌症的发展和进展,包括基质重塑、与癌细胞的信号相互作用和免疫监视的干扰26,27,28。我们观察到一个已知CAF标记基因高表达的CAF簇固定动作模式(fixed action pattern)和扭曲1(扩展数据图。5a)29,30。CAFs最重要的snRNA-seq标记有固定动作模式(fixed action pattern), 凡诚尚品和COL1A2,参与细胞外基质重塑并在多种癌症中上调30,31,32(图。2a).CAFs对这些基因的特异性表达表明成纤维细胞参与了癌组织中独特的细胞外基质重塑,这在正常结肠或癌前息肉中不会发生。
图2:前CAFs和CAFs的表观遗传调控因子。a,CAFs的显著(主检验)标记基因的点图表示。b,基因组追踪可及性WNT2和RUNX1针对不同的基质细胞类型。在scATAC数据中调用的峰和峰到基因的链接显示在轨迹下方。例如,距离约50 kb的调控元件WNT2TSS在caf中最易接近,caf的可接近性与TSS的基因表达高度相关WNT2显示在轨道下方。标记峰(Wilcoxon FDR ≤ 0.1和对数2FC ≥ 1.0)显示在轨迹下方。c,标记峰(Wilcoxon FDR ≤ 0.1和log2FC ≥ 0.5)。通过将每种细胞类型与所有其他细胞类型的背景进行比较来确定显著性。d基质细胞标记峰中TF基序的超几何富集。e描绘TF基序活性的chromVAR偏差z得分与chromVAR偏差和相应TF表达的相关性之间的最大差异图。在所有TF的前四分位数中具有最大chromVAR偏差z得分差异且相关性大于0.5的TF用红色表示。f所选TF的RNA表达(上图)和chromVAR偏差z值(下图)。绘制的RNA表达是snRNA-seq和scATAC-seq数据整合后最近的RNA细胞中的表达。相应的violin图和box图量化了每种细胞类型中细胞的整合基因表达和chromVar偏差z值,如右图所示。箱线图代表数据的中间值、第25个百分位数和第75个百分位数,触须代表箱线图四分位数范围1.5倍内的最高值和最低值。具有显著更高(Wilcoxon检验,FDR ≤ 0.01和log2FC ≥ 1)整合的RNA表达与所有其他细胞类型相比用星号表示。协会,关联;c .纤维,隐窝成纤维细胞;远藤。,内皮;正常。,正常化。
虽然已知caf可促进结直肠癌的进展,但我们接下来研究了成纤维细胞在癌前病变中的作用。因为前CAF簇富含息肉细胞,我们检测了caf标记基因周围的可及性,发现这些基因中的许多在前caf中比其他成纤维细胞亚型更易及。例如,CAFs分泌WNT2来促进CRC中的细胞增殖和血管生成33,34。咖啡馆和预制咖啡馆在WNT2TSS(图2b),表明染色质的变化促进了WNT2在咖啡馆和咖啡馆里。我们还观察到,与其他成纤维细胞亚型相比,preCAFs表现出多种CAF标记基因的更高整合表达(扩展数据图。5e).我们计算了所有成纤维细胞亚型(方法)并发现除了CAF外,preCAFs具有最高的中值CAF得分(扩展数据图)。5f).此外,咖啡馆的可及性与前咖啡馆最相关;然而,与一种隐窝成纤维细胞亚型的相关性仅略低(扩展数据图。5g).总之,这突出了caf和pre caf之间的相似性,并表明pre caf可能具有与caf相似的功能。
RUNX1与咖啡馆的广泛可及性相关
我们发现CAF标记峰富含JUN/FOS和CEBP基序,preCAF标记峰富含JUN/FOS和FOX基序(图。2c,d和方法).为了确定不同基质细胞类型中驱动染色质可及性变化的转录因子,我们鉴定了基因表达与其DNA基序的染色质可及性活性水平之间相关性最高的转录因子(图。2e, x轴)。其中最相关的TF是RUNX1、RUNX2和CEBPB。接下来,我们在基质细胞的统一流形近似和投影(UMAP)图以及按每种细胞类型分组的小提琴图中绘制了这些TF的表达和基序活性(图。2f),并注意到具有相似基序的RUNX1和RUNX2的染色质活性水平在CAFs和preCAFs中最高。然而,RUNX1主要表现在咖啡馆和前咖啡馆,而RUNX2在caf中的表达要低得多,这表明在RUNX基序中RUNX1比在caf中RUNX2是更强的可及性驱动因素。
与这些基因的表达相一致,我们观察到了最大的可及性RUNX1caf和preCAFs中的ts(图。2b).当将每种基质细胞类型的基因评分与所有其他基质细胞进行比较时,preCAFs的基因评分明显高于其他基质细胞RUNX1基因得分(对数2折叠-更改(日志2FC) > 1和错误发现率(FDR) < 0.01),并且没有其他细胞类型满足该显著性阈值。当识别最接近的可访问性时RUNX1,我们发现前CAFs有五个显著的标记峰,CAFs有四个(图。2b).
息肉富含干细胞样上皮细胞
我们检查了最初由未受影响的息肉或CRC疾病状态聚集的上皮细胞(图。1b,c和扩展数据图。6e).为了分析这些数据,我们首先构建了RNA-seq和ATAC-seq参照,其由从没有FAP的患者收集的正常上皮结肠细胞组成(图。3a).我们使用已知标记基因的基因表达和基因活性分数来注释该正常组织中的细胞类型(扩展数据图。6a、b).具有高表达和可及性的干细胞群LGR5, SMOC2, 护装置, 受体型蛋白酪氨酸磷酸酶O, EPHB2和LRIG1很明显(扩展数据图。6b),杯状细胞也是如此(MUC2高)和最佳4+肠细胞(最佳4高)。手动注释后,将snRNA-seq和scATAC-seq数据集与CCA进行比对25,35,并且基于最接近的snRNA-seq细胞对scATAC细胞进行标记,这与65%细胞的人工注释一致,错误标记的细胞通常被标记为分化轨迹中最接近的细胞类型(扩展数据图。6c,d).
图3:在上皮细胞中观察到的干细胞样特征。a分离自正常结肠的snRNA-seq(左)和scATAC-seq(右)上皮细胞的UMAP投影,其中细胞通过细胞类型着色。单元格类型的颜色在中定义c. b未受影响(左)、息肉(中)和CRC(右)样品中的上皮snRNA-seq(上)和scATAC-seq(下)细胞向正常结肠上皮细胞歧管中的投影。投影的细胞被投影中最近的正常细胞着色,正常上皮细胞被着色为灰色。c从正常(绿色)、未受影响(蓝色)、息肉(紫色)和CRC(红色)样品中分离的每种上皮细胞类型的部分。当将上皮细胞投射到正常结肠子空间中时,基于最近的细胞类型的身份来定义细胞类型。d,箱线图描绘了上皮隔室内干细胞样细胞、肠细胞祖细胞或肠细胞的细胞比例,按疾病状态划分。用双侧Wilcoxon检验和Bonferroni校正进行多重比较,将每种细胞类型在未受影响的息肉和CRC组织中的丰度与它们在正常组织中的丰度进行比较,并对结果进行调整P值在图中列出。用来自8个正常样本、18个未受影响样本、48个息肉样本和6个CRC样本的数据构建箱线图。箱线图代表数据的中间值、第25个百分点和第75个百分点;晶须代表箱线图四分位数范围1.5倍内的最高值和最低值;并且绘制了所有点。e每个样品中所有上皮细胞中snRNA-seq和scATAC-seq干细胞分数的分布。行代表单个样品,列代表RNA(左)和ATAC(右)从低到高的stem分数的50个箱。热图由每个样本中在给定的stem分数箱中的上皮细胞的百分比来着色。a、腺癌;Ent。、肠细胞;n,正常;p,息肉;TA,中转放大;u,未受影响的FAP。
然后我们将剩余的细胞投射到这个正常的子空间中25,并发现来自息肉和CRCs的上皮细胞倾向于沿着正常分化轨迹更接近干细胞和其他未成熟细胞,而来自未受影响组织的细胞相对均匀地投射到整个上皮室(图。3b).我们根据投影中最近的正常细胞对所有上皮细胞进行分类,发现来源于息肉和CRC样本的细胞富含干细胞样上皮细胞,而成熟肠上皮细胞减少,这表明上皮细胞在从正常到息肉的转化过程中逐渐表现出干细胞样表型(图。3b–d和扩展数据图。4a、b).我们推测息肉和CRCs中的干细胞样细胞群可能代表这些组织中的“癌症”干细胞。先前描述的肠干细胞和结肠癌干细胞标记基因在这些干细胞样群体中的表达在补充说明和扩展数据图。7a.
为了量化样品中单个细胞的干化程度,我们为每个snRNA-seq和scATAC-seq细胞指定量化干化的分数,并根据每个样品中干化分数的分布对样品进行排序(方法和图。3e).正如所料,未受影响的样本通常具有较低的stem分数。大量息肉聚集在未受影响的组织附近,表明它们相对来说是良性的。然而,来自大多数息肉和CRCs的细胞通常具有较高的干细胞分数,其中一些表现出较大的干细胞分布,而另一些则具有更紧密的干细胞分数分布,这表明一些息肉可能更不均匀。当基于在正常结肠子空间的投影中最接近的正常细胞类型排序样本时,观察到类似的结果(方法和扩展数据图。7h).
干细胞样细胞形成一个潜在的恶性肿瘤连续体
接下来,我们比较了息肉和结直肠癌干细胞样细胞与正常干细胞的基因表达和染色质可及性,以确定癌前病变和癌性病变中的异常基因表达和调控程序。在计算了每个样本的干细胞样细胞和最接近的正常细胞类型的细胞之间的差异峰后,我们计算了对数的主成分2FC,然后按照样本在该空间中的样条拟合位置对样本进行排序(图。4a),其中排序中的位置可以解释为从正常组织到癌症的连续体中的位置。我们使用差异基因而不是差异峰(方法).根据snRNA-seq和scATAC-seq数据集定义的连续体上的样本排序显示了很强的一致性(扩展数据图。6j).该分析表明,干细胞和这些干细胞样息肉细胞之间的基因表达和染色质可及性的差异遵循从早期息肉到晚期息肉再到侵袭性CRC的刻板进展。
图4:恶性转化的调控轨迹。a,snRNA-seq(左)和scATAC-seq(右)的恶性肿瘤连续体。在测井曲线上计算主成分2每份样本的干细胞样细胞和正常结肠干细胞之间的FC值为一组显著不同的峰和基因(Wilcoxon FDR ≤ 0.05和|log2对于峰值,FC |≥1.5;基因主测试)在至少两个样本中。样条拟合到前两个主成分(红色),样本基于它们沿样条的位置排序。b恶性肿瘤连续体中常见驱动基因的基因组改变。c,d,显著差异基因的数量(MAST检验) (c)和峰值(Wilcoxon检验) (d)相对于所有未受影响的样品。e,f所有基因的热图(e)和峰值(f)显著差异表达(主检验,P形容词≤ 0.05和|log2FC | ≥ 0.75)或可接近(Wilcoxon检验,P形容词≤ 0.05和|log2FC | ≥ 1.5)在≥2个样本中。样品沿订购x中定义的恶性肿瘤连续体的轴d。基因和峰值是k-意思是分成十组。g中TF基序的超几何富集k-指中定义的峰簇e. h,日志2FC表示ascii 2, HNF4A和GPX2相对于未受影响样品中的干细胞样细胞,对照中定义的恶性肿瘤连续体作图d。根据样本是否来自息肉或肿瘤细胞,对样本进行着色。
为了确定该连续体是否特异于干细胞样细胞,这将与这些细胞是样品中仅有的恶性细胞相一致,或者如果其他上皮细胞也表现出连续体,这将与息肉中的其他细胞类型来自癌干细胞样细胞而非正常细胞相一致,我们对TA2细胞进行了相同的分析(扩展数据图。6f).我们发现TA2细胞表现出相似的连续性,表明它们继续来源于干细胞样细胞。当我们用浆细胞(不是来源于癌细胞)进行对照分析时,我们没有观察到类似的连续体(扩展数据图。6f).连续体与显微镜病理学和基因组改变的比较(图。4b)中进行了讨论补充信息.
计算轨迹后,我们使用所有未受影响的样本而不是正常样本重复差异分析,以增加背景组中患者和细胞的总数。我们观察到,显著差异峰和基因的绝对数量沿着恶性肿瘤连续体逐渐增加——腺癌样品表现出最大数量的差异峰和基因(图。4c,d).
沿着恶性连续体的基因表达变化
我们通过选择至少两个样本中差异表达的基因,然后将这些基因聚类成10个,来检测恶性肿瘤连续体中的基因表达变化k-表示集群(图。4e).这些簇对应于在恶性转化的不同阶段差异表达的基因组。例如,与未受影响的干细胞相比,簇1-4包含早期息肉中干细胞样细胞上调的基因。群组4的成员包括OLFM4,肠干细胞的标志36,表明OLMF4息肉中的干细胞样细胞在接近恶性肿瘤时表达增加。簇4还包括GPX2,一种已知在CRC中上调的谷胱甘肽过氧化物酶,其功能是通过减少过氧化氢来减轻氧化应激,促进肿瘤发生和转移37(图。4h).上调不依赖于供体,我们在研究中观察到所有供体的趋势相同(扩展数据图。6g).我们观察到翻译基因本体术语富集在聚类4中,剪接和RNA加工基因本体术语富集在聚类2中(扩展数据图。6k).在从正常结肠到癌症的转变过程中逐渐减少表达的基因簇(簇6-9)和恶性转化特异性基因在补充说明和扩展数据图中讨论。8a.
息肉显示TCF和LEF的活性增加
为了识别与侵袭性转化相关的息肉组,我们将至少两个样本中与最近的未受影响细胞类型相比有显著差异的36,374个峰聚类为10个k-表示集群(图。4f),揭示了在向癌症转变的不同阶段变得更容易接近的五个集群和变得不太容易接近的五个集群。为了确定在从正常结肠到结直肠癌的转变中,转录因子驱动染色质可及性的变化,我们计算了图1中每个峰簇中基序的超几何富集。4f(图。第四代移动通信技术)并确保这些结果的稳定性(扩展数据图。7b–g).
TCF和LEF家族基序在所有变得更容易跨越恶性肿瘤连续体(簇1-5)的簇中富集,这与APC的缺失导致β-连环蛋白在细胞核中积聚的事实相一致,β-连环蛋白与TCF和LEF TF相互作用驱动WNT信号传导38,39,40。这种调节性转化在整个恶性连续体中是渐进的——包含TCF和LEF基序的新峰在结肠癌发展的所有阶段继续开放,正如在TCF和LEF基序中聚集的总体可及性一样,这表明WNT信号在整个转化中逐渐增加,超过了在正常干细胞群体中观察到的水平。
簇3峰在晚期息肉和结直肠癌中变得更易接近,也表现出ASCL2基序的富集(图。第四代移动通信技术).ASCL2是肠干细胞命运的主要调节因子,ASCL2的诱导性缺失导致LGR5的缺失+小鼠肠道干细胞41。与息肉上皮中更像干细胞的状态和更严重的恶性连续体评分之间的联系一致,ascii 2随着息肉接近恶变,表达逐渐增加(图。4h),再次表明了“超级干细胞”样表型,其中干细胞状态的主调节因子甚至比它们在正常干细胞中更活跃。
恶性肿瘤连续体中丢失的基序包括HOX家族基序、KLF基序和GATA基序(图。第四代移动通信技术),以及恶性肿瘤连续体的特定KLF转移因子在补充说明和扩展数据图中详细讨论。8d,e。簇4和5仅在CRC样品中表现出较大的可及性增加,并且HNF4A基序的富集最大(图。第四代移动通信技术).这一观察表明HNF4A在息肉中的使用有差异,在息肉中HNF4A减少以驱动WNT信号,而在CRC中,HNF4A上调以驱动癌症特异性可及性差异(补充注释和扩展数据图)。8b,c).
恶性连续体细胞组成的重塑
我们计算了每种细胞类型对每个样本的贡献分数,作为恶性肿瘤连续体中位置的函数,并发现一些细胞类型与恶性肿瘤连续体的进展高度相关。例如,在整个恶性转化过程中,样本中干细胞的比例逐渐增加(图。5a,我).类似地,随着息肉转化为癌,成熟肠上皮细胞的数量减少(图。5b,我).Milo分析显示,在恶性肿瘤的末期,干细胞样细胞的邻近区域明显更丰富(扩展数据图)。4b).在主要由未成熟和成熟杯状细胞组成的分泌室中,我们观察到许多息肉中未成熟杯状细胞的分数增加。在癌中,我们看到普遍缺乏向分泌谱系的分化,有效地消除了未成熟和成熟的杯状细胞(图。5c,d,I).这一观察结果与先前报道的非粘液性结肠腺癌中杯状细胞减少一致42。先前的工作还发现MUC2的敲除导致小鼠中更多腺瘤和癌的形成43,表明未成熟和成熟杯状细胞的丢失甚至可能有助于肿瘤的发生。
图5:恶性转化中细胞类型表现的动力学。a–h在每个scATAC样品中细胞类型的分数相对于样品在恶性肿瘤连续体中的位置作图,定义见图。4d对于干细胞样细胞(a),肠细胞(b),未成熟的杯状细胞(c),杯状细胞(d),Tregs(e),耗尽的T细胞(f),preCAFs(g)和咖啡馆(h).根据样本是否来自未受影响的组织、息肉或肿瘤细胞,对样本进行着色。通过将给定细胞类型的细胞数除以隔室中的细胞总数来计算分数(上皮细胞对免疫细胞对基质细胞)。i的堆积箱线图表示恶性肿瘤连续体中每个scATAC样品的每种细胞类型的上皮细胞比例。
在上皮隔室之外,我们还观察到从未受影响到息肉再到癌的转变过程中细胞组成的变化。在间质腔内,前CAFs的比例逐渐增加,而CAFs只出现在CRCs中(图。5g,h).在免疫区室中,Tregs在更恶性的息肉和CRC中增加,而耗尽的T细胞仅出现在CRC中(图。5e,f和扩展数据图。4b).已知Tregs抑制抗肿瘤免疫反应,并且通常以高水平存在于肿瘤微环境中44。Tregs的逐渐增加可能是癌前息肉的免疫逃避机制。我们在补充说明和扩展数据图中讨论了恶性连续体中间质细胞和上皮细胞之间可能的细胞间相互作用。8f,g.
比较结直肠癌DNA甲基化改变与连续体可及性
异常的DNA甲基化是大肠癌发生的主要机制45,46,47但是在恶性转化前和转化过程中,甲基化改变驱动染色质可及性改变的时间和程度尚不清楚。我们鉴定了正常和CRC样本之间的差异甲基化探针(扩展数据图。9d)在癌症基因组图谱(TCGA)中的DNA甲基化数据(Illumina 450K array)48。对于来自上皮细胞的约89,000个染色质可及性峰与至少一个450K阵列探针重叠,我们确定了有多少重叠至少一个高甲基化位点,至少一个低甲基化位点或没有差异甲基化位点。然后,我们根据这些峰是明显上调还是明显下调的簇的成员来分组。4h.
对于重叠低甲基化探针的峰,大约三分之一(534)属于沿连续谱变得明显更易接近的簇,而< 0.5% (5)变得明显更难接近(图。6a).我们看到重叠高甲基化探针的峰有类似的对应关系,大约四分之一(754)变得不太容易接近,而< 0.5% (9)变得更容易接近。因此,CRC中的高甲基化和低甲基化几乎完美地预测了该位点的可及性将降低或增加(分别地),或保持不变。在未达到显著性阈值的峰中,我们仍然观察到重叠高甲基化探针的峰内聚集可及性较低,而重叠低甲基化探针的峰内聚集可及性较高(图。6b).然而,我们也观察到79.4%(2096个)明显更易接近的峰和76.3%(2440个)不易接近的峰与非分化探针重叠,这意味着大多数染色质可接近性的变化可能不是由甲基化驱动的。
图6:单细胞结肠数据与CRC甲基化数据的整合揭示了具有染色质可及性早期变化的CRC DMRs。a,将峰的可及性变化与重叠的Illumina 450K甲基化探针的甲基化状态相关联的表。总共约89,000个峰与180,000个450K探针重叠。归类为向上的峰是图1-5中簇1-5的成员。4f被分类为向下的峰值是图1中聚类6-10的成员。4f. b,CRC中重叠低甲基化(顶部)和高甲基化(底部)450K探针的峰的热图。热图被分成图1中定义的较易接近和较难接近组的峰。4h和未包括在图1中的峰值。4h。对于重叠超甲基化探针的非分化(非去分化)峰,{ { { P } } } \ left({ \ overline { { \ mathrm { log } } _ { 2 } { RM { FC } } } < 0 } \ right)= 0.81 和符号测试P < 10−50。对于重叠低甲基化峰的非分化峰,{ { { P } } } \ left({ \ overline { { \ mathrm { log } } _ { 2 } { RM { FC } } } > 0 } \ right)= 0.73 和符号测试P < 10−50. c,每个样品中重叠低甲基化或高甲基化450K探针的显著差异峰的数量。每个图中列出了重叠高甲基化和低甲基化探针的峰总数。d,周围有无障碍轨道ITGA4和NR5A2,其在CRC中高度甲基化。根据相应样本在恶性肿瘤连续体中的位置对轨迹进行排序,如图。4。DMR,差异甲基化区域。
接下来,我们绘制了恶性肿瘤连续体中重叠高甲基化和低甲基化探针的差异峰的数量(图。6c),并发现在CRC中最终差异甲基化的区域中发生的染色质可及性的变化随着从正常到癌症的转变而累积,在晚期息肉和CRC中观察到的数量最多。
在与CRC中的高甲基化探针重叠的区域中,有几个先前报道的癌症特异性高甲基化位点在息肉中变得不容易接近49。例如,启动子区域和多个远端调控元件靠近ITGA4基因在正常结肠、未受影响的FAP结肠和非常早期的息肉中是可接近的,但是在进展为CRC的早期变得关闭,并且甚至在低级别息肉中保持关闭(图。6d).在我们的数据集中,与超甲基化探针重叠的差异峰最近的基因是NR5A2。沿着恶性肿瘤连续体,该基因附近的多个峰变得不容易接近(图。6d)和表达式NR5A2也沿着恶性肿瘤连续体逐渐减少(扩展数据图。6小时).NR5A2是一种核受体,与包括炎症和细胞增殖在内的广泛功能有关50。高甲基化、可及性降低和基因表达降低NR5A2表明NR5A2缺失可能引发的促炎状态可能在肿瘤发生中起作用。
CRC中的超甲基化DNA区域也已被纳入CRC筛选试验,包括CRC启动子区域的超甲基化BMP3和NDRG4(参考51).我们观察到周围有多个远端元件BMP3在恶性肿瘤中间变得难以接近(扩展数据图。9a).我们观察到许多区域有相似的行为:在恶性肿瘤连续体的特定点,可及性急剧增加或减少。我们推测,检测这些位点的易接近性或甲基化可能会使息肉沿着恶性连续体分期。该方法也鉴定甲基化标记/基因座(例如,抓住, CIDEB)针对CRC中的恶性转化(扩展数据图。9b,c),以及启动子与CRC甲基化改变重叠的差异基因(扩展数据图。9e).