介绍

食管癌是严重威胁人类健康的消化系统恶性肿瘤。食管癌发病率和死亡率分别居世界第7位和第6位1。中国是食管癌的高发国家,食管鳞状细胞癌(ESCC)是食管癌的主要亚型,其发病率和死亡率分别居恶性肿瘤的第6位和第5位2。ESCC在早期通常无症状,导致晚期诊断和较差的5年生存率。内窥镜筛查有助于ESCC的早期检测、诊断和治疗。国家癌症中心的流行病学家在中国上消化道癌症的高危地区进行了几项基于人群的多中心队列研究。来自大规模人群研究的证据已经证实,内镜筛查和早期干预是降低ESCC发病率和死亡率的有效方法3,4。此外,以人口为基础的研究也表明ESCC的总体5年生存率有所提高5。然而,由于较大的癌症负担、医院人员的缺乏和技术的可用性,内窥镜检查仅在中国的高风险地区进行。因此,迫切需要开发可靠的生物标志物用于ESCC的早期检测和筛查。

大于200个核苷酸的长非编码RNA(lnc RNA)被认为是转录调节、染色质重组和转录后调节的关键介质。lncRNAs的数量比编码蛋白质的RNA更丰富,在不同的癌症甚至同一种癌症的不同亚型中观察到它们的失调表达,这为寻找特定的肿瘤生物标志物提供了更大的窗口6,7,8,9。有趣的是,lncRNAs可以从体液中提取出来,并成为非侵入性“液体活检”方法的有吸引力的候选者10。Wang等人报道了血清HOTAIR水平可以区分患者和健康对照,其诊断能力为0.793,但样本量较小11。到目前为止,还没有对ESCC从组织到液体活检的lncRNA诊断生物标志物进行系统和全面的研究。

在这项研究中,我们基于来自ESCC患者的配对肿瘤和邻近正常组织的全转录组数据构建了一个诊断性lncRNA信号,并在多中心跨平台队列中验证了lncRNA信号的有效性。此外,我们开发了cfRNA液体活检诊断生物标志物,并发现五种循环lncRNAs在识别ESCC或食管上皮内瘤变(EIN)患者方面表现出优于或相当于传统血清学标志物的诊断准确性。

结果

研究设计和患者队列

我们进行了一项多中心、跨平台的ESCC诊断中lncRNA生物标志物的临床发现和验证研究,如图。1。在发现阶段,我们在山西省肿瘤医院93名ESCC受试者的回顾性病例对照队列(称为SCH发现队列)中进行了全基因组筛查,以确定候选lncRNA生物标志物。在发现阶段,可归纳的M阿利甘西Rinsert storage key 插入存储键P机器人能力模型(MLMRPscore)通过整合M多重的L在SCH发现队列中诊断ESCC的ncRNA生物标志物。在验证阶段,在不同的多中心和跨平台回顾性队列中评估和检查MLMRPscore的诊断性能,包括三个内部队列(称为SCH验证队列,n= 62,CAMS组织队列,n= 15和CAMS血浆队列,n= 77),来自You研究的两个公开的RNA-seq队列(称为You队列,n= 23)12和和GTEx数据库(称为-GTEx队列,81个对271个健康供体),来自李研究的两个公共微阵列队列(称为李队列-1,n= 119和李队列-2,n= 60)13.

图1:展示研究设计的流程图。
figure 1

对ESCC诊断中的lncRNA生物标志物进行了一项多中心、跨平台的临床发现和验证研究。癌旁正常组织,差异表达,ESCC食管鳞状细胞癌,HD健康供体,长非编码RNA。

ESCC相关lncRNA生物标志物的鉴定

为了确定ESCC相关的lncRNA,我们分析了SCH发现队列中93名ESCC患者配对肿瘤和邻近正常组织(ANT)的全基因组lnc RNA表达谱,确定了2103个差异表达的lnc RNA(DElncRNAs),包括与正常组织相比肿瘤中1070个上调和1033个下调的DElncRNAs(图。2A和补充数据1).如图所示。2B,这些DElncRNAs的表达模式能够区分ESCC组织和非癌组织(图。2B).为了减少变量的数量并确定最具信息性的生物标志物,我们使用了RF-RFE算法,进行了10次交叉验证和5次重新采样,并确定了7种DElncRNAs作为潜在的生物标志物。为了确保这七个潜在lncRNA生物标志物在ESCC的可靠性和可重复性,我们利用微阵列平台验证了它们在外部Li队列1 (119个ESCC和119个邻近非癌症对照)中的表达模式,并证实了六个lncRNA生物标志物(AP003548.1, PGM5-AS1, ADAMTS9-AS1, MIR503HG, LINC01082LINC03016)在ESCC,正如SCH发现队列所揭示的那样。MIR503HG相对于邻近的非癌组织,其余五种lncRNAs在ESCC中下调。2C和补充数据2).功能富集分析显示,与6种lncRNA生物标志物共表达的mRNAs在许多已知的癌症相关途径中富集,如cGMP-PKG信号通路、Apelin信号通路、肿瘤中的黏着斑和转录失调(图。2D).这些结果证明了它们在ESCC发病机制中的生物学相关性,并强调了它们作为检测ESCC的有前途的诊断测定的潜力。

图SCH发现队列中ESCC相关lncRNA生物标志物的全基因组发现。
figure 2

A火山图显示了显著差异表达的lncRNAs的log2(倍数变化)( FDR调整p-来自非癌组织的ESCC组织之间的双侧Wald检验值< 0.05且绝对log2-转换倍数变化> 1)。B显著差异表达的lncRNAs的无监督层次聚类的热图。C显示六种lncRNA生物标志物表达水平的箱线图。对于箱线图,中线表示中值;方框界限表示第一和第三四分位数;晶须包含1.5倍的四分位数范围。P数值由双尾配对确定t-不进行多重比较调整的测试。D与六种lncRNA生物标志物共表达的mRNAs的KEGG途径和GO术语富集分析。Jaccard的相似性指数用于测量丰富的GO术语和KEGG途径的成对相似性。具有高Jaccard相似性指数的GO术语和路径被认为是相似的,并使用ward聚类成五个子集。d方法。节点的大小代表GO术语或KEGG途径中包含的被分析基因的数量,颜色代表FDR调整的p-浓缩的价值。P-数值由FDR调整后确定p-费希尔精确检验的单侧版本的值。ESCC,食管鳞状细胞癌;lncRNAs长非编码RNA,FDR假发现率,邻近正常组织。

在多中心室内队列中建立和验证ESCC的多lncRNA诊断信号(MLMRPscore)

为了建立一个临床上可推广的基于lncRNA的恶性肿瘤概率模型来估计发展为ESCC的风险概率,我们整合了6个lncRNA生物标志物以形成一个多lncRNA诊断信号(MLMRPscore ),这将允许临床医生在SCH discovery队列中使用转化的logistic回归模型来评估ESCC的风险概率。当在62名受试者的另一个内部SCH验证队列中进行测试时,MLMRPscore在区分ESCC和非癌组织方面表现出优异的区分性能,AUC为1.000(图3A–C和补充图。S1).

图3:在两个独立的多中心室内队列中开发和验证用于ESCC诊断的多lncRNA信号(MLMRPscore)。
figure 3

SCH验证队列中用于验证MLMRPscore和混淆矩阵性能的样本总结(A)和CAMS组织群组(D).SCH验证队列中六种lncRNA生物标志物的表达模式的热图,以及相应的风险概率、预测标记和真实标记(B)和CAMS队列(E).SCH验证队列中MLMRPscore诊断性能的受试者操作特征(ROC)曲线(C)和CAMS队列(F).在…里C, F,数据以AUC 95% CI表示。ESCC食管鳞癌,癌旁正常组织,曲线下面积,置信区间。

我们接下来使用RT-qPCR测定法来测量来自CAMS队列的15对ESCC和邻近非癌组织中6种lncRNAs的表达水平,以验证MLMRPscore的性能(补充数据3).与在SCH发现和SCH验证队列中通过RNA-seq测量的它们的表达模式一致,五种lncRNAs(AP003548.1, PGM5-AS1, ADAMTS9-AS1, LINC01082,以及LINC03016)显著下调,一个lncRNA(MIR503HG)在ESCC组织标本中显著上调(图。3E和补充图。S2B).MLMRPscore的AUC为0.978(95% CI:0.931–1.000),灵敏度为93.33%,特异性为93.33%(图。3D,F和补充图。S2A).这些结果初步证实了MLMRPscore在组织标本中诊断潜力的卓越和稳健性能。

MLMRPscore在外部多中心和跨平台队列中的独立验证

为了独立验证MLMRPscore,我们在四个采用不同平台的完全盲化的外部队列中检查了MLMRPscore的诊断性能。我们使用来自You队列的23名韩国ESCC患者的配对癌性和非癌性组织的完全盲化外部队列分析了其辨别能力。You队列的结果表明,MLMRPscore在区分ESCC和匹配的正常对照组方面表现强劲,AUC为0.968(95% CI:0.914–1.000)(图。4A–C和补充图。S3A).在由81例ESCC病例和271例正常食管粘膜上皮组织组成的大型联合队列(TCGA-GTEx队列)中进一步测试了MLMRPscore的诊断性能。MLMRPscore确定了81例ESCC病例中的70例和271例正常对照中的228例,其AUC为0.951(95% CI:0.923–0.978),敏感性为86.42%,特异性为84.13%(图。4D–F和补充图。S3C).这六种lncRNAs生物标志物在您和TCGA-GTEx队列中的表达模式是一致的,正如我们在不同的内部队列中观察到的(图。4B,E和补充图。S3B三维(three dimension的缩写)).

图MLMRPscore在外部多中心和跨平台队列中的独立验证。
figure 4

用于在You群组中验证MLMRPscore和混淆矩阵性能的样本摘要(A),TCGA-GTEx群组(D),李同学-1(G),还有李的《队列-2》(J).You队列中六种lncRNA生物标志物的表达模式与相应风险概率、预测标记和真实标记的热图(B),TCGA-GTEx群组(E),李同学-1(H),还有李的《队列-2》(K).You队列中MLMRPscore诊断性能的受试者工作特征(ROC)曲线(C),TCGA-GTEx群组(F),李同学-1(I),还有李的《队列-2》(L).在…里C, F, I, L,数据以AUC 95% CI表示。ESCC食管鳞状细胞癌,癌旁正常组织,曲线下面积,置信区间,HD健康供体。

随后对MLMRPscore的预测能力进行了进一步验证,使用了两个独立的回顾性病例对照队列,分别包括来自中国的119名和60名ESCC患者。MLMRPscore再次显示出能够将ESCC与对照组区分开,对照组在Li群组-1中的AUC为0.997(95% CI:0.994–1.000,敏感性:89.08%,特异性:99.16%)(图。4G–I和补充图。S4A)和1.000 (95%可信区间:1.000–1.000,敏感性:90.00%,特异性:100.00%)在Li队列2中(图。4J–L和补充图。S4C),分别为。与SCH发现和其他验证队列一致,六个lncRNA生物标记揭示了一致的失调表达模式(图。4h和K,补充图。S4BS4D).这项多中心、跨平台的验证研究再次强调了MLMRPscore的可靠和强大的诊断功效。

MLMRPscore能够稳健地识别早期I期和II期ESCC患者

我们接下来研究了MLMRPscore和相关临床特征之间的关系。MLMRPscore预测的风险概率在患者中显著高于对照组,但两组之间在不同队列中的酒精使用、吸烟和性别差异方面没有显著差异(补充图。表面抗原-5).早期肿瘤诊断对于降低死亡率和改善ESCC预后至关重要。因此,我们将患者分为I期和II期(早期)与III期和IV期(晚期),并评估MLMRPscore的早期诊断性能。如图所示。5在SCH队列中,MLMRPscore在区分早期I期和II期ESCC病例和正常对照组方面也表现出优异的诊断性能,AUC为1.000(95% CI:1.000–1.000,敏感性:100%,特异性:100%)(图。5A),0.973 (95%可信区间:0.912–1.000,敏感性:100.00%,特异性:93.33%),在CAMS组织队列中(图。5B),1.000 (95%可信区间:1.000–1.000,敏感性:100.00%,特异性:95.65%)(图。5C),0.944 (95%可信区间:0.909–0.980,敏感性:83.33%,特异性:92.62%),在TCGA-GTEx队列中(图。5D),0.999 (95%可信区间:0.997–1.000,敏感性:84.91%,特异性:100.00%)(图。5E)和1.000 (95%可信区间:1.000–1.000,敏感性:85.29%,特异性:100.00%)的差异(图。5F)(补充图。S6).这些发现共同证明了MLMRPscore作为一种有前途的早期诊断工具的潜力。

图MLMRPscore早期诊断性能的验证。
figure 5

SCH队列中MLMRPscore的混淆矩阵、表达热图和受试者操作特征(ROC)曲线(A),CAMS组织群组(B),你队列(C),TCGA-GTEx群组(D),李同学-1(E),还有李的《队列-2》(F).(是)基本力量AF,数据以AUC 95% CI表示。ESCC食管鳞状细胞癌,癌旁正常组织,曲线下面积,置信区间,HD健康供体。

血浆队列中lncRNA生物标志物的非侵入性潜力

为了探索基于组织的lncRNA生物标志物的非侵入性潜力,我们测量了来自CAMS血浆队列的32名ESCC患者、32名健康对照和13名EIN患者的血浆样品中6种lncRNA生物标志物的表达水平(补充数据4).在这六种lnc RNA中,五种lnc RNA生物标志物(AP003548.1, PGM5-AS1, ADAMTS9-AS1, LINC01082,以及LINC03016)揭示了一致的失调表达模式,如在基于组织的队列中观察到的(图。6A).这五种lncRNA生物标志物在区分ESCC患者和健康对照(AUC值范围为0.733至0.836)以及区分上皮内瘤形成患者和健康对照(AUC值范围为0.697至0.870)方面表现出稳健的性能(图。6B,C).此外,我们比较了这五种lncRNA生物标志物与传统肿瘤标志物(SCC-Ag、CEA和CYFRA21-1)的诊断效率,发现与传统肿瘤标志物相比,lncRNA生物标志物在识别ESCC或EIN患者方面表现出较高或相当的诊断准确性(图。6B,C).这些结果表明,lncRNA生物标志物可能具有作为早期检测ESCC的非侵入性工具的潜力。

图6:血浆群组中lncRNA生物标志物的非侵入性表现。
figure 6

A箱线图显示了在32名ESCC患者、32名健康对照和13名上皮内瘤形成患者的血浆样品中测量的五种lncRNA生物标志物的表达水平。五种lncRNA生物标志物和三种常规肿瘤标志物在鉴别ESCC患者中的ROC分析(B)和上皮内瘤形成(C).ESCC食管鳞状细胞癌,EIN食管上皮内瘤变,HD健康供者,曲线下面积,置信区间。

lncRNA生物标志物的使用提供了优于当前筛选方法的实质性益处

ESCC患者的筛查和诊断传统上依赖于内窥镜筛查或侵入性活检,然后进行手术。为了评估lncRNA生物标志物的临床益处,我们进行了DCA以确定将这些lncRNA生物标志物纳入临床决策是否会利大于弊。如图所示。7DCA曲线表明,在一系列阈值概率范围内,lncRNA生物标志物比筛查和诊断所有ESCC患者或不筛查和诊断任何患者获得了更高的净效益(图。7).这些结果表明,lncRNA生物标志物有可能通过最小化身体伤害和误诊的风险,提供比干预所有病例或根本不干预更大的临床益处。

图7: LncRNA生物标志物提供了优于当前筛选方法的实质性益处。
figure 7

在多个队列中评估lncRNA生物标志物临床益处的决策曲线分析。

讨论

LncRNAs是癌症中的关键调控分子,由于其广泛的表达谱、高肿瘤特异性和在循环体液中的稳定性,在筛选肿瘤诊断和预后标志物方面具有独特的优势6。来自基于血液的研究的越来越多的证据强调了循环lncRNAs作为早期癌症诊断的被动生物医学工具的潜在临床应用10。在这项研究中,我们进行了一项回顾性研究,并建立了一个用于ESCC早期检测的六基因诊断标记(MLMRPscore)。

在这六个签名中,PGM5-AS1在ESCC组织中经常下调并发挥肿瘤抑制功能。PGM5-AS1被确定为ESCC患者的诊断和预后生物标志物14. ADAMTS9-AS1已经被鉴定为用于预测ESCC预后和治疗反应的ln crna-信号的成员15,16。我们数据中的功能富集分析表明,与6种lncRNA生物标志物共表达的mRNAs在许多已知的癌症相关途径中富集,如cGMP-PKG信号通路、Apelin信号通路、黏着斑和转录错误调节17,18,19,20,21。这些结果进一步支持候选lnc RNA参与了与癌症密切相关的重要生物学过程,表明这6个lnc RNA具有构建诊断信号的高潜力。

MLMRPscore的性能通过组内交叉验证和外部跨平台验证进行评估。MLMRPscore在不同人群和不同检测平台中表现出强大的诊断功效。值得注意的是,MLMRPscore的诊断性能在TCGA-GTEx队列和三个独立的回顾性病例对照队列中得到验证,表明MLMRPscore可以有效区分ESCC患者和健康对照组,进一步验证了MLMRPscore对诊断生物标志物的鲁棒性。早期诊断是改善ESCC患者生存和预后的有效策略3。我们从SCH发现队列中选择I期和II期患者作为早期阶段来调整MLMRPscore的临界值,然后在验证队列中进行测试。正如预期的那样,MLMRPscore在ESCC的早期检测中显示出优越的功效。

临床诊断要求操作简单、费用低廉、数据准确。在癌症患者的血液中已经鉴定出许多lncRNAs,这可以作为潜在的非侵入性诊断工具10,22,23,24。值得注意的是,循环lncRNAs的诊断能力已被揭示为比常规糖蛋白标记、循环肿瘤细胞(CTC)和无细胞DNA (cfDNA)更可靠和更优越10,25。为了探索MLMRPscore的非侵入性潜能,我们使用RT-qPCR评估了本研究所血浆队列中MLMRPscore模型中lncRNAs的表达。有趣的是,五个循环中的lnc RNA显示出与组织lnc RNA一致的失调表达模式。这五种lncRNAs在区分ESCC和e in患者与健康对照方面表现出了强大的性能。此外,与包括SCC-Ag在内的常规临床血清学生物标志物相比,这五种lncRNAs表现出更高或相当的诊断准确性。这些结果表明,五个循环中的lncRNAs可能具有早期检测ESCC的潜力。

基于液体活检的早期检测技术为ESCC的早期检测提供了有希望的机会。然而,将液体活检转化为早期癌症检测的临床实践将具有挑战性。目前临床实践中没有使用基于液体活检的筛查测试。这项研究有几个局限性。由于数据的限制,我们只对最近从有限数量的患者和健康对照中收集的血浆样本测试了五种循环lncRNAs的诊断性能。需要采取几个步骤来应用我们的方法作为当前癌症筛查方法的重要补充或作为筛查工具。首先,应在长期、大规模、多中心、回顾性和前瞻性血浆队列中验证循环lncRNAs的诊断效力。重要的是,需要在预期使用人群中进行仔细对照的试验,以及与传统内窥镜筛查的潜在比较和整合。此外,鉴于我们目前研究的主要目的是确定ESCC的诊断生物标志物,我们无法评估这些标志物是否也可以监测肿瘤进展或预测ESCC患者对治疗的反应。我们将在今后继续进行这种研究。

总之,我们的研究利用了一个系统的、多中心的、跨平台的临床生物标志物发现和验证框架来开发一个稳定而强大的多lncRNA诊断信号(MLMRPscore ),能够准确识别ESCC患者,包括临床队列中的早期肿瘤。这一诊断信号在不同的独立组织队列中得到成功验证。基于MLMRPscore的五种循环lncRNAs在血浆队列中从健康对照中识别ESCC和e in患者方面表现出稳健的性能,为未来的非侵入性ESCC检测方法奠定了基础。