您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!2008-2021
Wuhan Xinqidi Biotech Co.Ltd
本企业通过iso9001质量体系认证

定点数字组织学特征对深度学习模型准确性和偏倚的影响

 二维码
发表时间:2021-07-27 10:38作者:武汉新启迪Xinqidibio

摘要

肿瘤基因组图谱(TCGA)是数字组织学中最大的生物定位系统之一。深入学习(DL)模型已经被训练的TCGA直接从组织学上预测许多特征,包括生存,基因表达模式,和驱动突变。然而,我们证明这些特征在TCGA中的组织提交站点之间有很大的不同,对于3,000多名有6种癌症亚型的患者。此外,我们还发现提交站点之间的组织学图像差异可以很容易地用DL来识别。尽管常用的颜色归一化和增强方法,站点检测仍然是可能的,我们量化了构成该站点特定数字组织学特征的图像特征。我们证明,这些位点特异性特征导致了对包括存活、基因组突变和肿瘤分期在内的特征预测的偏倚准确性。此外,还可以从特定地点的签名中推断族裔,这些签名必须加以说明,以确保DL的公平适用。这些特定于站点的签名可能导致对模型性能的过度乐观估计,我们提出了一种二次规划方法,通过确保模型没有在来自同一站点的样本上进行训练和验证来消除这种偏差。

导言

几乎所有人类癌症诊断的标准组成部分是苏木精和伊红染色肿瘤活检切片的组织学检查。病理学家确定的组织学特征有助于描述肿瘤的亚型、预后,有时还可以预测对治疗的反应。1。对更微妙的病理特征进行量化,可以进一步区分预后好的和预后差的肿瘤,如乳腺癌中肿瘤浸润淋巴细胞的定量,但这种详细的分析在病理学家之间是耗时和可变的。2。数字组织学的日益普及,再加上人工智能和图像识别技术的进步,导致了严格评估与多种肿瘤特异性特征相关的病理相关性的计算方法。深度学习是人工智能的一个子领域,是指利用多层神经网络来识别越来越高阶的图像特征,从而能够准确识别感兴趣的特征。数字组织学的深入学习已经成为识别标准组织学特征(如等级)的潜在工具。3,4有丝分裂5,6,以及入侵7,8。近年来,深度学习方法已被应用于识别不那么明显的感兴趣的特征,包括乳腺癌受体状态等临床生物标记物。4,9、微卫星不稳定性10,11,或在癌症中存在致病性病毒。12。这些方法被进一步扩展到从组织学中直接推断肿瘤生物学的更复杂的特征,包括基因表达。13,14,15致病突变16,17。其中许多模型的预测精度已在外部数据集中得到验证,但研究往往依靠单一数据源进行培训和验证。

癌症基因组图谱(Tcga)是发展深度学习组织学模型的关键,它包含来自24种肿瘤类型的20,000多张数字幻灯片图像,以及相关的临床、基因组和放射学数据。18。由于机器学习算法倾向于过度匹配,通常在保留测试集中报告性能,或者通过交叉验证来评估性能,以避免对准确性的偏倚估计。19。然而,数字组织学模型对站点级特征的过度拟合并不完全,而且在深度学习模型的内部验证中也不常见。Tcga和其他高通量测序工作中的基因组批量效应已经得到了很好的描述,并且是提供样品的数百个组织源位点以及用于基因组测序和鉴定的多个位点的产物。20,21,22。组织学影像数据同样包含每个组织提交站点的特征特征(图)。1)。在切片之前,组织首先是新鲜冷冻或固定在福尔马林和石蜡中,每种固定方法都会产生独特的伪影。23。然后用同名的苏木精和伊红染色,这些染色的颜色和强度可以根据特定的染色配方和每次染色的时间而变化。然后,由于扫描仪的校准以及分辨率和放大率的选择,幻灯片的数字化可能会有所不同。24,25。最后,由于在不同中心治疗的患者之间的生物学差异,肿瘤的组织学特征在不同的机构之间可能有所不同。因此,标本采集、染色、数字化和病人人口学方面的差异都有助于形成一个独特的特定位点数字组织学特征,而这又可能导致数字成像模型缺乏普遍性。

图1:位点特异性数字组织学特征的病因及校正方法.
figure1

提交数字组织学图像的机构通常可以很容易地被检测到,因为每个机构都有一个特定于站点的签名。有许多因素可以导致位点特异性的特征,从数据集之间真正的组织学和生物学差异到非生物伪影(称为批处理效应)。批量效应可以从组织采购到数字图像创建的每一步产生。冷冻和福尔马林固定的标本将有独特的组织学伪影,苏木精和伊红暴露的强度可能因机构而异,幻灯片的数字化可能导致压缩伪影。已经开发了多种方法来减轻幻灯片之间染色差异的影响。染色归一化是指改变颜色特性,以减少染色效果之间的差异。增强是指在机器学习过程中对单个瓷砖施加的随机变化,以防止对各种特性的过度拟合。

为了提高组织学图像分析的有效性,人们提出了几种方法来消除这些特定部位的标记,主要是通过纠正机构间幻灯片染色的差异来提高组织学图像分析的有效性。26。这包括设计来减少莱因哈德等人提出的图像颜色变化的方法。27,以及Macenko等人专门为组织学设计的方法。28。色彩增强(图1.1),在训练过程中随机改变图像的颜色通道,以防止模型学习特定地点的染色特征,这也被用于组织学深入学习任务中。29,30。对染色规范化和增强技术的评估大多集中在验证集中模型的性能,而不是真正消除可能导致模型偏差的站点特定签名。31,32。在这里,我们描述了tcga中构成站点特定数字组织学特征的位点之间的临床和幻灯片级别的差异,以及通过深入学习图像分析确保可靠地使用内部和外部验证以尽量减少假阳性结果的方法。

结果

TCGA临床及数字图像异质性的表征

重要的临床变量在TCGA各组织提交位点之间存在差异。在此之前,人们已经认识到,许多癌症的结果和存活率因部位而异。33,但更基本的因素取决于提交的组织。我们比较了年龄、祖先、性别、体重指数等基本人口学指标的分布情况和肿瘤特异性因素,如分期和组织学亚型。如果他们提交了至少20张组织幻灯片,网站就会被包括进来进行比较。对于乳腺癌(BRCATCGA队列),所有的人口学特征以及雌激素受体状态(n=969),孕酮受体状态(n=966),HER 2表达式(n=847),PAM 50亚型(n=914),TP 53突变状态(n=1004),免疫亚型(n=1002),3年无进展生存(n=458)34不同队列之间差异显著,错误发现率校正和P < 0.05 (Fig. 2)。我们系统地将此方法应用于其他五种主要的实体肿瘤类型,并证明了对所有被测的肿瘤亚型而言,多个有影响的临床特征因部位的不同而不同--包括ALK鳞状细胞肺癌融合状态(LUSC TCGA队列)n=155)和肺腺癌(LUAD TCGA队列,n人乳头瘤病毒(HPV)在头颈部鳞状细胞癌(HNSC TCGA)中的表达n=332)-P < 0.05 and significant after FDR correction (Supplementary Table 1和补充图。1)。值得注意的是,鉴于人们对发展基于病理学的生存模型的兴趣越来越大,所有癌症患者的分期都会有所不同,除肺癌和大肠腺癌外,3年无进展生存率(Pfs)在所有癌症中都有差异。

图2:在TCGA中有20张或更多幻灯片的地点的乳腺癌的人口统计和肿瘤特征。
figure2

每一行代表TCGA-BRCA患者的人口学、临床或肿瘤特征.进行了x-平方检验,以量化不同地点之间的异质性。P值的错误发现率为0.05。一些特征显示出明显的异质性--例如,只有两个位点(ILSBio和Christian ana)提交患者,大多数患者在3年内出现疾病进展。IGC国际基因组联盟、MSKCC纪念斯隆·凯特林癌症中心、GPCC大波兰癌症中心、EUR欧洲公司、AFR非洲人组织、AMR美洲土著人、IDC浸润性导管癌、ILC浸润性小叶癌。

然后,我们将经典的描述性统计用于图像分析,记录站点间幻灯片图像特征的差异,计算一阶统计量和二阶haralick纹理特征,以便在各个站点之间进行比较。35,36。所有一阶和二阶统计量都显示出根据位点间组织提交点的差异,如方差分析F统计量(图1)。3和补充表2)。在其他癌症亚型的分析中也发现了类似的发现(补充图)。2)。在乳腺癌的滑动水平上应用染色-归一化技术可以改善一些一级特征,但对于所有二阶特征(用F-统计量测量)的不同测量方法仍然大于任何一级特征(图1)。4和补充表2)。值得注意的是,二阶特征角二矩仍然是最不同的图像特征(最高F-统计量),除肺和头颈鳞状细胞癌外,所有类型的肿瘤都有任何形式的染色归一化(补充表)。2和补充图。2).

图3:乳腺癌数字组织学图像特征在TCGA中的变化。
figure3

网站提供至少50张幻灯片(n=607张幻灯片,7个站点),这表明图像变化并不仅仅是一个小站点的函数,而这些站点很少对TCGA做出贡献。a红色、绿色和蓝色的一级特征以各自的颜色显示.b哈拉利克二级纹理特征也因提交网站而异。标准偏差,ASM角秒,GPCC大波兰癌症中心。

图4:Anova F-TCGA乳腺癌组织学一级和二级图像特征的统计量。
figure4

乳腺癌TCGA数据集中组织提交点之间一阶和二阶图像特征的差异(n=14个地点的888张幻灯片)采用方差分析(ANOVA)。方差分析F-统计量用于多种染色归一化方法,F-统计量最低(变异最小),在最右边列显示任何归一化方法。染色归一化不能完全解决一阶染色变异性(F-统计量),而且对二级Haralick特征的影响最小.标准偏差,ASM角秒。

深度学习算法准确识别组织提交站点

为了评估深度学习预测组织提交位点的能力,我们训练了一个基于xception体系结构的深度学习卷积神经网络来预测站点。37。为了评估站点预测的准确性,我们使用了按站点分层的三重交叉验证(图)。5A),计算了接收机工作特性曲线下的单对静止面积(补充表)。2)。这种模型用于预测站点的幻灯片特征可以用umap来说明。38最后一层激活的表示,为每个umap坐标选择具有代表性的幻灯片块-在本例中,为tcga-brca患者演示了苏木精为主的色梯度和以伊红为主的颜色梯度(n=1006,图1。5B)。为了评估染色正常化和颜色增强的能力,以防止对部位的预测,我们在六种癌亚型(补充表)中重复了这个过程,并在瓷砖水平上进行了标准化或增强。3)。在基线时,位置判别是非常精确的,对于透明细胞肾癌(tcga-kirc),在接收器操作特征曲线(Auroc)下的平均面积为0.998。nTCGA-LUSC=508)至0.964(n=463)。作为比较,AUROC用于训练神经网络模型,从补充表中描述的临床特征预测位点。1平均达到0.623,从tcga-lusc的0.511到tcga的0.781(补充表)。4)。染色-归一化技术略微降低了定位预测的准确性,但对所有癌症患者的平均OVR AUROC值均在0.850以上,定位预测仍保持较高的准确性。对于所有被测试的癌症亚型,AUROC的位置预测最大的下降表现在两种灰度归一化的形式之一。为了进一步评价染色归一化对位点模型推断的影响,在Macenko归一化后生成了TCGA-BRCA位点预测的UMAP和马赛克表示法,但没有显示出清晰的颜色梯度(补充图)。4A)。最明显可分离的站点(A7-克里斯蒂安娜保健)在两个地块上都保持不变--这表明要么与污渍相关的细微差异持续存在,要么其独特的数字组织学特征的其他组成部分继续使该网站与其他网站独树一帜。

图5:TCGA患者的部位模型开发和特征预测。

a为了预测组织提交的站点,数据被分成三个部分,每个站点在所有的折叠中都是相同的。然后执行交叉验证,在其中两个数据集上对模型进行培训,并在第三个数据集上评估性能。对于平均性能度量,此过程重复三倍。b用于识别TCGA-BRCA中提交站点的模型最终激活权向量的UMAP表示(n=1006张幻灯片)。左图上的每个点表示单个幻灯片中的质心块。最接近每个UMAP坐标的瓷砖显示在右边,显示出明显的梯度,从显示出优势苏木精染色的瓷砖到那些显示优势的伊红。c我们评估将组织提交站点的幻灯片包括在培训和验证集中对各种临床、基因组和人口学特征的预测的影响,使用两种方法生成折叠以进行交叉验证。首先,我们将数据分成三个部分,根据感兴趣的特征进行分层,而不考虑站点。对于一个比较器,我们将数据分成三个部分,其中每个站点被分离成一个单一的折叠,第二个目标是平衡每个折叠中特征的比率。

定点数字组织学特征的人工模拟

如前所述,数字组织学中存在着各种特定位点特征的原因(图1)。1)这可能有助于对提交幻灯片的组织进行高度准确的检测。为了更好地描述生物因素(如种群间的真实差异)与批处理效应(即组织学图像之间的非生物差异)之间的关系,我们设计了一个位点特异性特征的模拟,使用来自匹兹堡大学的患者,这是tcga-brca队列的最大贡献者(n=115 ER-阳性,n=23 ER-阴性)。选择了一个单一的站点,因为从理论上讲,这将尽量减少由于站点相关的样品采购、染色或数字化的差异而产生的任何批处理效果。我们评估了深度学习模型从69名患者队列中识别23张随机幻灯片的能力,同时介绍了生物联合创建者(ER状态)和与染色相关的联合创建者(代表两个不同的站点特定签名贡献者)。ER状态被选择作为生物联合创建者,因为它可以从组织学中检测到,匹兹堡大学的数据集有合理数量的阳性和阴性样本。我们改变了23张目标幻灯片的ER阴性度,从0%到100%,而其余的幻灯片被维持为ER阳性(补充图)。5和补充表5)。同样,我们对0%-100%的目标幻灯片应用了人工染色伪影,而其余的幻灯片没有受到影响。当目标特征变得更强的ER-负时,目标特征预测的准确性会单调地提高,但随着染色伪影应用于更多的幻灯片,这一关系不再成立。此外,染色-归一化技术并没有消除人工染色伪影的影响,当100%的靶片有染色伪影时,AUROC从1.00减少到最低0.934。基线的准确性和灰度归一化的减少反映了现场预测所见的AUROC的范围,进一步表明批量效应,而不是生物亚群体的差异,是深度学习模型高精度的站点预测的主要原因。

保存.现场交叉验证.二次规划解

当然,如果深度学习模型能够根据幻灯片染色模式和幻灯片获取技术之间的非生物差异来区分位点,那么用于预测某些临床变量的模型就可以学习染色可变性或其他特定部位的特征。这类似于哈士奇和沃尔夫之间的问题,在这种情况下,深度学习模型可以区分这两只狗的图片,因为更多的狼出现在雪地中,而不是两种动物之间的身体差异,从而导致潜在的外部有效性不足。39。如果真正的生物亚群体差异(而不是批处理效应)与感兴趣的结果相关,但只有在特定的地点才会出现类似的问题。为了评估深度学习模型的准确性对特定地点数字组织学特征的依赖性,我们建议使用两种不同的交叉验证方法比较训练的模型以评估感兴趣的特征(图1)。5C)。我们可以通过确保站点被隔离到单个数据折叠或保存站点交叉验证来纠正有偏见的结果。然而,如果将数据集中的提交站点随机分成大小相等的组进行交叉验证,则可能在这些组中不均衡地表示感兴趣的特性,从而导致对准确性的有偏见的估计。40。最优分层k-交叉验证,同时将每个站点隔离给个人。k-折叠可以通过凸优化/二次规划来实现。41。换句话说,可以构造一个优化问题,其目标是在每个折叠之间均衡具有/没有感兴趣特征的患者的比例。我们将这种交叉验证方法应用于图中列出的所有结果。2和补充表1。值得注意的是,我们保存的站点交叉验证方法在55%(32/58)的测试结果中产生了完美的分层(所有子组的分布与标准交叉验证相同)(补充表)。6)。有意义的不平衡,在12%(7/58)的结果中,患者的分布与完美分层之间的差异超过10%。所有这些有意义的不平衡都发生在TCGA-COADREAD数据集中,在该数据集中,对患者有贡献的站点数量较少。

定点数字组织学特征对深度学习模型性能的影响

为了进一步描述特定位点特征对深度学习模型性能的影响,我们使用标准和保存的现场交叉验证训练了卷积神经网络模型,以便使用补充表中突出显示的数据集分割来预测先前描述的六种癌症亚型的人口、临床和基因组结果。6。在评估的58个特征中,标准与保存地交叉验证之间的平均下降幅度为0.069(范围:−0.042~0.291)。我们使用片面的方法评估哪些模型的性能显著下降。t-试验,并再次使用染色-正常化和增强技术,使用0.05的FDR进行显着性检验。在标准交叉验证可预测的56个特征中,有51个(91.1%)AUROC与保存点交叉验证的AUROC下降,20个(35.7%)不再显着地被检测到(图一)。6A和补充表78)。类似比例的可预测特征AUROC与其他染色正常化/增强方法相比有所下降,灰度范围为84.6%(图1)。6BHSV增高者占89.1%。有趣的是,保存的地点交叉验证不能被准确检测的特征的百分比随着归一化/增强而略有下降,从Macenko正常化的17.5%到Reinhard正常化的26.8%不等。

图6:特定位点数字组织学特征对深度学习模型准确性和偏倚的影响。

a不同临床、基因组和人口特征的标准和保存地点交叉验证的AUROC的平均差异分布(n在TCGA中显示了六种癌症亚型的特征=58(未进行标准化/增强的基线模型的图示)。Auroc的下降对一些特征具有统计学意义(单边t检验,如y轴与错误发现校正,如补充表所述7)的特征子集。增加了抖动以便于可视化,但保留了单个发现的重要性/不显着性。b同样的图也提供了灰度染色调整图(其中AUROC的变化最小)。c芝加哥大学数据集中欧洲血统和非洲血统的假阳性预测(在瓷砖水平上测量),n=20名患者的2206块瓷砖,其中17块为非洲血统,3块为欧洲血统),供标准和保存地点交叉验证的模型使用。提供的条形图说明了比例(例如,错误预测的欧洲瓷砖数除以预计的欧洲瓷砖总数),误差条表示比例的估计标准差。PFS无进展生存,HSV色相饱和值。

关于人口特征,基因组祖先的精确性42随着一些疾病亚型的保存-站点交叉验证,预测急剧下降,而不管是否进行规范化/增强,包括TCGA-BRCA(n=905,AUROC 0.798对保存地点AUROC为0.507,P < 0.001), TCGA-COADREAD (n=483,澳大利亚货币联盟委员会0.883对0.795,P < 0.001), and TCGA-LUSC (n=422,澳大利亚货币联盟委员会0.789对0.504,P < 0.001). Accuracy of age prediction in the TCGA-COADREAD cohort also declined with preserved-site validation (n=541,澳大利亚货币联盟委员会0.605对0.479,P < 0.001), as did stage prediction in both lung cancer cohorts (TCGA-LUSC n=474,澳大利亚货币联盟委员会0.537对0.466,P < 0.001; TCGA-LUAD n=468,AUROC 0.599对0.521,P < 0.001). As one might expect—these demographic features are often as strongly indicative of disease outcome as pure biologic factors—and outcome prediction demonstrated a significant impact of site-specific signatures in multiple disease cohorts. Performance declined significantly for prediction of 3-year PFS in the TCGA-LUSC (n=227,澳大利亚货币联盟委员会0.589对0.485,P < 0.001) and TCGA-HNSC (n=272个,AUROC 0.614对0.548)队列。

保存现场交叉验证对标准组织学特征的检测影响较小,与预测TCGA-BRCA中HER 2状态和TCGA-hNSC分级无差异。其他组织学特征在很大程度上不受保存地点交叉验证(AUROC)的影响,其中包括预测TCGA-BRCA的小叶组织学和导管组织学,预测TCGA-BRCA中雌激素和孕酮受体的状态,以及预测TCGA-KIRC的分级。然而,TCGA-COADREAD的黏液组织学预测在基线时随着保存地交叉验证而下降(n=578,AUROC 0.788对0.712,P < 0.001) and with all forms of normalization/augmentation. Nonetheless, this decline was not dramatic and mucinous histology remained detectable with preserved-site cross-validation.

人们对利用深度学习直接从组织学中检测非直观的特征越来越感兴趣,包括我们先前描述的直接从组织学中检测基因驱动突变的工作。16-提出的问题是,TCGA中某些特征的准确预测是否是由于对位点特异性特征的识别,而不是由这些突变驱动的组织学特征。我们分析了先前工作中准确预测到的驱动突变的一个子集,发现大多数不受/最小影响的是保存的位点交叉验证,包括TCGA-BRCA中的TP 53和MAP3K1,TCGA-COADREAD中的BRAF,TCGA-hNSC中的TP 53,TCGA-LUAD中的STK 11和TP 53。然而,一些突变已不再被准确检测,包括TCGA-LUSC中的PIK3R1(n=458,澳大利亚货币联盟委员会0.614对0.386,P < 0.001), RHOA in TCGA-HNSC (n=443,AUROC 0.733对0.470,P < 0.001), and RNF43 in TCGA-COADREAD (n=556,0.688对0.494,P < 0.001). The detection of other genomic features was also dependent on site-specific signatures, including ALK fusion detection in lung cancer (TCGA-LUSC n=270,澳大利亚货币联盟委员会0.678对0.404,P < 0.001; TCGA-LUAD n=231,AUROC 0.637对0.417,P < 0.001) and immune subtype34分析了一半癌症的检测结果。

为了进一步探讨为什么某些特征的准确性下降,我们制作了一个由TCGA-BRCA中的两个特征组成的UMAP和马赛克地图:(1)祖先,它与地点相关,精确度大幅下降(补充图)。4B);(2)BRCA突变状态,与位点相关性差,与保存位点交叉验证(补充图)仍可检测到。4C)。虽然最容易识别的位点(A7,Christian ana Healthcare)在这两种情况下都聚在一起,但它并不像BRCAUMAP中的其他站点那么明显地分开,而且相对于祖先预测,BRCA的颜色梯度也不那么清晰。这表明,在BRCA突变状态的决策中,特定位点的组织学模式的权重较小,而它们可能有助于预测祖先,通过保存的地点交叉验证导致显著的下降。

我们可以进一步证明,模型是加权独特的组织学模式的个别地点作出预测,通过评估模型的表现,在特定的地点,病人的人口统计学不匹配的整体数据(补充图)。6)。我们以芝加哥大学(UniversityofChicago)为TCGA-BRCA提交的幻灯片为例,TCA-BRCA是非洲裔患者占大多数样本的唯一地点。我们假设基因组非洲血统的预测是假阳性的。42标准交叉验证比保存地交叉验证要高得多,例如,具有标准交叉验证的模型可能会发现芝加哥大学的染色模式与高比例的非洲裔美国人血统有关。对于在验证数据折叠中的病人,对非洲血统的假阳性预测(在瓷砖水平上测量),n=2206瓦片,20名患者,17名非洲血统,3名欧洲血统)标准交叉验证与保存地交叉验证相比,显着高于保存地交叉验证(图1)。6B和补充表9)。换句话说,tcga中的标准交叉验证不准确地将欧洲患者从一个具有主要非洲血统的地点分类,因为这一决定很可能与这个多站点存储库中的非生物站点特定签名有关。

讨论

我们已经证明,在跨多种癌症类型的tcga中存在特定于站点的数字组织学特征,并且对深度学习模型检测站点的容易程度的控制不够,导致对准确性的有偏见的估计。虽然染色归一化可以消除一些明显的变化,增强可以掩盖颜色的差异,但是二阶图像特征不受这些方法的影响,而且染色归一化不能解决深度学习模型准确识别组织提交站点的能力。当用保存地点验证预测人口、临床和遗传特征时,尽管在大多数病例中对感兴趣的特征进行了完美的分层,但准确性仍然持续下降。其作用范围对于大多数特征来说都是小的,而对于大多数有明确组织学基础的特征,如肿瘤的组织学、亚型和分级,则不存在。相反,我们证明,预测其他临床相关的特征,如鳞状肺癌和头颈癌的无进展生存率,以及基因组特征,如某些驱动突变、ALK融合状态和某些癌症的免疫基因表达,都是由特定位点的特征显著驱动的--尽管存在任何形式的正常化/增强。

人口学特征有一个不那么直截了当的组织学基础,但这不是不合理的期望,有些可以从组织学中发现。例如,在乳腺癌中,年轻年龄与高级别肿瘤相关,老年与小叶组织学相关。43。种族和组织学之间的一种明确的生物学联系已经在乳腺癌中被证明了--肿瘤分级更高,三重阴性受体状态更频繁,以及在全基因组范围的非裔美国乳腺癌的关联研究中反复出现的遗传差异。44,45,46,47。然而,我们已经证明,在诸如tcga这样的多站点存储库上训练的深度学习模型,可能基于提交站点的组织学特征,而不是内在的肿瘤生物学,当这些特定站点的特征与感兴趣的结果相关时。由于医院集水区的不同,基因组祖先等人口学特征因地点不同而有很大差异,可能特别容易受到这种偏见的影响。这一点可以从以下事实中得到证明:在tcga-brca中,标准的但不保留的位点交叉验证是可预测的,而且对于大多数癌症亚型的保留位点交叉验证,祖先的预测准确性显著下降。这给深度学习组织学模型的实施带来了一个具有挑战性的伦理困境。有大量文献表明,非洲裔乳腺癌患者预后较差,不能完全按照分期和受体亚型来解释。48,49。影响因素可能包括治疗延迟和治疗强度不足。50需要更多的研究来发现导致预后差异的生物和非生物因素。由于深度学习模型能够从特定地点的签名中推断出患者的祖先,因此模型必须以公平的方式仔细实施,以避免重述癌症护理中先前存在的不平等现象。51。进一步的研究,在单一地点的储存库,或储存库,其中的组织被染色和数字化在一个单一的中心,可以促进更准确的人口因素建模与深入学习。

当为大量特征开发预测组织学模型时,对每个发现的外部验证可能是不实际的/不可行的。此外,对于罕见的癌症亚型,可能还没有足够的外部验证数据集。因此,多项研究使用TCGA对模型进行了培训和验证,没有外部验证,也没有对某些癌症类型进行部分验证。这些研究包括多种癌症类型的基因突变预测。16,17,25透明细胞肾癌分级预测52,乳腺癌分子亚型的预测53,基因表达的预测13,或组织学与预后的相关性25,54。对于开发严格的tcga组织学模型来说,生存结果尤其具有挑战性,而且模型的表现可能会被错误地提升,这不仅是由于不同地点的不同结果,而且也是由于与生存相关的关键因素(如分期和年龄)的站点级别的差异。胶质母细胞瘤生存与复发的组织学鉴别研究52,54、肾细胞癌52,和肺癌55因此,缺乏外部验证队列的TCGA患者可能对结果有偏见的估计。对生存的预测也可能受到这种偏见的影响。56即使在纠正年龄、阶段和性别时,其他因网站而异的因素也会对结果产生影响,从入学者的种族到学术中心和社区中心提供的治疗。鉴于tcga中不同位置的传统图像和纹理特征不同,预测传统图像分析特征结果的非深度学习预后研究可能会受到类似偏见的影响。57。虽然没有外部验证的预后模型必须仔细检查,但许多研究表明,在结直肠癌等癌症的外部数据集中,深度学习预后模型可以保持良好的性能。58,59间皮瘤60。当然,一些最初在tga中测试的模型在没有保存位置交叉验证的情况下,在外部验证队列中保持了准确的预测,例如预测微卫星不稳定或结肠癌中brf突变。11,16。值得注意的是,在我们的研究中,保存的站点交叉验证表明,BRAF状态和MSI状态仍然可以检测到,并且大多数形式的正常化都没有明显的下降。然而,为预测其他几个驾驶员突变而开发的模型在性能上出现了显著的下降/不再被检测到。同样,在Fu等人的一项研究中,在tcga-brca可预测的基因改变中,有0-32%在两个外部队列中不再被检测到。25。必须指出的是,在本研究中评估的一些基因组改变的流行率是罕见的,因此他们可能更容易受到预测准确性的变化仅仅是由于随机机会,而不是来自特定地点的数字组织学特征。尽管如此,保存的站点交叉验证可以作为一种工具,在大量额外的资源投入之前确定哪些功能不太可能通过外部验证的测试。

我们推荐了一系列的最佳实践,以深入学习研究组织学使用TCGA或其他合并数据集的多个医院网站。首先,有关结果的变化应在包括的地点之间报告。这将允许评估网站特定签名对准确性的潜在影响。此外,关于培训和测试站点结果分布的知识可以对模型性能进行准确的评估,因为auroc是严重不平衡的数据集的一个信息不全的标记,在该数据集中,精确召回曲线可以提供更多的信息。61。即使性能经得起外部验证的检验,模型也可能保留从机构染色模式中学到的偏差。因此,如果各地点感兴趣的结果差别很大,则在实施前可能需要在个别机构进行进一步的验证。

如果在多个站点的存储库中发现不同的结果,则不应该对来自同一贡献站点的患者进行模型的培训和评估。正如我们所演示的,包括在验证和培训数据集中的一个站点导致了对准确性的有偏见的估计。任何人工智能的尝试和真正的黄金标准都是外部验证,这也确保了不仅站点级,而且数据集级的数字组织学签名都不会驱动模型的性能。62。然而,缺乏充足的外部验证数据集,因此,在今后的研究和调查中花费大量时间之前,必须在早期阶段准确评估模型的前景。我们建议使用凸优化/二次规划,如本研究所示,来识别站点的分裂,以使感兴趣的特征的最优分层。通过在优化之前将感兴趣的特征分层为有意义的子群或四分位数,这也可以应用于线性特征。

最后,在外部验证和实现中,仍然需要使用染色归一化和色彩增强技术来提高模型的准确性。虽然标准化和增强并不能阻止模型学习站点特有的特性,但有几项研究报告说,使用这种技术可以提高验证的准确性。31,32。这些技术很可能消除了深度学习模型对染色差异的一些依赖,但不是全部;通过使幻灯片特征的差异更加微妙,模型可能更有可能发现与生物相关的因素。在我们的研究中,Macenko染色正常化保持了最大比例的特征,仍然可以通过保存的地点交叉验证。然而,消除这些偏差的最佳增强/归一化方法因数据集/感兴趣的特征而异。灰度归一化的形式可以更好地消除污点和位置检测,但可能会丢弃一些相关的生物信息,并可能影响预测的准确性。63。同样,虽然试图将从灰度共生矩阵导出的二阶图像特征标准化可能会使站点更难以区分,但这些特征与内在的肿瘤生物学密切相关,必须保留下来以供深入学习应用。64.

我们的发现并非没有限制。在本文中,我们使用经典的图像分析技术对tcga中的像素级特征进行了全面的描述,但是其他因素可能会导致站点间的差异。其他高阶图像特征可能会导致站点级的差异,如Gabor、小波包和多小波特征。24。然而,对所有描述的纹理特征进行广泛的表征并不一定要证明站点特定的数字组织学特征的存在及其对模型性能的影响。

我们的方法,产生保存的地点交叉褶皱成功分层的结果,对大多数检查的特征,但有一些显著的异常值在TCGA-COADREAD数据集中。例如,TCGA-COADREAD的黏液组织学分层并不完美,可能导致保存地交叉验证所见的黏液组织学预测准确性略有下降。其他特征,如微卫星不稳定性(MSI)也很糟糕--在MSI状态下,一个验证折叠包含四分之三的可用患者,因为一个组织贡献了大多数已知MSI状态的样本。然而,对于msi状态,当用保存的站点交叉验证进行测试时,较差的分层并不会显着地影响性能,这与msi状态具有良好的组织学基础这一事实是一致的。10。这一限制不适用于大多数被评估的功能,而且保存的站点交叉验证可能适用于大多数多站点组织学存储库。

AUROC分析提出了多种评估统计意义的方法,包括DeLong等人的开创性工作。65。然而,使用DeLong方法对预测集合的应用未能捕捉到在使用不同数据子集进行训练时所看到的预测精度的差异,而且也不能扩展到诸如我们用于提交站点和阶段预测的那些多物理模型。汉利和麦克尼尔的引导66也被高度利用,但是在我们的初步分析中,我们计划在没有引导的情况下评估模型的性能。随着我们计划分析的特征数量的增加,我们更新了我们的分析计划,使我们的分析计划包括了所描述的引导,以便通过错误发现校正对重要性进行合理的估计,并反映我们小组先前在基因组特征检测方面的工作方法,以便更好地与这些结果进行比较。16.

我们的研究集中在对滑动染色差异的校正和分析,这仅仅是tcga中所看到的位点特异性特征的潜在贡献者之一(如图所示)。1)。在保存的现场交叉验证中所看到的一些性能下降可能也是由于标本处理、幻灯片扫描或报名地点之间的亚群体差异造成的。例如,其他研究认为jpeg质量对tcga中的分类任务有很强的混淆作用。25。我们试图通过在我们的深度学习模型中按固定像素与μm比采样幻灯片来最小化分辨率对我们发现结果的影响,但我们没有直接评估深度学习模型检测压缩的能力。我们的一些发现支持滑动染色差异作为TCGA位点特异性特征的主要病因。首先,在TCGA-BRCA中,最后一层激活的UMAP用于站点预测以及其他高度受影响的特征,它强调了一个向嗜酸细胞梯度的天青梯度(图1)。5B)。这表明染色变异是预测这些特征最重要的鉴别因素之一,尽管染色模式与JPEG压缩伪影之间可能存在混淆。即使是基本的一级成像特征,如平均红,绿,蓝值在不同地点与所有染色归一化方法显着不同(图)。4),说明染色差异可能仍在位点间的分化中起一定作用。尽管如此,二阶图像特征的变化比这些一级特征变化更大,进一步研究染色的影响、幻灯片扫描仪的选择以及采样获取方法对图像特性的影响可以进一步阐明这些差异的驱动因素。当改变一组靶片中的亚群体差异(ER状态)和幻灯片染色时,幻灯片染色异常的影响显然占主导地位,并减少了生物差异对准确性的影响(补充图)。5)。因此,当有显着的幻灯片染色差异存在时(如图所示)。5B),生物差异的影响很可能是最小的。此外,人工染色偏移的下降模式反映了用于现场检测的染色归一化(补充表)。3),提示使用染色归一化并不能消除染色差异的影响。虽然保存地验证的性能下降的原因是有争议的,但当存在站点特定的染色、扫描、样本处理或亚群体差异时,保存-站点交叉验证可能会为外部数据集的性能提供有价值的洞察。然而,必须注意的是,保存的地点交叉验证有可能否定组织学和感兴趣的特征之间真正的生物联系,如果这些关联只存在于一个单一的地点。我们也只选择了一组建议的染色校正方法,但还有其他方法可以进一步降低染色的内部可变性。已经提出了一种非监督学习方法来规范污点,但在测试数据集中没有超过增强效果。31。对抗性网络也允许模型来避免学习数据集的不良特性。67.

总之,我们已经证明,数字组织学在tcga中带有一个多因素位点特异性的特征,这是组织提交网站的特点。这个特征可以很容易地被深入学习的模型识别出来,并且如果在训练和验证数据集中包含了多个站点,则会导致对模型准确性的高估。我们已经证明,这种位点特异性的特征可以导致出现准确的预测的临床发现,从无进展生存,基因表达,基因突变和祖先标准交叉验证。应注意说明各站点之间感兴趣的结果的分布情况,如果有重大意义,应将提交网站与用于培训或测试模型的群体隔离开来。二次规划方法可以保持最佳分层,同时仍然将提交站点隔离到培训或验证数据集。


武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297