您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!2008-2022
Wuhan Xinqidi Biotech Co.Ltd
本企业通过iso9001质量体系认证

使用机器学习的多模态数据整合改善高级别浆液性卵巢癌的风险分层

 二维码
发表时间:2022-07-01 11:11作者:武汉新启迪Xinqidibio

摘要

高级别浆液性卵巢癌患者预后不良,对治疗的反应不一。这种疾病的已知预后因素包括同源重组缺陷状态、年龄、病理阶段和肿瘤切除手术后的残留疾病状态。最近的工作强调了在计算机断层扫描和组织病理学标本中捕获的重要预后信息,这些信息可以通过机器学习来利用。然而,很少有人知道组合这些不同来源的特征来改善治疗反应预测的能力。在这里,我们收集了444例晚期高级别浆液性卵巢癌患者的多模态数据集,并发现了与预后相关的定量特征,如苏木精-伊红染色的肿瘤细胞核大小和增强计算机断层扫描的网膜纹理。我们发现这些特征相互之间以及与临床遗传学特征之间提供了互补的预后信息。通过融合组织病理学、放射学和临床基因组机器学习模型,我们展示了一条通过多模态数据整合改善癌症患者风险分层的有前途的道路。

主要的

高级别浆液性卵巢癌(HGSOC)是妇科恶性肿瘤最常见的死亡原因,转移性疾病的5年生存率低于30%1。最初的临床治疗依赖于初次减瘤手术(PDS)或新辅助化疗后间隔减瘤手术(NACT-IDS)。内源性突变过程是临床过程的一个确定的决定因素,同源重组缺陷(HRD)疾病对铂类化疗和聚ADP核糖聚合酶(PARP)抑制剂的反应改善2,3,4。整合了点突变和结构变异模式的更细致的基因组分析进一步将这种分层细化为四种具有生物学和预后意义的亚型5,6包括HRD的不同亚组、返折倒位丰富的肿瘤和那些明显增加大串联重复的肿瘤。除了基因组因素,临床指标如患者年龄、病理分期和肿瘤切除手术后的残留疾病(RD)状态也是预后因素7。然而,仅仅这些临床遗传因素不足以解释临床结果的异质性。识别对标准治疗反应差的患者仍然是一个关键的未满足的需求。改进的风险分层模型将有助于妇科肿瘤学家选择初级治疗,规划监测频率,做出维持治疗的决定,并就研究药物的临床试验向患者提供咨询。

除了临床遗传学特征,在护理过程中还会常规采集多尺度临床影像,包括介观尺度的对比增强计算机断层扫描(CE-CT)和显微镜尺度的苏木精-伊红染色载玻片。这些诊断的数字形式提供了开发计算模型的机会,并测试整合这些数据模式是否能改善对高胆固醇血症风险群体的识别8。在中观水平,最近的放射学研究揭示了定量的CE-CT特征,这些特征可以预测肝细胞癌的早期进展、复发时间和总生存期9,10,11。迄今为止,大多数研究都分析了附件病变的预后信息9,12,13或者疾病的全部负担14,15,16并且可变地使用来自成像生物标记标准化倡议的深度学习或凭经验可再现的放射特征17;然而,即使大网膜植入物在晚期疾病中普遍存在,基于大网膜病变的放射预后模型尚未开发。这种模型将是有利的,因为即使对于经验较少的观察者来说,描绘网膜植入物也是可能的,并且它将减轻对疾病总负担的高度挑战性和耗时的分割的需要。

在显微镜下,H&E染色的组织活检能够进行病理诊断,通常在治疗开始前采集。HGSOC的定量组织病理学研究确定了与突变亚型相关的H&E载玻片上的免疫浸润模式5。在其他癌症类型中,对全切片图像(WSIs)的研究提高了我们使用深部成像技术量化肿瘤组织病理学结构的能力18,19和可解释的20,21特色。除了阶段,HGSOC缺乏独立的治疗前病理因素来对患者进行分层7因此,定量方法为系统地开发超出定性人类解释的比例模型提供了机会。可解释的特征不容易在小群体中过度拟合,并且可以更容易地被人类病理学家询问20,22.

从概念上讲,基因组测序没有考虑空间背景,因此我们假设多尺度成像包含互补信息8,而不仅仅是概述基因组预测。通过组合来自多个常规数据源的信息,临床多模态机器学习优于单峰系统的潜力进一步激励了我们。在这项工作中,我们开始研究多模态特征的互补预后信息,这些信息来源于HGSOC患者常规诊断检查期间获得的临床、基因组、组织病理学和放射学数据(图。1a).我们测试了从CE-CT获得的卵巢和网膜放射特征的预后相关性,并开发了一个基于网膜特征的模型(图。1b)和基于治疗前组织样本的组织病理学模型对患者进行风险分层(图。1c).该模型在一个测试队列中得到验证,并与临床和基因组信息相结合(图。1d)使用晚期融合多模态统计框架(图。1e).我们的结果揭示了跨通道整合的经验优势,并证明了多通道机器学习模型改善高胆固醇血症患者风险分层的能力。

图1:研究的概要。
figure 1

ad通过常规诊断获得多种数据形态,以告知临床决策(a):腹部和骨盆的治疗前CE-CT扫描(b)、治疗前H&E染色诊断活检(c)和从基于杂交捕获的靶向测序或临床HRD-DDR基因面板推断的HRD状态(d). e通过晚期融合进行综合多模态分析,根据总生存率对患者进行分层。和BioRender.com一起创作的。灰度大小区域矩阵小区域强调;GLRLM-GLV,灰度游程矩阵灰度方差;Var,方差;Nuc,核;NGS,下一代测序;LSTs,大规模状态转换;NtAI,等位基因不平衡延伸到端粒的亚染色体区域的数目;杂合性缺失。

源数据

结果

队列和临床特征

我们分析了444例HGSOC患者,包括在纪念斯隆-凯特琳癌症中心(MSKCC)接受治疗的296例患者和来自癌症基因组图谱卵巢癌(TCGA-OV)数据的148例患者。这40个测试案例是从全部患者中随机抽取的,所有数据模式都可供分析;其余404名患者的数据用于训练。训练集包含160名IV期疾病患者、225名III期患者、10名II期患者、8名I期患者和1名未知期患者(补充表1).测试队列包括31名IV期患者和9名III期患者23。训练组的诊断年龄中位数为63岁(四分位数范围(IQR)55-71岁),测试组为66岁(IQR 59-70岁)。在培训队列中,175名患者接受了NACT-IDS,其余82名患者接受了PDS。在试验队列中,31人接受了NACT-IDS,8人接受了PDS。总体而言,已知有61名来自MSKCC的患者接受了PARP抑制剂(补充表1).148名TCGA患者的治疗方案没有注释。训练组患者的中位总生存期(OS)为38.7个月(IQR 25-55岁),测试组患者为37.6个月(IQR 26-49岁)。有132名训练患者和17名测试患者的OS结果被删截(补充表2).

在培训队列的404名患者中,243名患者患有H&E WSIs,245名患者在治疗前CE-CT检查中发现附件病变,251名患者在治疗前CE-CT检查中发现网膜植入物(图。2a).测试队列中的所有40名患者在CE-CT、H&E WSIs和可用的序列构建中均有网膜病变;29例CE-CT显示卵巢病变。三位妇科放射科医师在包含附件病变和代表性网膜病变的所有切片上对这些病变进行体积分割(扩展数据图。1a).训练和测试数据是用类似的CT扫描仪获得的(扩展数据图。1b).

图2:获得的群组和数据类型的概述。
figure 2

a,训练队列中具有可用临床成像和推断的HRD状态的患者的文氏图。b推断的亚型、测序形式、来源数据集、具有五个或更多变体的基因和每个患者的签名3状态。灰色代表没有显示畸变的测序基因,白色代表未测序的基因。c,Kaplan-Meier对按人力资源开发状况分层的OS的分析(n= 377名患者)。P使用对数秩检验计算数值。签名。,突变签名;SNV,单核苷酸变异;安培。,拷贝数扩增;韦斯,全外显子组测序。

源数据

我们使用了临床测序24推断HRD状态,特别是与HRD DNA损伤反应(DDR)相关的基因变异25,26诸如BRCA1BRCA2以及那些特异于分离串联重复和返送倒位丰富的突变亚型(CDK12CCNE1(参考文献。5,27),分别为;无花果。1d2b,c).我们还检查了130名经适当同意的患者的基因组,以寻找同源重组缺陷的直接证据,即与缺陷型HRD-DDR相关的宇宙单碱基置换信号3。在MSKCC患者的这个亚组中,SigMA检测到信号328在48个案例中具有高置信度,在30个案例中被检测到具有低置信度,并且在52个案例中被发现不是主要特征(扩展数据图。2b).在TCGA,签名3在6个案例中是高的,在51个案例中是低的(扩展数据图)。2c).具有可用测序且没有HRD或同源重组熟练程度证据的患者(HRPn= 126)被视为HRP。证据相互矛盾的患者(n= 6)或没有排序(n= 61)被赋予“不明确”的标签,并从所有涉及HRD状态的分析中排除。总的来说,训练队列包含218例HRP和119例HRD病例(图。2c).测试集包含12个HRD和28个HRP案例。仅HRD状态(不包括不明确的)通过OS对患者进行分层,其c指数在训练队列中为0.55,在测试组中为0.52(没有拟合任何模型参数;扩展数据图。2d,e).特异于不同内源性突变过程的异常也如预期地将患者分层:HRP疾病患者的预后比HRD疾病患者更差(P= 7 × 10−3;扩展数据图。2g,I).

CE-CT成像特征选择和分层

我们开始研究从我们机构获得的放射学扫描特征的预后相关性(91;27%)使用GE医疗系统CT扫描仪或在外部机构获得(247;73%)来自各种CT扫描仪(扩展数据图。1和补充表格3).大多数CE-CT扫描是在峰值千伏电压为120(中值120千伏,范围:90–140;补充表格3)并使用5 mm切片厚度(中值5mm;范围2.5–7.5;补充表格3).在每次治疗前的CE-CT扫描中,三名训练有素的妇科肿瘤成像专家手动分割所有附件肿块和代表性的网膜植入物(图。1b3a).

图3:高自相关的网膜植入物与较短的OS相关。
figure 3

a,CE-CT上的分段网膜病变(红色)。b对于从网膜植入物得到的每个放射特征,描绘了log HR(n= 600个特征)。在对四分位间距筛选特征进行多重测试校正后,Cox回归分析显示高于该线的特征具有统计学意义。c附件放射特征(n= 600个特征)在校正四分位间距过滤特征后,通过Cox回归没有显著性。d对于最终模型中的特征,示出了通过Cox回归估计的具有95% CI的风险比,即从小波滤波图像的灰度级共生矩阵导出的自相关。e,针对训练集中的患者绘制该特征相对于OS的值(n= 251名患者)。f,显示了模型的训练和测试一致性指数;每个柱的高度显示了c指数,相应误差柱的下点和上点描绘了100倍留一自举的95% CI。g,h,为训练集和测试集显示了基于模型预测风险分数的两个风险组。P使用对数秩检验得出数值。灰度共生矩阵;gldm,灰度依赖矩阵;灰度游程矩阵;glszm,灰度大小区域矩阵;相邻灰度差矩阵。

源数据

我们从Coif小波变换图像中提取放射特征,经四分位间距过滤后,得到每位患者每个部位的444维放射向量。使用训练队列,我们使用单变量Cox比例风险模型计算了网膜和卵巢放射特征的风险比(HRs)和预后意义(补充表4)9。多重假设检验校正后,九个网膜特征(图。3b)并且没有一个卵巢特征表现出统计学上显著的HRs(图。3c).因此,接下来,我们只考虑网膜植入物。我们对9个网膜特征(算法1)的多变量显著性进行迭代拟合和修剪Cox模型,产生一个基于灰度共生矩阵自相关的单变量模型,该矩阵来自高-低-低(HLL) Coif小波变换29图像(图三维(three dimension的缩写)).该特征表现出1.68的对数(HR)(校正后P < 0.01; Fig. 3e)并且对于CT扫描仪制造商和分割放射科医师是不变的(扩展数据图。3).该模型对训练集和测试集中的患者进行了分层,一致性指数分别为0.55 (95%可信区间为0.549-0.554)和0.53 (95%可信区间为0.517-0.547)。3f).Kaplan-Meier对高风险组和低风险组(由推断风险决定)的分析显示,通过对数秩检验,总体生存率存在统计学差异(P < 0.01) in the training set (Fig. 3g),中位生存期分别为44和57个月,但不在测试组中,中位生存期分别为38和47个月(图。3h).

用于可解释特征的组织病理学组织类型分类器

接下来,我们使用弱监督方法从组织学图像中训练组织类型分类器。我们在60个H&E WSIs上标注了组织类型,产生了超过140万个部分重叠的图块,每个图块的尺寸为128 × 128像素(64 × 64 m ),包含4096m2组织(图4a).在ImageNet上预训练的ResNet-18卷积神经网络(图。4b)对标记为脂肪、基质、坏死和肿瘤的病理学家注释区域的组织类型进行分类,准确度为0.88(范围0.77-0.95)(图。4c)通过四次滑动式交叉验证。值得注意的是,该模型正确地识别了基质注释内的小脂肪区域和肿瘤内的坏死区域,支持弱监督深度学习对于该任务的适用性,并将注释细化为更细粒度的分类。

图4:弱监督深度学习在H&E上精确推断HGSOC组织类型。
figure 4

a使用随机选择的马森科方法标准化的带注释的图块。显示了每种组织类型的切片数量。b使用注释区域训练的ResNet-18模型的工作流程。c,模型对注释区域的预测示例。d对于每个组织类别,混淆矩阵通过交叉验证的折叠进行聚合。

源数据

跨折叠聚合的交叉验证混淆矩阵显示整体性能良好(图。4d),最明显的混淆是预测为肿瘤和间质的坏死瓦片。然而,弱监督学习的一个缺点是,无论是训练数据还是验证数据都没有被准确标记。因此,交叉验证指标不是根据确切的事实计算的。对预测结果的目视检查在质量上是一致的,仅有中度的坏死与肿瘤和间质的混淆(扩展数据图。4).

组织病理学分层

我们将组织类型分类器应用于来自治疗前标本的243个损伤的训练H & E WSIs(图。1c).我们将这些推断的组织类型图与检测到的细胞核结合,产生标记的细胞核(图。5a).随后,我们基于Diao等人的方法从这些细胞核中提取细胞类型特征,并从组织类型图中提取组织类型特征。20。这产生了216个特征的组织病理学向量。接下来,我们在训练队列中使用幻灯片上拟合的单变量Cox模型来确定特征的HR。几个组织类型特征,如肿瘤总面积,部分由样本大小决定,因此我们在选择时对此进行了控制。在95%置信水平下,发现log(HR)与0显著不同的24个特征中,20个与肿瘤细胞核直径或大小相关,较大的与较短的OS相关(扩展数据图。5和补充表格5).我们再次按照算法1迭代拟合和修剪Cox模型,得到一个具有两个特征的多变量模型:平均肿瘤细胞核面积和基质长轴长度(图。5b).这种组织病理学特征不受样本大小的影响(扩展数据图)。6).该模型对训练集和测试集进行了分层,一致性指数分别为0.56 (95%可信区间为0.559-0.564)和0.54 (95%可信区间为0.527-0.560)。5c).根据推断的风险评分建立的高风险组和低风险组在中位生存期分别为34个月和49个月的训练组中分离良好(图。5d; P < 0.01). For the test set, the risk groups trended toward (but did not attain) significantly different separation, with median survival of 37 and 50 months (Fig. 5e; P= 0.076).为了探索组织病理学特征的可解释性,我们研究了平均肿瘤细胞核面积;我们展示低的例子(图。5f)和高(图。5g)值,它们分别与较好和较差的预后相关。

图5:通过OS对HGSOC患者进行可解释的组织病理学特征分层。
figure 5

a,来自H&E载玻片的组织图,带有产生组织类型和细胞类型特征的核检测。b两个选择的组织学特征的对数小时数(用Cox回归估计的95%置信区间;装上n= 243名患者)。c示出了训练和测试一致性指数:每个柱的高度示出了c指数,并且各个误差柱的下点和上点描绘了通过100倍留一自举的95% CI。d,e、Kaplan–Meier生存分析和用于培训的对数秩检验统计(d)和测试集(e). f,g模型推断的平均肿瘤核面积的极端例子(比例尺,每幅图像50米)。

源数据

多模态预测

我们测试了患者年龄、病理分期、减瘤手术后RD状态、NACT-IDS与PDS治疗模式、诊断后前2年接受PARP抑制剂治疗以及是否存在附件损伤的预后意义(补充表6),最终训练一个关于研发状态和PARP抑制剂管理的模型。该模型用Harrell的和谐指数对测试集进行分层,c= 0.51 (95%可信区间0.493–0.528)。然后我们实现了一个后期融合8将组织病理学、放射基因组学、基因组学和临床数据整合到多模态模型中的方法(图。1e).具体来说,我们使用Cox模型预测每个患者的对数部分风险,该模型使用各自的模态进行训练,然后训练最终的Cox模型来整合它们(方法).在测试集中,结合两种成像模式的模型(放射-组织病理学(RH)模型)显著优于基于HRD状态的模型、临床模型和个体成像模型,测试一致性指数为0.62(95% CI 0.604-0.638)(图。6a).具有基因组、放射组学和组织病理学(GRH)模式的模型表现相当,试验一致性指数为0.61 (95% CI为0.594–0.625)。添加HRD状态后,组织病理学子模型得分仍然显著(图。6b).通过训练集中的对数秩检验,由GRH模型建立的高风险组和低风险组显著不同(中位生存期分别为34个月和50个月;P= 0.026;图。6c).在测试集中,GRH风险组也显示出显著不同的OS,高风险组的中位生存期为30个月,低风险组为50个月(P= 0.023;图。6d).在36个月时,在测试组中,低风险组和高风险组的存活率分别为68%和34%。RH模型风险组的分离较差(扩展数据图。7).值得注意的是,仅分析具有完整信息的训练案例(n= 114)导致性能不佳(扩展数据图。8),加强了后融合模型在缺失数据设置中的学习能力。未发现模态之间存在可靠的关联,因此无法对缺失值进行插值(扩展数据图。9).

图6:多模式整合改善了分层并识别了临床上有意义的亚组。
figure 6

a显示了多模态特征组合的整合的测试c指数:每个柱的高度显示了c指数,各个误差柱的下点和上点通过100倍留一自举描述了95% CI。星号表示通过1000倍排列测试的测试集的显著排序的95%置信度。b,无(上)和有(下)HRD集成的成像对数小时数。显示安装了两种设备n= 122名患者(上图),图中显示了三名患者n= 114名患者(下图)。c卡普兰-迈耶图,比较由训练集上的GRH模型确定的高风险组和低风险组。P使用对数秩检验计算的值。d卡普兰-迈耶图比较高风险组和低风险组测试集。P使用对数秩检验计算的值。e,通过放射学、组织病理学和基因组学模式识别有早期死亡风险的独特患者。只有测试集中具有未审查结果的患者(n= 23名患者)。f,Kendall秩风险分位数在成对个体模态间的相关系数,表明训练集中个体模态间的低相互排序信息。g、卡普兰-迈耶图,GRH模型风险组对测试集中的PFS(一名患者的PFS未知。)P使用对数秩检验计算的值。h训练集中低(蓝色)和高(绿色)CRS的GRH模型分数的分布(n= 46名患者)。方框表示四分位范围,中间部分表示中位数,触须表示整个分布,不包括任何异常值。显著性由单边的曼恩-惠特尼评估U-测试:P= 0.0044;**P < 0.01. perm.; permutation test; G, genomic model; H, histopathological model; R, radiological model; C, clinical model; NET, no evidence of tumor.

源数据

单个成像模式的c指数相似,但识别出预后良好的不同患者亚组(图。6e).这与包含补充信息内容的放射学和组织学特征相一致,其中一些预后良好的患者被放射组子模型确定为高风险,但被组织病理学子模型正确地分配了较低的风险评分,反之亦然。HRD和HRP疾病患者分布相对均匀,与单峰成像风险评分无关。

证实了这一点,绝对肯德尔等级相关系数值在个体模态之间较低(< 0.14;图。6f),表明放射组学和组织病理学模型与基因组模型相比以及相互之间对患者的排序不同。由测试集中的模型确定的相同的两个风险组也显示出显著不同的无进展生存期(PFS)(P= 0.040;图。6g).最后,作为正交验证,除了与训练集中的病理化疗反应评分(CRS)相关的基因组和基因组-组织病理学模型外,所有模型的推断风险,包括GRH模型(图。6小时).该测试集仅有21名已知有CRS的患者,只有HRD状态表现出统计学上显著不同的CRS分布U-测试集中的测试(扩展数据图。10).

讨论

癌症预测中的机器学习是一个具有巨大潜力的增长领域,但常见诊断模式对多模式风险分层的贡献仍然知之甚少。在这里,我们表明整合多尺度临床成像和基因组数据增加了预测能力。这些结果,加上从个体模式中得出的风险评分之间的低相关性,支持了临床影像学包含独立于临床基因组信息的补充预后信息的假设。组织病理学和放射学成像分别在微观和中观尺度上表征肿瘤的结构。因此,有理由认为,这些数据通道相互补充和HRD状态,这是从空间不可知的排序。完整的综合基因组、组织病理学、放射和临床(GHRC)模型的表现不如RH和GRH模型,这表明多模态并不是性能改善的普遍保证30。在这种情况下,最可能的原因是临床模型(基于PARP抑制剂给药史和减瘤手术后的RD状态)没有对试验队列进行分层,可能是因为其规模较小。此外,TCGA队列没有这些有用的临床变量。我们的后融合架构受益于很少的拟合参数,这减少了过度拟合8—以及从部分信息案例中学习的能力,但它不能从嘈杂的模态中选通信息。随着更大的数据集能够在不过度拟合的情况下进行更多的参数拟合,可以探索诸如注意力之类的机制来适应性地调整单峰贡献。

除了多模态整合,我们还提出了两个单峰模型,使用常规临床影像对晚期HGSOC患者进行分层,在一个测试集上验证这些模型,并研究每个模态对HGSOC患者进行风险分层的相对贡献。对于放射成像,我们发现从HLL Coif小波滤波图像的灰度共生矩阵计算的网膜自相关是一个预后特征。该成像生物标记标准化倡议定义的特征17,31在多项研究中被发现具有很强或非常强的重现性32。它描述了病变纹理的粗糙度,也取决于组织密度。具有显著log(HR)值的其他九个网膜特征中的七个被明确设计用于测量高密度区,并且这些特征在具有自相关的多变量回归中没有表现出与零显著不同的log(HR)值。因此,最简洁的解释是,密度较高而不是较粗的网膜植入物是一个不利的预后因素,这可能是由于更多的实体瘤减少了囊性或脂肪成分。自相关捕获的网膜纹理也可以反映不同的肿瘤内异质性。

据我们所知,以前的HGSOC放射模型没有探索网膜植入物内捕获的预后信息,而是依赖于附件病变或整个肿瘤负荷的更高要求的分割。值得注意的是,我们发现在多重假设检验校正后,附件肿块的放射影像学特征没有一个具有明显不同于零的log(HR)值,这可能是由于该队列的晚期:大网膜是肝细胞癌最常见的转移部位33并且可能驱动进一步的腹膜种植。大网膜模型优于附件模型,因为大网膜植入物在晚期疾病中普遍存在,甚至在没有附件肿块的原发性腹膜高级浆液性癌患者中也是如此。此外,即使经验不足的观察者也可以容易地分割网膜植入物,而附件肿块可能难以与相邻的包裹性腹水、道格拉斯植入物的浆膜和囊以及相邻的解剖结构如子宫相区分,尤其是在存在平滑肌瘤的情况下。网膜模型也比基于整个肿瘤负荷的放射模型更实用;由于对时间和专业知识的极高要求,在日常实践中使用当前工具对整个肿瘤体积进行常规分割是不切实际的。

对于组织病理学成像,我们开发了一个基于H&E WSI的模型来对HGSOC患者进行分层。虽然在多重假设检验校正后,没有一个特征表现出与零显著不同的log(HR)值,但是20个特征的存在与平均肿瘤核大小高度相关(例如肿瘤核大小的第60百分位数和肿瘤核直径的第50百分位数),在24个特征中具有相似的HR,具有未校正的显著性P单变量log(HR)值支持肿瘤细胞核大小的预后相关性。测试集的良好分层进一步支持了这一点。较大的核大小可能与全基因组加倍或细胞融合等事件有关,并保证对匹配的基因组和组织病理学切片进行直接研究。间质的长轴长度很难用组织的二维切片来解释,但可以反映疾病向周围间质浸润的不同模式。我们包括了我们的HGSOC模型的训练权重和扩展到其他癌症类型的源代码。

缺乏可用的大数据集是肿瘤学中多模态机器学习的主要挑战之一8。我们已经收集了296例伴有HGSOC的MSKCC患者的数据,以使未来的工作能够改进这里提出的模型。我们的结果证明了在多模态研究中从只有部分信息的病例中学习的益处:较小的、完全信息的子建议产生了一个明显不可概括的风险分层模型。我们的数据集还提供了包含最初在多个机构获得的H&E图像和CE-CT扫描的优势:这提高了对结果的概括能力的信心。此外,我们有意挖掘在护理标准期间生成的数据。使用这些数据而不是专业研究数据大大降低了合成模型在临床工作流程中的采用成本,但这些数据不是专门针对计算建模收集的。例如,我们纳入了一些只有HRD-DDR基因种系测序的患者,这是一种临床相关但生物学上不完善的HRD状态测量方法:每个风险组都富含感兴趣的基因组亚型,但不完全由感兴趣的基因组亚型组成。我们预计临床全基因组测序将使更强大的基因组分析成为可能。

本文开发的改进的风险分层模型显示了提取和整合定量临床成像特征的前景,以帮助妇科肿瘤学家选择主要治疗、计划监测频率、做出关于维持治疗的决定以及就研究试剂的临床试验向患者提供咨询。测试集中PFS和OS的风险组的统计稳健性和临床相关性证实了这种多模态机器学习方法的效用,建立了原理证明。沿着这条工作路线的下一步包括在随机对照试验中临床获益的预期验证之前,进一步的模型训练和改进的规模和机构间回顾性队列集合8.

总之,我们收集了HGSOC患者的多模态数据集,并利用该数据集开发和整合放射学、组织病理学和临床遗传学模型,对患者进行风险分层。我们发现CE-CT上的网膜种植体的自相关性和H&E上的平均肿瘤核大小是预后因素,这些模式可以证明是正交的,并且它们的计算整合改善了分层,超过了测试集中先前已知的临床遗传学因素。我们的结果激励了由多模态机器学习驱动的进一步大规模研究,以对患有癌症的患者进行分层,包括HGSOC和其他癌症亚型。


武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297