您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!2008-2021
Wuhan Xinqidi Biotech Co.Ltd
本企业通过iso9001质量体系认证

生物信息深度神经网络在前列腺癌发现中的应用

 二维码
发表时间:2021-09-28 13:36作者:武汉新启迪Xinqidibio

摘要

前列腺癌中介导临床侵袭性表型的分子特征的确定仍然是一项重大的生物学和临床挑战。1,2。机器学习模型应用于生物医学问题的可解释性的最新进展可能有助于临床癌症基因组学的发现和预测。3,4,5。在这里,我们开发了P-net-一种生物学知识的深度学习模型,通过治疗耐药状态对前列腺癌患者进行分层,并通过完全模型解释评估治疗耐药的分子驱动因素。我们证明,P-net可以利用分子数据预测癌症状态,其性能优于其他建模方法。此外,P-net中的生物可解释性揭示了已建立的和新的分子改变的候选对象,例如MDM 4FGFR 1与预测晚期疾病有关,并在体外验证。广泛地说,生物信息完全可解释的神经网络为前列腺癌的临床前发现和临床预测提供了可能,并且可能对不同类型的癌症具有广泛的适用性。

随着分子特征分析技术的进步,在过去十年中,观察癌症及其肿瘤患者的基因组、转录和其他特征的能力显著提高。具体来说,在前列腺癌中,与临床注释相关的丰富的分子特征数据使人们能够发现许多促进致命去势耐前列腺癌(Crpc)的个体基因、途径和复合物,这导致了生物学研究和对这些个体特征的临床评估,以达到预测效用。1,2,6,7,8,9,10,11,12。然而,这些分子特征与它们对疾病进展、耐药性和致死结果的联合预测和生物学贡献之间的关系仍然很大程度上没有被描述出来。

在开发预测模型时,有各种各样的潜在方法,尽管每种方法都伴随着精确性和可解释性的权衡。在翻译性癌症基因组学中,预测模型的可解释性至关重要,因为有助于该模型预测能力的特性不仅可以为患者的护理提供信息,而且还可以提供对潜在生物学过程的深入了解,从而促进功能研究和治疗靶向性。线性模型,如Logistic回归模型,往往具有较高的可解释性和较低的精确预测性能,而深度学习模型往往具有较低的可解释性和较高的预测性能。13,14。使用典型的完全连接的密集深度学习方法来建立预测模型也可能导致过度拟合,除非网络得到了很好的正则化,而且这些模型具有计算成本高、可解释性低的趋势。15.

给出一个完整的模型,搜索更精简的体系结构和稀疏网络的努力表明,稀疏模型可以减少存储需求,提高计算性能。16,17,18。然而,寻找这样一个稀疏的模型可能会很有挑战性,因为典型的培训-修剪-再培训周期通常在计算上是昂贵的,最近的研究表明,建立一个稀疏的模型de revo可能更容易。19。此外,努力提高深度学习模型的可解释性和解释模型决策的需要,导致了多种归因方法的发展,包括石灰。20,深井13深层解释21沙普22,它可以用来提高深度学习的可解释性,了解模型是如何处理信息和决策的。

稀疏模型开发和属性方法的发展共同推动了基于生物系统的自定义神经网络体系结构的深入学习模型的发展。例如,开发了可见神经网络来模拟基因相互作用对酵母(Dcell)细胞生长的影响,以及癌症细胞与疗法(Drugcell)的相互作用。3,5。一种路径相关的稀疏深神经网络(PASNet)使用平坦的路径来预测多形性胶质母细胞瘤患者的预后。23。然而,生物知情的神经网络能否加速具有平移潜能的生物发现,同时使临床预测建模成为可能,这在很大程度上尚不清楚。在此我们假设,建立在稀疏深度学习结构、生物信息编码和可解释性算法融合的基础上的生物信息深度学习模型将获得比已建立的模型更好的预测性能,并揭示前列腺癌治疗耐药的新模式,并具有平移意义。

结果

我们开发了一种深度学习预测模型,该模型结合了神经网络语言中先前建立的生物学层次知识,根据前列腺癌患者的基因组图谱预测其癌症状态。利用一组3,007条生物路径构建了一种路径感知的多层层次网络(P-net)(方法).在P-net中,个人的分子剖面被输入到模型中,并分布在一层节点上,用加权链接表示一组基因(如图所示)。1、扩展数据图。1)。网络的后期层编码一组具有越来越高的抽象水平的路径,其中较低层代表精细路径,而后期层代表更复杂的生物路径和生物过程。不同层之间的连接被限制在遵循已知的编码特征、基因和路径之间的亲子关系,因此网络通过设计面向可解释性。

图1:可解释的生物知识深度学习。
figure1

P-net是一种神经网络体系结构,它将不同的生物实体编码成一种神经网络语言,在连续层之间进行定制的连接(即患者的特征、基因、途径、生物过程和结果)。在这项研究中,我们主要关注处理突变和拷贝数的改变.经过训练的P-网提供了每一层节点的相对排序,以通知生物假设的生成。实线表示来自输入的信息流产生结果,虚线表示计算不同节点重要性得分的方向。为了了解候选基因的功能和作用机制,对候选基因进行了验证。

我们用1,013个前列腺癌(333个CRPC和680个原发癌)对P-net进行了培训和测试(方法;补充表)15),分为80%的训练、10%的验证和10%的检验,利用体细胞突变和拷贝数数据(方法)预测疾病状态(原发或转移性疾病)。训练后的P-网优于典型的机器学习模型,包括线性和径向基函数支持向量机、Logistic回归和决策树(接收者操作特性(ROC)曲线下面积(AUC)=0.93,查全率曲线下面积(AUPAR)=0.88,精度=0.83)。2、扩展数据图。2、补充表6, 7、方法)。在P-net中加入额外的分子特征是可行的(例如,融合),但并不影响模型在这一特定预测任务中的性能(扩展数据图)。3, 4)。此外,我们还评估了稀疏模型是否具有与密集、完全连接的深度学习模型不同的特征。我们在训练集上训练了一个参数与P网模型相同的稠密模型,样本数从100增加到811(占样本总数的80%)。P-net模型的平均性能(由AUC决定)高于所有样本的密集模型,这种差异在小样本(最多500个)中具有统计学意义(例如,与155个样本上训练的密集网络相比,P-net的五倍交叉验证的平均AUC显著提高,P=0.004)(图1。2C、扩展数据图。5A-E统计测试结果列于补充表格8)。此外,具有与P-net相同数量的神经元和层数的稠密网络(1400万)也获得了较差的性能(扩展数据图)。5F).

图2:P-net的预测性能.
figure2

a,P-net在AUPAR方面优于其他模型,在测试集上测试时,值显示在括号中(n=204来自亚美尼亚等国。数据集8)。径向基函数。b,当使用两个独立的外部验证队列进行评估时24,25P-网的真阴性率(TN)为73%,真阳性率(TP)为80%,可推广应用于未知样本的分类.FN,假阴性率;FP,假阳性率。c与相同参数的密集全连接网络相比,P-net获得了更好的性能(以五个交叉验证分裂的平均AUC来衡量),与密集的完全连接的网络相比,P-net获得了更少的样本数。实线代表平均AUC,带代表平均±S.D。(n=5项实验)。性能上的差异在所有样本中都有统计学意义,最高可达500个(*)P < 0.05, one-sided t-试验)(方法)。d原发性前列腺癌患者和P-net评分高的患者HPS(按P-net错误分类为耐药样本)与P-net评分较低的患者相比,表现出更大的生化复发(Bcr)倾向于无进展生存率(P = 8 × 10−5原木等级测试,双面测试)。这表明P-net模型在临床病人分层和预测潜在bcr方面有一定的应用价值(原始数据包括在补充表中)。9)。低P-net评分;HPS高P-net评分.

接下来,我们使用两个额外的前列腺癌验证队列(一个主要的验证组)对模型的预测方面进行外部验证。24一次转移25(示例标识符列于补充表中4, 5;方法)。经训练的P-网模型正确地分类了73%的原发肿瘤和80%的转移瘤,表明该模型可以推广到具有充分预测性能的未见样本(图1)。2B)。我们假设原发肿瘤样本被P-net错误分类为耐去势转移性肿瘤,其临床效果可能更差。P-net评分高的患者与P-net评分低的患者相比,更有可能发生生化复发(P-net评分偏低)。P = 8 × 10−5表明对于原发性前列腺癌患者,P-net评分可以用来预测潜在的生化复发(图一)。二维空间,补充表9).

为了了解不同特征、基因、通路和生物过程之间的相互作用,从而达到预测效果的目的,为了研究从输入到结果的影响路径,我们在训练后用完全可解释的层次可视化了P-net的整体结构(图1)。3)。在聚合分子变异中,拷贝数变异比突变更能说明问题,这与以前的报道一致。26。此外,P-net选择了与分类相关的3,007条路径(其中有3,007条)与分类相关,包括细胞周期检查点、翻译后修饰(包括泛素化和SUMO化)和转录调控。Runx 2TP 53。细胞周期通路的多个成员在功能上与转移性前列腺癌有牵连,特别是在治疗耐药的情况下受到功能上的询问。27,28。泛素化和SUMO化途径有助于调节多种肿瘤抑制因子和癌基因,包括艾尔29,在临床前的模型中,这些通路的失调与前列腺癌的发生和进展有关。30. Runx 2是一种调节细胞增殖的成骨转录因子,与前列腺癌患者的转移疾病有关。31.

图3:检查和解释P-网。
figure3

P-网内部层的可视化显示了各层不同节点的估计相对重要性。最左边的节点代表特征类型;第二层的节点代表基因;下一层代表更高层次的生物实体;最后一层代表模型的结果。颜色较深的节点更为重要,而透明节点则表示每个层中未显示节点的剩余重要性。一个特定数据类型对每个基因的重要性的贡献用sankey图来描述,例如,艾尔基因的主要驱动因素是基因扩增,其重要性在于TP 53是由突变驱动的,而重要的是PTEN是由删除驱动的。核受体;SHR,类固醇激素受体;转运,转录;转运,翻译。

为了评价特定基因对模型预测的相对重要性,我们对基因层进行了考察,并使用深浅IFT属性方法获得了基因的总重要性评分(方法)。13。高排名基因艾尔, PTEN, Rb1TP 53,它们是已知的前列腺癌驱动因素,以前与转移性疾病有关。1,2,9,32。此外,较少期望的基因的改变,如MDM 4, FGFR 1,NOTCH 133PDGFA,对预测性能有很强的贡献(扩展数据图)。6, 7)。为了了解经过训练的P-net的行为,我们检查了网络中每个节点的激活,这里的激活表示给定输入的某个节点的有符号结果,并测试这种激活是否随着输入样本类(主要的和转移的)的变化而改变(方法)。我们观察到,节点激活的差异在较高层中更高,在每个层中更集中在高度排序的节点上(扩展数据图)。8)。例如,当给出一个主样本时,H3层节点的激活分布与一个抵抗样本相比是不同的(扩展数据图)。8C)。因此,可以询问P-net的可解释体系结构,以了解输入信息是如何通过层和节点转换的,从而进一步了解所涉及的生物实体的状态和重要性。

通过对P网训练模型中多层结构的评价,我们观察到了该模型的收敛性。TP 53-相关生物学对CRPC的贡献。的相关性TP 53-与基因水平相关的途径,TP 53MDM 2在前列腺癌的发展过程中32,34,35,36,37,38,39,40,我们还观察到MDM 4这在很大程度上促进了网络的融合。MDM 4能抑制野生型TP 53通过结合和掩蔽转录激活域来表达40,虽然它在前列腺癌治疗耐药中的作用并不完全。41.

我们进一步研究了MDM 4临床标本和功能模型的轮廓。高放大MDM 4在抗药性样本中比原始样本更普遍(χ2修正=40.8251,P < 0.00001). Alterations in 艾尔, TP 53,和MDM 4基因如图所示。4A。在LNCaP细胞使用17,255个开放阅读框(ORF)进行的全基因组功能增益筛选中,MDM 4过表达与对第二代抗雄激素药物--恩扎鲁胺的耐药密切相关。42(无花果)4B)。然后我们使用CRISPR-Cas9作为目标。MDM 4在多个前列腺癌细胞系(方法)中。与阴性对照组相比,前列腺癌细胞增殖明显减少(P < 0.0001; t-测试)(如图所示。4C(补充数据1)MDM 4使用两种不同的单导RNA(SgRNAs)(扩展数据图)进行耗尽。9,补充数据2)。这表明选择性靶向治疗MDM 4可能对病人来说是可行的TP 53-野生型晚期前列腺癌。因此,我们试图研究抑制的作用。MDM 4具有突变型和野生型的前列腺细胞系TP 53。野生型前列腺细胞TP 53MDM 4选择性抑制剂RO-5963(也抑制MDM 2)与TP 53-突变细胞系43(无花果)4D;方法)。总体而言,P53通路失调在经过训练的P-net模型的多层间的收敛性发现了涉及到的特定漏洞。MDM 4,在基因分层的前列腺癌患者群体中,MDM 4选择性抑制可以成为治疗的靶点。

图4:P-net的临床和功能评价。
figure4

a,联合分配艾尔, TP 53MDM 4应用UpSetPlot对1,013例前列腺癌标本的改变55。如果一个基因有突变、深缺失或高度扩增,它就被定义为改变。b基于17,255个ORF的LNCaP细胞抗药性基因分析42。各ORF的相对抗病性(x-轴)被绘制为Z-得分(y-轴),较高Z-代表更多阻力的分数(补充表)10). MDM 4和其他基因命中突出显示在图表上,与MDM 4在这些基因中得分最高。低雄激素培养基。c,C4-2、LNCaP、LNCaP Abl和LNCaP 95细胞经CRISPR-Cas9和sgRNAs介导后的相对活力。MDM 4(2指南)或控制GFP(2指南)。数据平均为±S.E.M。三次重复(实验重复三次,重复三次;补充数据1)。d,不同前列腺癌细胞株对RO-5963的敏感性。相对活力显示在每个指示剂量的RO5963。数据为平均±S.D。三次重复(实验重复三次;补充数据四次)。DU 145、PC-3和LAPC-4是TP 53-突变型前列腺癌细胞;其他细胞为TP 53野生型。

讨论

从广义上讲,P-net利用了一种生物信息,而不是任意过度参数化的体系结构来进行预测.因此,P-net显着地减少了学习参数的数量,从而提高了可解释性。与包括密集网络在内的其它机器学习模型相比,P-网中的稀疏结构具有更好的预测性能,可以适用于其他类似的任务。P-net在前列腺癌患者分子队列中的应用表明:(1)模型性能可以预测原发性前列腺癌患者的临床侵袭性疾病;(2)有助于转移性前列腺癌临床表型的聚合生物学过程,在分子分层人群中具有新的治疗策略。

此外,P-net还提供了一种简单的方法来集成多个分子特征(例如,突变、拷贝数变异和融合等)加权,以反映它们在预测最终结果方面的重要性,此前,每种特征都需要不同的统计方法来实现癌症基因的发现。44,45。更重要的是,P-net提供了一个利用神经网络语言对层次先验知识进行编码的框架,并将这些层次转化为一个计算模型,既可用于预测,也可用于临床基因组中的生物发现。具体来说,P-net根据患者的基因组图谱准确预测晚期前列腺疾病,并有能力预测潜在的生化复发。通过对P-net体系结构的可视化,可以对所涉及的生物途径和过程进行多层次的观察,从而指导研究人员开发关于癌症进展中的潜在生物学过程的假说,并将这些发现转化为治疗机会。具体来说,P网重新发现了与crpc相关的已知基因,例如艾尔, PTEN, TP 53Rb1。此外,P-网鉴定MDM 4作为临床背景中的相关基因,该基因已被实验验证,并可能提示使用MDM 4-基因分层的选择性抑制剂(TP 53-野生型)转移性前列腺癌患者。

尽管P-net为结果预测和假设生成提供了一个框架,但在使用之前,该模型仍然需要调整和训练。与所有的深度学习模型一样,最终的训练模型在很大程度上依赖于用于训练模型的超参数。此外,P-net以硬编码的方式对网络内部的生物路径进行编码,这使得模型依赖于用于构建模型的注释的质量。使用利用其他硬编码生物优先级(如KEGG和基因本体)或用户指定的特定生物模块的模型,可以进一步指导模型开发和功能评估。最后,计算方面的进步可能使这种方法能够应用于特定于患者的精确肿瘤学原理图,并与特定患者的模型系统进行直接可比较的实验评估。因此,这种方法在不同的组织学和临床背景下的可移植性需要进一步的评估。

总之,P-net是一种生物信息灵通的深层神经网络,它准确地将去势耐药转移与原发性前列腺癌进行了分类。可视化的训练模型为前列腺癌转移机制提供了新的假设,并为分子分层前列腺癌患者群体的临床翻译提供了直接潜力。生物导向神经网络是将肿瘤生物学与机器学习相结合的一种新方法,它通过建立机制预测模型,为生物发现提供了一个平台,可广泛应用于癌症预测和发现任务中。


武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297