您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!2008-2024
Wuhan Xinqidi Biotech Co.Ltd
本企业通过iso9001质量体系认证

临床HIV-1分离株的抗体耐药性的准确预测

 二维码
发表时间:2019-10-11 11:11作者:武汉新启迪Xinqidi来源:www.qidibio.com

临床HIV-1分离株的抗体耐药性的准确预测


摘要

针对HIV-1包膜糖蛋白(Env)的广泛中和抗体(BNAb)在预防和治疗HIV-1感染方面有着广阔的应用前景,一些目前正在进行临床试验。由于HIV-1的序列多样性和突变率高,病毒分离物往往对特定的bNAb产生抗性。目前,耐药菌株通常以耗时和昂贵的方式鉴定。离体中和试验在这里,我们报告机器学习分类器,准确地预测艾滋病毒-1分离物对33个bNAb的抗药性。值得注意的是,我们的分类器对在四个不同临床试验中登记的212个临床分离物的总体预测准确率为96%。此外,利用梯度增强机-一种基于树的机器学习方法-使我们能够识别关键特征,这与区分抗体抗性和敏感性的表位残基具有很高的一致性。的可用性硅中抗体耐药预测器应有助于在临床环境中对抗体使用和基于序列的病毒逃逸监测作出知情的决定。

导言

HIV-1广泛中和抗体(BNAb)的目标是包膜糖蛋白(Env),以中和不同的HIV-1株。许多这样的bNAb可以在低浓度的血清中保护实验动物免受病毒攻击。1,2,3,4,5,6,7支持在人类人群中使用bNAbs预防艾滋病毒-1。此外,几项研究表明,bnbs在两种实验动物的感染过程中都可以减少病毒载量。8,9,10,11,12和人类13,14,15,16表明这些bNAb在治疗HIV感染者方面的效用。

由于HIV-1的高序列多样性和突变率,大多数bNAb无法中和所有HIV-1病毒分离物(图1)。1A)。即使对抗体敏感的菌株,使用bNAb也可能导致病毒逃逸,从而降低或消除bNAb的疗效(图一)。1A)。因此,一种预测HIV-1抗体耐药性的有效工具,对于选择合适的抗体给药和监测治疗过程中的病毒逃逸是非常有用的。此外,随着对几个bNAb的临床试验正在进行中,迫切需要工具来分析在这些研究中观察到的抗体耐药性。

图1
figure1

bNAB-REP的潜在临床应用。(AbNAb-REP可用于对未来患者进行预先筛选,以了解其对用于治疗的bNAb的中和敏感性。(BbNAb-REP可在治疗阶段应用,以监测病毒是否已逃逸到已使用的bNAb。

传统上,耐药病毒株通常是通过亚克隆或合成扩增的env,产生假病毒和执行离体中和试验13,这既费时又昂贵。此外,耐药菌株可以根据临床样本中出现的耐药突变或在持续抗病毒压力下细胞培养中出现的耐药突变来识别,对其解释可能很困难,因为突变可能不是相互独立的。17..bNAB通常具有复杂的界面,能够容忍相当大的序列变化,从而加剧了解释问题。

而许多基因型分析和硅中已经开发了预测hiv-1耐药性的算法。18和辅助受体的使用19, 硅中对bnbs中和敏感性的预测只有少数几项研究进行了探索。20,21,22..布尤等人..提出了一种基于分离体的Env序列建立中和活性模型的人工神经网络方法。然而,他们只使用bnab2f5的有限序列和中和数据来评估其预测器的性能。20..IDEPI机器学习平台使用序列数据预测hiv-1 bNAb表位和其他表型特征,包括抗体中和敏感性。21..这两种方法的主要问题是仅利用表位残基进行预测,忽略了表位外区域对中和的影响。此外,这两种方法都是氨基酸多样性与中和敏感性之间的线性关系,但由于bNAb结合位点的复杂性较高,这很可能没有得到。最近,hake和pfe显弗利用11个不同的bnbs的综合序列和中和数据开发了基于支持向量机的预测器。22..然而,作者没有公布他们的模型和手稿,这限制了公众的访问。马格雷特等人..开发了一种基于SuperLearner的bnab预测算法,这是一种基于非参数集成的交叉验证学习方法,但只针对vrc 01抗体。23.

在本研究中,我们提出了一种机器学习算法bNAb-电阻预测器(bNAb-REP),它可以在给定包络序列的情况下预测HIV-1bNAb的中和抗性,并使用一种称为梯度增强机(GBM)的非线性预测建模技术进行训练。GBM以加性和顺序的方式训练分类器,每次增加一个弱学习者,同时最小化用户定义的损失函数。事实证明,GBM与深度学习具有竞争力,特别是在没有大量培训数据的情况下。24,25..此外,GBM可以通过提供特征重要性分数来解释经过训练的模型。我们已经为33种不同的hiv-1 bNAb生成了bnab-rep,这些预测器可以从github下载https://github.com/RedaRawi/bNAb-ReP..用临床试验的212株HIV-1分离物的中和数据进行评价,bNAb-REP的总体预测准确率为96%。

结果

bNab-代表培训

bNab-rep是利用ctnap数据库获得的33个hiv-1 bNAb的序列和中和数据开发的。26..分类器的训练使用两个主要步骤:特征生成和GBM模型训练。2)。本研究以HIV-1 Env全序列的一次热编码为特征(见方法),采用超参数优化方法对GBM模型进行训练,确定每个bNAb分类器的最优GBM参数(见方法)。我们评估了所有33个bNAb-REGBM分类器在十次十倍交叉验证中的性能,使用先前确定的最优超参数。所有分类器的性能明显优于随机预测(虚线黑线图)。3),平均AUC值在0.63至0.97之间,总体中位数AUC为0.83(如图所示)。3)。bNAb-REP分类器的预测性能在其他预测指标(如准确度、F1评分或马修斯相关系数(MCC)上也较高,平均值分别为0.86、0.87和0.66(补充表)。沙一)。此外,平均均方根误差(RMSE)为0.37(补充表)。沙一)。值得注意的是,与其他常规预测方法(如Logistic回归或随机森林)相比,基于GBM的分类器具有更高的AUC性能,33种bNAb-REP分类器中有22种更好(补充图)。沙一和表沙一)。此外,与Logistic回归或随机林相比,基于GBM的分类器的RMSE更低,33个bNAb-REP分类器中有28个错误率显着降低(补充表)。S2).

图2
figure2

b Nab-REP开发流程图。

图3
figure3

bNab-REP预测性能。33个bNAb分类器的预测性能(AUC)由十次交叉验证的十次运行确定,基于表位类别的颜色编码。

bNab-REP特性的重要性

与其他标准机器学习方法(如神经网络和支持向量机)相比,基于树的方法(如gbm)的主要优点是能够获得特征重要性分数,在特征值对所有输入特征进行置换之后,模型的预测误差增加,从而使预测模型具有可解释性(补充表)。S3)。例如,bNAb-rep VRC 01分类器的前三种鉴别特征涉及到HIV-1 Env残基414 A、456和459,其总体特征重要性为24.84%(图一)。4A,补充表S3)。结构研究表明,这三个氨基酸位置中有两个位于VRC 01表位,因此对VRC 01结合和中和至关重要。4A)27,28..此外,bNAb-REP 8ANC195分类器的前三个特征占总变量重要性的48.47%,其中包括Env残基234和276,它们必须进行糖化,才能使8ANC195与Env结合和中和(图1)。4B,补充表S3)29..在确定了结构表位的33个bNAb中,有21个特征的重要程度大于5%,其中68%与结构表位残基有关(表)132%的特征与结构表位相距较远,提示HIV-1株的中和敏感性并非完全由表位残基决定。几个表位-遥远的特征是相关的。N-连接糖基化序列(如334和334_S的抗体10-1074和PGT 128,334_S的抗体PGT 135)。为了进一步研究这一点,我们仅使用结构表位残基来训练预测因子,并与使用完整的HIV-1 Env序列的预测因子进行比较。在33例中,18例使用全Env序列训练预测因子,训练准确率显著高于33例;9例仅用结构表位训练,训练准确率显著提高(补充图)。S2)。特别是,仅使用结构表位残基而不是全Env序列时,针对bNAbs的甘氨酸-V3的预测精度下降幅度最大。

图4
figure4

VRC 01和8ANC195分类器的前三个判别特征。(A)在表中列出了bNAb VRC 01分类器的前三个判别特征,并着重介绍了VRC 01抗体复合物(PDB ID:5 FYJ)的预融合-封闭Env三聚体结构。(B)表中列出了bNAb 8ANC195分类器的前三个判别特征,并在Ev三聚体结构中高亮显示了与8ANC195bNAb的配合物,并将糖聚糖234和276描述为绿棒(PDB ID:5 CJX)。

表1对21个bNAb-REP预测因子的变化重要性大于5%的特征。

HIV-1临床分离株的抗体耐药性预测

为了验证bNAb-REP的有效性,我们根据Env序列对HIV-1感染者的临床研究中的HIV-1分离物的抗体耐药性进行了预测。首先,我们测试了vrc 601试验中从hiv-1阳性患者获得的hvc 01抗体的bnab-rep分类器。13研究了VRC 01作为治疗性控制病毒载量的疗效。bNab-REP正确预测了100%的VRC 01耐药菌株和87%的VRC 01敏感菌株。5A)。值得注意的是,被错误预测为耐药菌株的敏感菌株都是从含有耐药菌株的患者中分离出来的(图一)。5B).

图5
figure5

bNab-REP对VRC 601临床HIV-1分离株的预测性能。(A)预测VRC 601临床分离株对VRC 01的敏感性。离体分析中和分类显示在x轴上,硅中预测序列对y轴上显示的VRC 01敏感的概率。用一条灰色虚线描述了0.5的分类截止。(B)条形图,描绘了.的数目离体分类VRC 601 HIV-1株每名病人。临床HIV-1株硅中预测用红色(抗性)和青色(敏感)表示,较深的颜色表示真实预测,浅色表示错误预测。

此外,我们还利用bnab3bnc117治疗hiv-1阳性患者的Ⅱa期临床试验中的序列和中和数据,评估了bnab-rep的预测性能。14..bNAb-REP的总分类准确率为87%,正确预测了29株敏感HIV-1株中的26株,但错误地预测了唯一敏感的耐药株(附图)。S3).

为了进一步评估bnab-rep的预测精度,我们进行了离体对接受分析治疗中断(VRC01-ATI)的HIV感染者临床序列的中和试验(补充数据)沙一和表S4)30..bNab-REP预测对VRC 01、3BNC 117、10-1074和PGT 121的中和敏感性分别为82%、96%、100%和100%。6A).

图6
figure6

bNab-REP对BAR临床HIV-1分离物的预测性能等人..和Ssemwanga等人..学习。(A)条形图强调临床hiv-1分离物的数量,在Bar中引入。等人..学习,按他们分开硅中预测。抗性硅中对bNABS VRC 01、3BNC 117、10-1074和PGT 121的预测用红色和敏感的青色表示,较深的颜色分别代表准确的预测和不准确的浅色。(B)描述分离株数量的条形图,由Ssemwanga介绍等人.具有抵抗力硅中预测用红色表示,用青色表示敏感。

除了从上述的clade B序列中预测中和敏感性外,我们还使用bNAb-rep来预测对clade A和A/D重组序列的耐药性,这些重组序列来自乌干达一对夫妇的重叠感染案例研究。31..对bNAB VRC 01、PGT 121、PGT 128、PGT 145、VRC 26.25和VRC 34.01的分类准确率分别为100%、93%、100%、100%、100%和100%。6B).

最后,我们实现了Hake和Pfefer提出的预测抗体抗性的支持向量机(SVM)算法,并利用几个独立的测试集(辅助表)对算法性能进行了比较。S5)22..除3BNC 117测试集外,bNab-REP在所有独立的bNAb测试集上均优于Hake和Pfefier的支持向量机方法。

讨论

.的发展硅中基于序列的bNAb中和电阻预测工具的高精度仍然是非常需要的。在本研究中,我们利用机器学习技术GBM为33个bNAb开发了一种中和电阻预测器bNAB-REP.bNab-REP在预测从四个不同临床试验中收集的212个HIV-1序列的中和耐药性方面的总体准确率为96%。预测因子的特征重要性分析表明,虽然大多数高度重要的特征与表位残基有关,但大量与表位相距的残基相关特征,说明了预测中和抗性的复杂性。这些预测因子在选择正确的HIV-1感染者的抗体治疗和在治疗过程中监测耐药菌株的发展方面应具有很高的实用性。我们已经在GitHub上放置了这些预测器供公众使用。

我们已经证明,bnab-rep预测器的性能优于许多不同的算法,包括随机森林算法、物流回归算法以及hake和pfe显弗提出的支持向量机算法。22..值得注意的是,我们仅使用每个Env位置的一种热残数编码作为输入特征,就获得了较高的预测精度。包括其他特征,如氨基酸性质或额外的结构特征,可能会进一步提高bNAb-REP和类似的预测方法的性能。值得注意的是,最近发表了一种基于分子建模和机器学习相结合的bnab电阻预测器。32..除了训练和测试都需要更多的时间外,分析还假定抗原在序列空间上是保守的,正如作者指出的那样,这可能并不总是正确的,特别是对于多个插入和缺失的区域,例如HIV-1 Env上的可变循环。

机器学习模型预测bNAb阻力的一个主要限制是训练数据集的可用性。虽然有数百个含有中和数据的序列可用于数十个bNAb,但由于HIV-1 Env序列的长度超过了800个残基,这些输入仍然很稀疏。因此,在这种情况下,深度学习算法可能没有其他算法的优势。此外,训练集对序列空间的覆盖范围有限,对于少数选择的特征也具有较高的特征重要性,而忽略了其他不能从训练集中捕捉到的重要特征。此外,由于训练至少需要一定数量的敏感和抗性序列作为输入,因此它不适用于抗体,例如10E8和N6,根据迄今测试过的菌株,这种抗体的中和宽度接近100%。最后,我们从临床研究中获得了针对8种不同抗体的序列/中和数据作为测试集,客观地验证了我们的预测因子,但其中6种抗体的抗性序列不超过一个。因此,除了预测精度外,使用AUC等指标来评估预测器的性能也是不可行的。

由于影响中和测量的变量很多,训练数据中不可避免地会出现一定程度的噪声。我们证明,在VRC 01抗体的情况下,我们的bNAb-REP算法能够在训练集中容忍一定程度的噪声(补充图)。S4)。为了概括噪声对预测性能的影响,需要对训练集中的噪声数据的影响进行进一步的研究。此外,我们还发现了一些与表位相距甚远的具有高度可变重要性的特征。需要进一步研究这些特征对相应抗体的敏感性和抵抗力的影响。

方法

训练数据

We used the neutralization data of 33 different antibodies(10–1074,2F5,2G12,35O22,3BNC117,4E10,8ANC195,CH01,DH270.1,DH270.5,DH270.6,HJ16,NIH-4546,PG16,PG9,PGDM1400,PGT121,PGT128,PGT135,PGT145,PGT151,VRC-CH31,VRC-PG04,VRC01,VRC03,VRC07,VRC13,VRC26.08,VRC26.25,VRC29.03,VRC34.01,VRC38.01,and b12)assayed respectively against 205 to 711 HIV-1 isolates published in the CATNAP database26作为训练。训练集中Env序列的CLADE分布如附图所示。S5..用单轮感染环境假病毒对细胞株进行中和试验。33,34..每个HIV-1分离物都有其完整的包膜糖蛋白氨基酸序列.删除重复的HIV-1全长信封序列。病毒分离物被归类为对一种抗体的抗性,如果它的几何平均IC。50大于50μg/ml或指定为“>”标志,否则属于敏感类别。

试验数据

对于vrc 601的临床试验数据,我们使用了从血浆病毒中分离出的env假病毒的序列和中和数据,如lynch所述。等人.13..在tzm-bl细胞和Sarzotti-Kelsoe细胞上检测环境假病毒。等人.34..A序列和A/D序列以及中和数据都是用相同的方式生成的,这些数据都是从Ssemwanga提取的。等人.31..vrc 01-ati序列是从一项分析性治疗中断试验中提取出来的,在该试验中,来自NIH的志愿者在中断抗逆转录病毒治疗之前和期间进行了vrc 01输注。30..在该出版物中,Env序列由SGA产生;然而,发表的中和试验是用来自生长的传染性病毒进行的,而不是以Env-伪病毒/TZM-bl格式进行的。在这里,我们报告了新的数据,其中我们表达了来自bar报告的序列中的Env-伪病毒。等人..并使用了上述tzm-bl格式。30.

梯度升压机

为了建立训练模型,我们采用了一种基于非线性可解释树的集成技术,称为梯度增强机(Gbm),用于建立抗体抵抗预测器。H_2O包(3.16.0.2版)R软件(https://www.R-project.org)35,36..GBM属于预测方法家族,它采用迭代策略,使学习框架能够连续地拟合新模型,在每次迭代后对响应变量进行更准确的估计。该技术的主要思想是构造新的基于树的学习者,使其尽可能地与给定的损失函数的负梯度相关联,并利用所有的训练数据进行计算。这里可以使用任意的损失函数(L(·,·)。然而,如果损失函数是最常用的平方损失函数,则学习过程将导致连续残差拟合。算法1总结了通用的GBM方法。

算法1
figurea

梯度助力机

Booting过程的优点是在不增加方差的情况下,可以减小模型的偏差。学习不相关的基础学习者有助于减少最终集成模型的偏差。在这项工作中,我们使用了L2-Friedman提出的TreeBoost方法35建立核心的GBM模型。这里的损失函数是经典的平方损失函数(L2):

L2=12||YF(X)||22,Y{0,1}.

在我们的方法中,基础学习者是J-终端节点分类树。每个树模型都有一个附加形式,如下所示:

θ(X;{γj,Pj})j=1J=j=1Jγj1(XPj).

这里{Pj}1jJ不相交区域,它们共同覆盖预测变量的所有联合值的空间。X..这些区域表示相应分类树的J端节点。如果传递给它的参数为true,则指示函数1(·)接受值1,否则为0。因为这些区域是不相交的,θ(X)等于预测规则:如果XPj, 然后是θ(X)=γj..现在,伪残差变成:

pia=[L2(Yi,F(Xi))F(Xi)]F(X)=Fa1(X)=YiFa1(Xi),i=1,...,N

行搜索如下:

ρa=argminρi=1N||YiFa1(Xi)ρaθa(Xi)||22=argminρi=1N||piaρaθa(Xi)||22

使用分类树作为基础学习器,我们使用了对每个终端区域进行单独更新的思想。Pja如建议的35得到:

ρja=meanXiPja(γjapia)
(1)

这个L2算法2总结了两类GBM的树Boost方法.

算法2
figureb

L2-基于性别平等的TreeBoost方法。

这里的参数η是一个正则化参数,用于避免对模型进行过拟合,并通过交叉验证获得。对于每个迭代a,最小二乘准则(I(ϕ)用于评估当前终端区域的潜在分裂P分成两个不相交的分区(Pl, Pr)由下列机构提供:

i2(Pl,Pr)=I(φ)=wlwrwl+wr(YlYr)2,
(2)

哪里YlYr分别是左节点和右子节点的响应,以及wl,wr与地区样本数量成正比PlPr分别出现在(弗里德曼)35). I(ϕ)是衡量变量(ϕ)使这一标准最大化。在给定的迭代过程中,只允许一个特性被分割成两个终端区域。因此,如果是J-终端节点分类树,我们生成J−1这类措施。但是,相同的特性可以为J-终端节点树。在这种情况下,我们总结这些特性的重要性,以得到每个特性的总重要性。ϕ经过一次迭代。这个过程产生了GBM方法的可变重要性分数。

分类器特征

序列信息用一个热编码来表示20个标准氨基酸和N-连接糖基聚糖。氨基酸AAi, iϵ{1,,21}被转换成一个21维向量,其中iTH向量位置设置为1,所有其他20个矢量位置都设置为0。例如,对长度为100的氨基酸序列应用一个热编码,将被翻译成长度为2100的二进制向量。

BNAb-REP培训

为了训练bNAB-REP分类器,我们首先进行了超参数优化,以确定给定数据的最优GBM参数。我们创建了一个网格T × J × r × η=120,特别是树木数T=1000,最大深度Jϵ{1,2,3,4,5,6},采样率rϵ{#features#features,0.1,0.2,0.3},以及学习速度ηϵ{0.001,0.01,0.05,0.1,0.2}..值得注意的是,我们应用了一个基于曲线下训练区域(AUC)收敛的早期停止准则。这对参数有特殊的影响。T33例中只有2例超过100例。随后,我们对每个组合进行了十次交叉验证,并选择了获得最大十倍交叉验证值的参数。然后,我们对每个组合进行了十倍的交叉验证。最后,选取曲线下交叉验证面积最大的最优参数(AUC)。一旦知道了最优的超参数,利用这些参数在完全训练集上建立模型,并在独立的测试集上评估它们的预测性能。

替代预测因子

为了与bNAb-REP预测指标进行比较,我们训练了基于Logistic回归和随机森林的附加模型。Logistic回归属于广义线性模型,我们用二项预测器训练了二项预测器。GLM中提供的功能H_2O包入R..随机森林(RF)属于基于集成的监督树学习技术.RF算法将一般的套袋或自举聚合技术应用于决策树学习。我们采用十倍交叉验证策略,对随机森林中的树数、树的最大深度和列采样率等超参数进行了网格搜索。我们使用分布式随机森林函数来实现随机森林模型,H_2O包入R..在此基础上,实现了Hake和Pfefer提出的支持向量机(SVM)算法。22..支持向量机(SVM)属于非线性优化技术的范畴,它通过构造分离的超平面来区分不同类别的输入数据。建立支持向量机模型的一个关键步骤是选择编码输入数据相似性结构的非线性核函数。核函数将输入数据带到高维空间,其中属于每一类的输入是线性可分的,当映射回输入空间时,会产生非线性分离超平面。在本工作中,我们使用hake和pfe显弗对所有bnbs提出的oligo核来预测新病毒株对每个bnb的中和敏感性。22,使用哈克和普菲弗提出的精确实施和培训数据。22(脚本可在以下几个方面获得:https://github.com/RedaRawi/bNAb-ReP).

所有示范培训脚本如下:https://github.com/RedaRawi/bNAb-ReP.

灵敏度和电阻分类的概率阈值推导

虽然训练/测试分割比例与模型性能之间没有明确的关系,但沙宾等人..结果表明,75%的数据集用于训练,25%的数据集用于测试。37..与普菲弗所实施的类似等人..哈克等人.我们使用这个概率截止值作为区分抗病和敏感病毒序列的最佳阈值。22,38..特别是,我们为每个bNAb分类器选择了一个截止点,为平均真正率和真负率提供了最佳的平衡。

噪声模拟

我们研究了随机噪声对抗VRC 01抗体bNAb-REP预测器预测性能的影响。我们使用原来的640种训练序列/中和分类训练bNAb-REP预测器,分别添加320、128、64、43、32、21和13种噪声序列/中和类别(分别相当于信噪比2、5、10、15、20、30、50)。对于每个随机噪声输入,根据原始VRC 01训练集的普遍程度,随机抽取噪声序列和中和类别的每个残基位置的氨基酸。每次信噪比实验重复5次。

表位和表位掩埋面积计算

用NACCESS软件计算抗体与抗原之间的掩埋面积。39,40..每种抗体的表位和表位残基定义为非零埋比表面积的残基。在2G12的情况下,表位残基被定义为糖聚糖N 295,N 332,N 339,N 386和N 392,基于Scanlan。等人.41..每个类别的最终表位残基定义如下。V1V2类表位残基包含131-196个残基(HXB 2编号)之间的所有排列位置。所有其他类别的表位残基被定义为所有bNAb表位残基在上述确定的每一类中的结合。

统计分析

P值和比特率值如图所示。4A,B用Fisher的精确检验(R功能费舍尔.试验)。统计意义,见附图沙一S2,由以下程序确定。首先,我们使用R图书馆诺泰斯特,特别功能广告.试验..如果给出正态分布和方差同质性R功能瓦尔.试验),我们用t检验来确定意义(R功能t.试验)。如果既不给出正态分布,也不给方差同质性,则采用Mann-Whitney检验(R功能威尔考克斯.试验).


武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297