训练数据
We used the neutralization data of 33 different antibodies(10–1074,2F5,2G12,35O22,3BNC117,4E10,8ANC195,CH01,DH270.1,DH270.5,DH270.6,HJ16,NIH-4546,PG16,PG9,PGDM1400,PGT121,PGT128,PGT135,PGT145,PGT151,VRC-CH31,VRC-PG04,VRC01,VRC03,VRC07,VRC13,VRC26.08,VRC26.25,VRC29.03,VRC34.01,VRC38.01,and b12)assayed respectively against 205 to 711 HIV-1 isolates published in the CATNAP database26作为训练。训练集中Env序列的CLADE分布如附图所示。S5..用单轮感染环境假病毒对细胞株进行中和试验。33,34..每个HIV-1分离物都有其完整的包膜糖蛋白氨基酸序列.删除重复的HIV-1全长信封序列。病毒分离物被归类为对一种抗体的抗性,如果它的几何平均IC。50大于50μg/ml或指定为“>”标志,否则属于敏感类别。
试验数据
对于vrc 601的临床试验数据,我们使用了从血浆病毒中分离出的env假病毒的序列和中和数据,如lynch所述。等人.13..在tzm-bl细胞和Sarzotti-Kelsoe细胞上检测环境假病毒。等人.34..A序列和A/D序列以及中和数据都是用相同的方式生成的,这些数据都是从Ssemwanga提取的。等人.31..vrc 01-ati序列是从一项分析性治疗中断试验中提取出来的,在该试验中,来自NIH的志愿者在中断抗逆转录病毒治疗之前和期间进行了vrc 01输注。30..在该出版物中,Env序列由SGA产生;然而,发表的中和试验是用来自生长的传染性病毒进行的,而不是以Env-伪病毒/TZM-bl格式进行的。在这里,我们报告了新的数据,其中我们表达了来自bar报告的序列中的Env-伪病毒。等人..并使用了上述tzm-bl格式。30.
梯度升压机
为了建立训练模型,我们采用了一种基于非线性可解释树的集成技术,称为梯度增强机(Gbm),用于建立抗体抵抗预测器。H_2O包(3.16.0.2版)R软件(https://www.R-project.org)35,36..GBM属于预测方法家族,它采用迭代策略,使学习框架能够连续地拟合新模型,在每次迭代后对响应变量进行更准确的估计。该技术的主要思想是构造新的基于树的学习者,使其尽可能地与给定的损失函数的负梯度相关联,并利用所有的训练数据进行计算。这里可以使用任意的损失函数(L(·,·)。然而,如果损失函数是最常用的平方损失函数,则学习过程将导致连续残差拟合。算法1总结了通用的GBM方法。
Booting过程的优点是在不增加方差的情况下,可以减小模型的偏差。学习不相关的基础学习者有助于减少最终集成模型的偏差。在这项工作中,我们使用了L2-Friedman提出的TreeBoost方法35建立核心的GBM模型。这里的损失函数是经典的平方损失函数(L2):
L2=12||Y−F(X)||22,Y∈{0,1}.
在我们的方法中,基础学习者是J-终端节点分类树。每个树模型都有一个附加形式,如下所示:
θ(X;{γj,Pj})Jj=1=∑j=1Jγj1(X∈Pj).
这里{Pj}j1J不相交区域,它们共同覆盖预测变量的所有联合值的空间。X..这些区域表示相应分类树的J端节点。如果传递给它的参数为true,则指示函数1(·)接受值1,否则为0。因为这些区域是不相交的,θ(X)等于预测规则:如果X ∈ Pj, 然后是θ(X)=γj..现在,伪残差变成:
pai=−[∂L2(Yi,F(Xi))∂F(Xi)]F(X)=Fa−1(X)=Yi−Fa−1(Xi),∀i=1,...,N
行搜索如下:
ρa==argminρ∑i=1N||Yi−Fa−1(Xi)−ρaθa(Xi)||22argminρ∑i=1N||pai−ρaθa(Xi)||22
使用分类树作为基础学习器,我们使用了对每个终端区域进行单独更新的思想。Pja如建议的35得到:
ρaj=meanXi∈Paj(γajpai)
(1)
这个L2算法2总结了两类GBM的树Boost方法.
这里的参数η是一个正则化参数,用于避免对模型进行过拟合,并通过交叉验证获得。对于每个迭代a,最小二乘准则(I(ϕ)用于评估当前终端区域的潜在分裂P分成两个不相交的分区(Pl, Pr)由下列机构提供:
i2(Pl,Pr)=I(φ)=wlwrwl+wr(Yl−Yr)2,
(2)
哪里Yl和Yr分别是左节点和右子节点的响应,以及wl,wr与地区样本数量成正比Pl和Pr分别出现在(弗里德曼)35). I(ϕ)是衡量变量(ϕ)使这一标准最大化。在给定的迭代过程中,只允许一个特性被分割成两个终端区域。因此,如果是J-终端节点分类树,我们生成J−1这类措施。但是,相同的特性可以为J-终端节点树。在这种情况下,我们总结这些特性的重要性,以得到每个特性的总重要性。ϕ经过一次迭代。这个过程产生了GBM方法的可变重要性分数。
分类器特征
序列信息用一个热编码来表示20个标准氨基酸和N-连接糖基聚糖。氨基酸AAi, iϵ{1,…,21}被转换成一个21维向量,其中iTH向量位置设置为1,所有其他20个矢量位置都设置为0。例如,对长度为100的氨基酸序列应用一个热编码,将被翻译成长度为2100的二进制向量。
BNAb-REP培训
为了训练bNAB-REP分类器,我们首先进行了超参数优化,以确定给定数据的最优GBM参数。我们创建了一个网格T × J × r × η=120,特别是树木数T=1000,最大深度Jϵ{1,2,3,4,5,6},采样率rϵ{#features√#features,0.1,0.2,0.3},以及学习速度ηϵ{0.001,0.01,0.05,0.1,0.2}..值得注意的是,我们应用了一个基于曲线下训练区域(AUC)收敛的早期停止准则。这对参数有特殊的影响。T33例中只有2例超过100例。随后,我们对每个组合进行了十次交叉验证,并选择了获得最大十倍交叉验证值的参数。然后,我们对每个组合进行了十倍的交叉验证。最后,选取曲线下交叉验证面积最大的最优参数(AUC)。一旦知道了最优的超参数,利用这些参数在完全训练集上建立模型,并在独立的测试集上评估它们的预测性能。
替代预测因子
为了与bNAb-REP预测指标进行比较,我们训练了基于Logistic回归和随机森林的附加模型。Logistic回归属于广义线性模型,我们用二项预测器训练了二项预测器。GLM中提供的功能H_2O包入R..随机森林(RF)属于基于集成的监督树学习技术.RF算法将一般的套袋或自举聚合技术应用于决策树学习。我们采用十倍交叉验证策略,对随机森林中的树数、树的最大深度和列采样率等超参数进行了网格搜索。我们使用分布式随机森林函数来实现随机森林模型,H_2O包入R..在此基础上,实现了Hake和Pfefer提出的支持向量机(SVM)算法。22..支持向量机(SVM)属于非线性优化技术的范畴,它通过构造分离的超平面来区分不同类别的输入数据。建立支持向量机模型的一个关键步骤是选择编码输入数据相似性结构的非线性核函数。核函数将输入数据带到高维空间,其中属于每一类的输入是线性可分的,当映射回输入空间时,会产生非线性分离超平面。在本工作中,我们使用hake和pfe显弗对所有bnbs提出的oligo核来预测新病毒株对每个bnb的中和敏感性。22,使用哈克和普菲弗提出的精确实施和培训数据。22(脚本可在以下几个方面获得:https://github.com/RedaRawi/bNAb-ReP).
所有示范培训脚本如下:https://github.com/RedaRawi/bNAb-ReP.
灵敏度和电阻分类的概率阈值推导
虽然训练/测试分割比例与模型性能之间没有明确的关系,但沙宾等人..结果表明,75%的数据集用于训练,25%的数据集用于测试。37..与普菲弗所实施的类似等人..哈克等人.我们使用这个概率截止值作为区分抗病和敏感病毒序列的最佳阈值。22,38..特别是,我们为每个bNAb分类器选择了一个截止点,为平均真正率和真负率提供了最佳的平衡。
噪声模拟
我们研究了随机噪声对抗VRC 01抗体bNAb-REP预测器预测性能的影响。我们使用原来的640种训练序列/中和分类训练bNAb-REP预测器,分别添加320、128、64、43、32、21和13种噪声序列/中和类别(分别相当于信噪比2、5、10、15、20、30、50)。对于每个随机噪声输入,根据原始VRC 01训练集的普遍程度,随机抽取噪声序列和中和类别的每个残基位置的氨基酸。每次信噪比实验重复5次。
表位和表位掩埋面积计算
用NACCESS软件计算抗体与抗原之间的掩埋面积。39,40..每种抗体的表位和表位残基定义为非零埋比表面积的残基。在2G12的情况下,表位残基被定义为糖聚糖N 295,N 332,N 339,N 386和N 392,基于Scanlan。等人.41..每个类别的最终表位残基定义如下。V1V2类表位残基包含131-196个残基(HXB 2编号)之间的所有排列位置。所有其他类别的表位残基被定义为所有bNAb表位残基在上述确定的每一类中的结合。
统计分析
P值和比特率值如图所示。4A,B用Fisher的精确检验(R功能费舍尔.试验)。统计意义,见附图沙一和S2,由以下程序确定。首先,我们使用R图书馆诺泰斯特,特别功能广告.试验..如果给出正态分布和方差同质性R功能瓦尔.试验),我们用t检验来确定意义(R功能t.试验)。如果既不给出正态分布,也不给方差同质性,则采用Mann-Whitney检验(R功能威尔考克斯.试验).