基于串联质谱的液相色谱(LC-MS / MS)定量蛋白质组学为健康和患病患者提供相对不同的蛋白质丰度,从而为分子相互作用,信号通路和生物标志物鉴定提供信息
摘要
基于串联质谱的液相色谱(LC-MS / MS)定量蛋白质组学为健康和患病患者提供相对不同的蛋白质丰度,从而为分子相互作用,信号通路和生物标志物鉴定提供信息,以服务于药物发现和临床研究。典型的分析工作流程始于从LC-MS图谱进行肽特征检测和强度计算。我们是第一个提出基于深度学习的模型DeepIso,该模型结合了卷积神经网络(CNN)和递归神经网络(RNN)的最新进展来检测不同电荷状态的肽特征,并估算其强度。现有工具的设计仅具有有限的工程功能和特定领域的参数,尽管有大量新的蛋白质组学数据,但几乎没有更新。另一方面,DeepIso由两个单独的基于深度学习的模块组成,可通过多层神经元来学习高维数据本身的多个表示形式,并适用于新获取的数据。我们的模型报告的肽特征列表与基准数据集中的高质量MS / MS标识相匹配,达到97.43%,高于几种广泛使用的工具所产生的匹配。我们的研究结果表明,新颖的深度学习工具对于推动蛋白质鉴定和定量方面的最新技术很有用。通过多层神经元学习高维数据本身的多种表示形式,并适应新获取的数据。我们的模型报告的肽特征列表与基准数据集中的高质量MS / MS标识相匹配,达到97.43%,高于几种广泛使用的工具所产生的匹配。我们的研究结果表明,新颖的深度学习工具对于推动蛋白质鉴定和定量方面的最新技术很有用。通过多层神经元学习高维数据本身的多种表示形式,并适应新获取的数据。我们的模型报告的肽特征列表与基准数据集中的高质量MS / MS标识相匹配,达到97.43%,高于几种广泛使用的工具所产生的匹配。我们的研究结果表明,新颖的深度学习工具对于推动蛋白质鉴定和定量方面的最新技术很有用。
深度学习在对象识别方面的出色表现为生物信息学领域开辟了新领域。此外,根据我们的知识,我们使用卷积神经网络(CNN)和递归神经网络(RNN)解决肽特征检测问题的研究是首次尝试。CNN的是一种类型的前馈神经网络,其中它的神经元之间的连接图案生物由动物视觉皮层的组织启发1,2。CNN在ImageNet 3的革命性突破后开始流行对象识别竞赛,2012年。RNN使用内部状态(内存)展示时间动态行为,这为许多自然语言处理任务(例如Google神经机器翻译系统4)带来了开创性的成果。
另一方面,基于液相色谱-串联质谱(LC-MS / MS)的蛋白质组学是一个建立完善的研究领域,用于发现疾病生物标记,药物靶标验证,作用方式(MOA)研究和安全标记药物研究中的鉴定5。最新的先进LC-MS技术类型可生成大量具有高扫描速度和高分辨率的分析数据,这几乎是无法手动解释的。发现深度神经网络非常有效且灵活,可通过其神经元的许多层来发现数据的复杂结构。因此,它也进入了分析LC-MS数据的方式6。例如,DeepNovo 7,8引入了深度学习以从串联MS数据进行从头进行肽测序。Bulik-Sullivan 等。图9创建了用于使用深度学习进行新抗原预测的抗原呈递的计算模型。DeepSig 10采用输入的蛋白质序列来检测信号肽并预测切割位点。DeepRT 11在液相色谱中提供了改进的肽保留时间预测。深度学习在该领域的应用正日益成为一种有前途的方法。
蛋白质的鉴定和定量是蛋白质组学的基本任务,而肽是蛋白质的基础。首先将蛋白质酶解成肽,然后通过LC-MS / MS仪器分析肽。LC-MS / MS数据的典型分析的工作流包括:从LC-MS地图肽特征检测和强度计算,从MS / MS谱的肽鉴定,以及蛋白质分析谱12,13,14。第一步,从LC-MS图谱进行肽特征检测和强度计算是我们的目标问题。蛋白质样品的LC-MS图是3D图,其中三个维度是:质荷比(m / z)或Da,样品中肽离子的保留时间(RT)和强度(I)。肽特征是由同一肽的不同分子同位素(例如碳12和碳13)形成的多同位素模式。由于肽段重叠,同一分子的多个电荷和强度变化,在LC-MS图谱中检测多同位素图谱是一项艰巨的任务。而且,单个LC-MS图可能具有千兆像素大小,其中包含数千到数百万个肽特征。但是,Liu 等人发现CNN可有效解决类似的模式识别问题,例如,在千兆像素病理图像上检测癌症转移。15。此外,RNN与CNN的组合可以处理跨越多个时间范围的模式。例如,视频分类16使用FC-RNN模型。在高度稀疏且嘈杂的LC-MS图谱中检测肽特征可能涉及选择在嘈杂且无分段的序列中感兴趣的帧的问题,可以使用时间注意门控模型 17处理该问题。因此,为了解决我们的目标问题,我们提出了一种基于深度学习的模型DeepIso,以检测肽特征及其电荷状态并在LC-MS图谱中估算其强度。它分两个步骤工作。第一步,IsoDetecting模块会发现多同位素图谱并生成一系列检测到的同位素。在第二步中,IsoGrouping模块绕过感兴趣的斑点区域,并将多个同位素分组为一个肽特征。技术报告 18中介绍了我们的初步工作。,仅使用CNN来检测同位素,并使用启发式方法将同位素分组为肽特征。另一方面,本文提供的新模型使用两个单独的深度学习模块IsoDetecting和IsoGrouping,这两个模块都是通过结合使用CNN和RNN而开发的,而无需使用任何启发式方法。
从LC-MS谱图中检测肽特征的传统方法采用了不同的启发式方法,但它们都不依赖于深度学习从可用的LC-MS数据中自动找到合适的参数。MSight 19从原始MS数据文件生成图像,以适应基于图像的峰值检测。CentWave 20识别出有趣的质心,然后将质心折叠成一维色谱图,并执行基于小波的曲线拟合以分离紧密洗脱的信号。在MaxQuant 21中,通过拟合高斯峰形状检测峰(同位素信号),然后通过使用图理论数据结构发现肽特征。AB3D 5首先粗略地选择强度大于给定阈值的所有局部最大峰,然后应用迭代算法处理每个峰的相邻峰以形成肽特征。TracMass 22和Massifquant 23使用2D卡尔曼滤波器(KF)在高度复杂的样品中查找峰。恐龙是由Teleman 等人提出的。24,其中特征查找的工作流程涉及在LC-MS图上进行质心分析,将质心峰组装成单个同位素迹线(山丘),通过理论上可能的m / z聚类山丘差异,最后将簇反卷积为电荷状态一致的特征。肽特征检测算法的评估具有挑战性,因为由于LC-MS图20的巨大尺寸,人工标注肽特征超出了范围。结果,上面提到的大多数文献都通过采用由多种算法生成的一组通用的肽特征或一系列经MS / MS鉴定的肽来准备基础真相数据。一些文献将地面真实数据视为真实阳性,而将在地面真实数据之外的检测视为假阳性,因此根据多种统计指标(例如,灵敏度,特异性等)报告性能。例如,CentWave 20提供了高灵敏度和高灵敏度。精确。AB3D 5灵敏度高但精度差。Massifquant 23具有高灵敏度和高特异性。另一方面,有论点支持我们不能完美地在LC-MS图谱中将肽特征标记为真阳性或假阳性。由于LC-MS图谱中的多同位素图谱未检测为肽特征,以后也未通过肽鉴定工具鉴定,因此实际上可能是肽特征或仅仅是噪音。我们不确定它们的存在,因为没有任何肽特征检测工具或识别工具是完美的。因此,MS / MS鉴定的肽与通过不同算法生成的肽特征列表匹配的百分比可用于性能评估。例如,恐龙24 报告说与MS / MS鉴定的肽的匹配度比其他现有工具更高。
在大多数现有的肽特征检测算法中,许多参数是根据经验实验设置的,其不同设置可能会对结果产生很大影响。与这些现有工作相比,我们的研究旨在利用真实的数据集系统地训练深度神经网络,以自动学习数据的所有特征,而无需人工干预。最后但并非最不重要的一点是,即使模型做出了错误的预测,也可以将正确的结果作为新的训练数据放回去,以便模型可以从自身的错误中学习。我们相信,这种模型将比现有技术具有更好的性能,并将很快成为人们选择的方法。
我们使用图1所示的工作流程解释了我们提出的模型的直觉 。它由两个步骤组成,并且可以在原始LC-MS谱图上运行,而无需进行任何用于噪声消除的预处理。第一步,IsoDetecting模块沿着RT轴扫描LC-MS图,以检测具有形成特征潜力的同位素。扫描窗口足够大,可以看到同位素的模式并确定其电荷状态(1到9)。同位素记录在哈希表中。第二步,IsoGrouping模块转到检测到的同位素区域,然后沿m / z轴滑动另一个扫描窗口,以确定特征的开始和结束同位素。因此,它会生成一个特征表,该表报告检测到的特征以及单同位素的m / z(特征的第一个同位素),电荷,每个同位素的RT范围和强度。
第一步,我们沿着RT轴扫描LC-MS图的工作类似于视频剪辑分类,其中RT轴是时间范围。因此,我们建立了由Yang 等人提出的以FC-RNN方式结合CNN和RNN的IsoDetecting模块。16,在两个基准数据集的视频分类的背景下获得了最先进的结果。在第二步中,我们开发了结合CNN和Pei 等人提出的注意门RNN的IsoGrouping模块。17。我们在该模块中使用注意门将更多的注意力集中在保持单同位素(肽特征中的第一个同位素)的框架上,同时将同位素分为肽特征。使用合适的训练数据分别训练IsoDetecting和IsoGrouping模块。在“方法”部分中,我们将详细介绍每个步骤以及培训过程。
我们从Chawade 等人准备的ProteomeXchange(PXD001091)下载了基准数据集。25用于数据相关采集(DDA)。样品包括一系列长期稀释的合成肽(来自马铃薯的115个肽和来自人的158个肽),掺入稳定的和不变的肽背景中(从化脓性链球菌 SF370 26获得)。将合成肽以12个不同的浓度点掺入背景中,得到12个样品,每个样品均具有多个重复。我们从每个重复样本中获得LC-MS图,总共进行了57个LC-MS图。我们从这些图中切下肽段特征以进行模型训练。我们应用k = 3倍交叉验证27种技术来评估我们提出的模型。在每个折叠中,我们使用12张地图进行模型训练,4张地图进行模型验证以及41张地图进行模型测试。模型验证步骤是训练的一部分,用于选择模型的最佳状态。在以下各节中,我们将首先详细说明模型的训练和验证敏感性。然后,我们将通过与现有工具进行比较来评估DeepIso的性能。培训和绩效评估(测试)的基本原则设置不同,以下各节对此进行了简要介绍,并在补充说明 C中进行了详细说明 。
由于CNN和RNN是有监督的学习方法,因此我们需要标记数据进行培训。由于LC-MS图20的十亿像素大小,人类对肽特征的注释超出了范围。因此,我们在LC-MS图上运行MaxQuant 1.6.3.3和Dinosaur 1.1.3的特征检测算法,然后采用这两种算法生成的通用特征列表集,其公差为10 ppm m / z和0.03分钟RT,作为标记的样品用于训练和验证14,20,28。表1列出了从每种充电状态以这种方式收集的样品总量 。
首先,我们训练IsoDetecting模块,该模块尝试使验证数据集上的类敏感性最大化。此处,类别灵敏度是从每个类别中正确检测到的样本的百分比,其中类别属于电荷状态z = 0到9。电荷状态z = 0表示不存在特征。此类的敏感度表明模型将实际特征与嘈杂的痕迹区分开来的程度,以及将紧密相邻的特征区分开的程度。如表1所示,由于充电状态为6到9的特征训练数据不足, ,我们必须应用数据过采样和扩充功能,以增加这些课程中的训练样本。表2中提供了训练模型在训练集和验证集上的平均敏感性和准确性 。由于针对充电状态6到9的训练数据缺乏差异,因此对于这些类别,模型的验证敏感性未达到接近90%。但是,由于大多数肽特征在电荷状态<6时出现,因此较低的灵敏度不会影响整体性能。
第二步,将IsoGrouping模块的灵敏度定义为报告的具有正确同位素数目的特征的百分比。训练样本被分为五类,分别表示为A,B,C,D和E。A类与没有任何特征的嘈杂轨迹相关。B,C,D和E类对应于具有2、3、4和5个同位素的特征(要成为一个特征,它必须至少具有两个同位素)。由于扫描窗口从左到右滑动,因此它可以处理肽特征具有超过五个同位素的情况(“方法”部分提供了详细信息)。我们在表3中看到了训练和验证的敏感性 。我们观察到大多数类别的灵敏度都低于80%。为了更好地理解,我们在表4中列出了混淆矩阵 。我们看到该模型几乎不会遗漏单同位素,但对肽特征的最后一个同位素感到困惑。请注意,在工作流程中,报告特征的单同位素以及前几个同位素(具有较高的强度峰)更为重要。因为它们支配了特征强度,并用于蛋白质定量和鉴定的后续步骤。因此,如果正确报告了单同位素和高强度同位素,我们将接受一个特征。然后,我们选择IsoGrouping模块的状态,该状态将最大化验证数据集上与功能匹配的MS / MS标识的百分比。
为了进行性能评估,我们提出了与我们的算法产生的肽特征列表相匹配的高可信度(即高质量)MS / MS肽鉴定的百分比。由于鉴定的肽必须在LC-MS的地图存在,因此,越是检测对应于它们的功能,更高的性能5,14,20,28。我们运行MASCOT 2.5.1来生成MS / MS鉴定的肽的列表,并且肽得分> 25(范围从0.01到150)的鉴定被认为是高可信度鉴定5。
在此测试阶段,我们首先通过IsoDetecting模块扫描LC-MS图。然后,由IsoGrouping模块进行的另一次扫描将通过第一步中检测到的潜在模式,并报告肽特征的最终列表。为了将模型的性能与其他现有工具进行比较,我们还运行了MaxQuant 1.6.3.3,OpenMS 2.4.0和Dinosaur 1.1.3的肽特征检测算法。我们使用Chawade 等人报道的MaxQuant的已发布参数。25。对于Dinosaur,使用在其github存储库(https://github.com/fickludd/dinosaur)中提到的默认参数。对于OpenMS,我们使用Python结合pyOpenMS 28,29并遵循文档(https://pyopenms.readthedocs.io/en/latest/feature_detection.html)中解释的质心技术。对于所有特征检测算法,我们将充电状态范围1设置为9(或工具支持的最大充电量)。然后,将生成的功能列表与容差为0.01 m/ z,RT为0.2分钟的高可信度MS / MS标识进行匹配。
如前所述,我们有12个样本,其中样本2、3和4每个都有7个重复,其余样本每个都有4个重复。我们在表5中显示了与12个样品的检测肽特征相匹配的高可信度MS / MS鉴定的平均百分比 (整个结果可以在补充表S3中找到 )。
尽管性能相当接近,但是DeepIso仍然领先于所有其他产品,这表明需要深度学习工具来提高现有技术水平。如补充图S2中不同工具所识别的功能匹配MS / MS的维恩图所示,它能够报告其他工具未检测到的某些功能 。在“讨论”部分中,我们解释了模型可能缺少功能的情况,并提出了解决该问题的潜在解决方案,从而进一步提高了灵敏度。
我们想提及的是,分类错误的案例的再培训如何在我们的模型中促进更好的学习。如前所述,如果深度学习模型犯了错误,我们可以收集这些案例并使用这些特定案例重新训练该模型,从而提高该模型在下一次给出正确结果时的能力。我们在构建IsoGrouping模块时应用了此再培训过程。模块无法分离图2(c)中所示的相邻特征,例如特征1和2 。我们收集了这种情况,并对模型进行了重新训练,该模型使整体匹配度提高了约4%(详细信息在补充说明B中提供 )。因此,这种模型可以随着新案例的出现而发展。
接下来想通过我们的模型验证肽特征强度计算的正确性。对于生物学实验的统计分析,应关注肽特征强度,并且必须根据原始数据20进行计算。该技术是首先将曲线拟合应用于特征中同位素的钟形强度信号。然后,计算并添加特征中所有同位素的曲线下面积(AUC),以获取该特征的强度或AUC。因此,肽特征强度的完美取决于钟形信号是否被很好地检测到。我们在表6中报告了DeepIso与其他现有算法之间的肽特征强度的Pearson相关系数 。看来我们的算法与其他现有算法具有良好的线性相关性,这验证了我们模型对肽特征强度的计算。
IsoDetecting模块和IsoGrouping模块扫描LC-MS图的总时间被视为DeepIso模型的运行时间。表7列出了不同算法的运行时间以及我们实验中使用的平台 。看来我们的DeepIso模型的运行时间比Dinosaur和Maxquant更长。但是,如果我们增加用于并行处理的GPU,则可以缩短运行时间。我们还在“讨论”部分中提出了一些潜在的方法来加快DeepIso模型的速度。
最后,我们要说明的是,尽管使用了Dinosaur和MaxQuant的通用集合来准备训练数据,但这并不意味着我们的模型只是在学习模仿它们的方法。我们仅使用通用集来代替人工注释者来标记训练数据。DeepIso通过几层神经元的随机梯度下降并反向传播预测误差来学习用于肽特征检测的适当参数,这与现有的启发式方法完全不同。因此,这种深度学习模型的学习结果是完全不同的。此外,一旦我们在蛋白质样品上训练了模型,则无需进一步训练,相同的模型应适用于来自相同或其他近缘物种的所有其他蛋白质样品。
我们提出了DeepIso,这是一种肽特征检测算法,它不应用人工设计的涉及质心,曲线拟合,聚类等的启发式方法。相反,它利用深度神经网络的强大功能通过揭示重要的特征特征来自动进行肽特征检测的学习。来自LC-MS数据。我们将首先从工业角度论证不同设计策略的合理性以及该模型的实用性。然后,我们将讨论当前模型的不足,并提出克服这些问题的潜在解决方案。
我们想解释一下将RNN与CNN一起用于肽特征检测的重要性。在这项研究的初始阶段,我们仅在等测模块中使用CNN,并且将单位沿RT轴设置为0.01分钟。该技术仅报告了约73%的MS / MS识别特征,而由于沿RT轴使用RNN,当前模型中仅报告了约97%。IsoDetecting模块中的RNN单元有助于检测信号中断的特征,如图 2(a)所示。除此之外,使用MS-Scan作为RT轴的单位,我们可以避免由于在某些RT轴单位上的缺失MS-Scan上插值信号而造成的人为干预。它还可以使整个扫描速度更快,并防止网络将损坏的功能与嘈杂的痕迹混淆。请参阅附表 S2为实验细节。
现在,我们讨论有关在IsoDetecting中使用简单RNN单元而不是Long Short-term Memory(LSTM)30单元的原因。尽管LC-MS质谱图沿RT轴的跨度很长,但是RNN不需要过去回顾很久就可以检测到同位素,因为每个同位素的RT范围都不会很长。开始检测特征后(将z的值充电为1到9),它 仅需记住直到特征结束时的状态(z = 0)。之后,它可以刷新其内存。这就是为什么我们不使用LSTM单元使网络变得不必要地复杂。
我们在IsoDetecting模块的网络中不使用任何池化层。为了检测肽特征的尖锐边界和位置,我们希望网络具有“与翻译相等”的属性(由CNN过滤器确保),以概括不同位置的边缘,纹理,形状检测,但对“不变” “平移”(由池化层确保),使检测到的特征的精确位置变得无关紧要,并且对同位素的检测出乎意料地更宽(请参见补充图 S5)。因此,我们避免使用池化层。
在IsoDetecting模块中,[15×211]的帧大小(覆盖15个扫描和2.11 m / z)可确保它看到某个特征的合理区域,以便与电荷一起确定该特征的存在。如果减小帧大小,则必须在IsoDetecting模块中使用二维和双向RNN(以便查看周围区域)。它可防止对LC-MS谱图的多个区域进行批处理,从而使整个过程耗时。较小的帧大小也可能会妨碍CNN进行模式检测的功能。
如果我们在IsoDetecting模块中使用注意门控RNN,则其灵敏度较低,如表 8所示。因此,我们选择FC-RNN网络来设计此模块。
到目前为止,我们已经讨论了训练“ IsoDetecting”模块的方法。现在,我们将在DeepIso模型的第二步中针对IsoGrouping模块进行讨论。我们在表9中简要介绍了IsoGrouping模块的进展情况,以实现模型的当前状态。 。第一行显示了初始的IsoGrouping模块,该模块是使用具有三个卷积层,一个完全连接的层,没有任何合并层和状态大小4的FC-RNN网络设计的。它仅报告约87%的MS / MS识别肽段的肽段特征。然后,我们使用前面提到的相邻特征案例对模型进行重新训练,从而将匹配率大幅度提高了约4%。增加了最大池化层,更多的完全连接的层和增加的状态大小,逐渐进一步提高了性能。后来我们看到,通过注意门控的RNN代替FC-RNN,网络可以提供更好的性能。我们通过多个IsoGrouping模块的组合来生成最终结果,这些模块在初始权重,学习率和完全连接层中的神经元数量方面有所不同。我们已在补充说明中包含每个阶段的详细信息 d。
最后,如表10所示,我们改进了电荷状态6至9的肽特征检测 。这主要涉及IsoDetecting模块。由于根据表1这些类别的原始样本量可以忽略不计 ,因此我们不得不对数据进行过采样(相当于对错误分类来自较低丰富类别的样本施加更多的罚款)和扩充(有关详细信息,请参见补充说明 A)以对模块进行训练。这些课程。如结果部分所述,它可以改善与MS / MS识别的最终匹配。
从工业角度看,正确检测具有高强度信号的肽特征非常重要。为了比较不同算法的这种特性,我们基于肽特征强度的升序对由不同算法生成的肽特征列表进行排序。然后,从每个列表中选择前10,000个肽段特征(每个LC-MS图中现有肽段特征的约20%,约为50,000),并将它们表示为高可信度特征列表。最后,我们将该列表与高可信度MS / MS标识进行比较。DeepIso提供89.32%的匹配度,高于恐龙(89.24%),MaxQuant(87.65%)和OpenMS(60.44%)。OpenMS的性能低于其他产品,因为它会产生一些高强度的误报。我们相信,
现在,我们想在我们提出的DeepIso模型中提及一些缺点。在LC-MS谱图上某些肽段特征的视觉观察发现,由于考虑了m / z轴的较低分辨率,因此缺少了某些特征。尽管我们能够教导DeepIso检测重叠的特征,如图 2(b)所示,但是可以检测LC-MS图谱中一些紧密相邻的肽特征(具有接近的单同位素峰),例如,图5中的特征A和特征B。图 3(a)被合并在一起。由于我们不想对它们使用任何启发式方法,因此我们无法分离与A和B相关的检测。但是,如果我们提高分辨率,如图3(b)所示, ,然后将特征在LC-MS映射中分离,从而也由IsoDetecting模块隔离。因此,提高分辨率将使IsoDetecting模块更好地看到LC-MS映射并获得更高的性能。但是,在那种情况下,我们将不得不牺牲时间效率,因为将分辨率提高一个小数点,例如0.01到0.001,将使输入帧的尺寸大10倍,并最终生成更大的特征图,从而使模型变慢了。因此,我们必须找到一种智能架构,该架构将使我们能够在不影响运行时间的情况下提高分辨率。
最后,我们将提出一些潜在的未来范围作为结论。我们认为,由于重叠的肽段和有时不符合肽段特征典型假设的多同位素图谱,在肽段特征检测方面仍有改进的空间。深度学习网络对于在无需人工干预的情况下从训练数据进行自我学习的能力而言是理想的。但是,时间效率也是考虑实际实用性的重要因素。DeepIso的运行时间由第一步IsoDetecting模块决定。因为它必须扫描表示为千兆像素大小(约[12,000×140,000]像素)的2D图像的整个LC-MS图。因此,我们接下来要考虑的问题之一就是使IsoDetecting模块具有较高的时间效率。同时,我们希望考虑提高分辨率如前所述,LC-MS的m / z视界可改善特征检测。一种可能的方法是使用PointNet 31,它避免了3D对象的2D图像表示,而是直接在点云(空间中的数据点集)上工作。除此之外,将IsoDetecting模块设计为分段网络也可能会有所帮助。除此之外,在实施IsoGrouping模块时是否使用“ BERT” 32技术(自然语言处理方面的最新进展)是否会带来更好的性能,还有待进一步研究。DeepIso在无标签量化(LFQ)中的应用可能是另一个工作方向。我们期待着将来的这些研究机会。
我们的模型在原始LC-MS图上运行处理。我们使用ProteoWizerd 3.0.18171 33来获取原始LC-MS映射的'.ms1'格式。然后,通过将三维“强度”视为介于0到255之间的灰度值,我们读取文件并将其转换为2D灰度图像(即RT× m / z图)。
根据我们的设计,此步骤基本上是10类分类问题。请参考图 4中以RT × m/ z图表示的LC-MS图,以阐明扫描过程。我们的网络将LC-MS映射扫描为[ M × N ]维帧的序列,其中每个序列位于m / z轴上的一个点(例如X),时间步长范围从RT轴的第一次MS扫描到最后一次MS扫描。我们将像这样的每个序列的扫描命名为一轮“深度扫描”。在该图中,我们看到一个序列越过两个特征的同位素,特征“ a”和“ b”分别具有电荷“ 1”和“ 2”。在每个时间步长,网络输出范围为0到9的类别之一,0是指示“未看到特征”的类别,而1到9是指示所看到的特征具有相应费用的类别。例如,在图中,我们使用一些虚线箭头指示相应时间步长处的网络输出(费用1)。网络在空格或嘈杂的迹线中输出0。请注意,扫描窗口即框架的尺寸为[ M × N] = [15×211],该值足够大,可以看到潜在特征中的第二个同位素(沿m / z轴)以决定电荷。我们这样做是为了避免使用双向RNN。框架也重叠,因此我们可以很好地追踪同位素的RT范围。
RT轴的每个单位代表一个MS扫描(相距至少0.01分钟),m / z轴的每个单位等于0.01 m / z。但是,每次MS扫描都不会保存来自所有m / z点的信号。因此,如虚线所示,在LC-MS映射(图4)中的“深度扫描”序列中 有一个中断,我们只需将当前RNN状态传递给下一个可用帧即可。请注意,一次“深度扫描”的状态沿RT轴传递。因此,位于X m / z的一个“深度扫描”与位于X + 0.01 m / z的另一个“深度扫描”无关反之亦然。因此,我们可以批量处理多个“深度扫描”,从而使整个方法省时。
我们保留了九个哈希表,用于记录 “深度扫描”期间九个类别(z = 1到9)中特征的检测坐标(RT × m / z图中的点)。同位素的m / z值用作这些哈希表的关键字,并且将要素中同位素的RT范围作为值插入这些关键字下,如图1的框图所示 。由于更广泛的同位素的检测可能跨越m / z的范围(即,沿着m / z轴的多个像素,如图3中的特征“ C”所示) ),我们将其加权平均值用于选择特定的同位素m / z。
深度学习网络如图4所示 。网络将时间步t = t 1的帧作为输入。一共有三个卷积层,然后是两个完全连接的层(分别表示为i和o),一个FC-RNN层,并在每个时间步生成输出。在第三卷积层和第一完全连接的层i后面添加值为0.50 的退出层,这在许多情况下被认为是理想的。我们使用状态大小4和tanh激活函数。由于我们正在处理FC-RNN模型34,因此在时间步t处的状态f t定义如下:
凡在,ħ是激活函数,w ^ IO是层的神经元连接权重矩阵我到层ø(如示于图 4),X 它是该层的输出我在当前时间步长吨,w ^ HH是RNN状态的权重矩阵,b o是层o的偏置,而f t -1是先前状态。
现在我们将讨论网络的训练过程。除了训练数据中的许多其他隐藏特征之外,还应该学习肽特征35的基本属性。
1。
在LC-MS图谱中,肽特征中的同位素沿m / z轴等距。对于电荷z = 1至9,同位素分别为1.00 m / z,0.5 m / z,0.33 m / z,0.25 m / z,0.17 m / z,0.14 m / z,0.13 m / z和0.19 m / z相距12的距离。
2。
同位素的强度在其保留时间(RT)范围内形成钟形,如图1的放大图所示 。
3。
肽特征经常相互重叠。
训练序列长20帧。通过切割与肽特征的单同位素比对的序列产生阳性样品。我们从空白或嘈杂的区域中剪切掉序列,这些序列不与任何特征对齐,并将其视为阴性样本。通过这种方式,我们生成了大约200,000个阳性样本和200,000个阴性样本。由于IsoDetecting网络会在每个时间步生成输出,因此我们用0到9之间的一种类别标记序列的每一帧。我们处理可变长度序列,因为肽特征可能不会跨越20帧(扫描)。我们将数据扩充应用于电荷状态为6到9的训练样本。补充说明A中提供了有关训练数据生成的详细信息 。我们使用“亚当”随机优化方法36初始学习率为0.01。我们在输出层使用稀疏softmax交叉熵作为误差函数。我们运行大约100个纪元,并且模型在大约90个纪元后开始收敛。
我们使用一个中间步骤,该步骤形成紧密相邻的同位素簇,这些簇具有相同的电荷,重叠的RT范围和沿m / z轴等距。换句话说,同一哈希表的等距同位素被分组为一个簇。例如,我们在图5中看到两个聚类“ P”和“ Q” 。看起来,同一簇可能具有多个肽特征。此步骤旨在通过允许第二步中的批处理来加快整个过程。每批包含约500个群集的数据将传递到IsoGrouping模块。该模块负责检测群集中要素的开始和结束。请注意,此步骤是可选步骤,避免执行此步骤不会对结果造成任何重大变化。但是,由于未利用批处理功能,IsoGrouping模块的运行时间急剧增加。我们对每个簇的最大同位素数没有设置任何限制。实验表明,每个簇通常最多容纳16-20个同位素。
在此步骤中,将框架放置在簇的同位素处。为了方便起见,请参照图 5。IsoDetecting和IsoGrouping模块有两个主要区别。首先,IsoDetecting模块沿RT轴扫描LC-MS图,而IsoGrouping模块沿m / z从左至右扫描轴。因此,时间步长跨m / z轴。其次,IsoGrouping模块在看完“ 5”个连续帧(5个时间步长)后生成一个输出,这不同于IsoDetecting模块在每个时间步长生成输出。在此,每个集群都经过多轮处理。一轮的起始帧取决于前一轮的输出,各轮也可以重叠。补充方法A中提供了有关图形扫描过程的逐步说明。
网络如图6所示 。它具有四个卷积层,然后是两个完全连接的层。这次我们在第一和第二卷积层之后包括池化层。在每个完全连接的层之后都包含掉线层,掉线概率为0.5。我们将IsoDetecting模块检测到的电荷z输入为第i层上的特征,如图所示。为此,我们将z与层i的输出X i串联在一起。我们使用状态大小8和tanh激活功能。当前状态˚F 吨在时间步长吨,使用注意栅极计算一吨15如下:
其中,˚F 吨 -1是上一个隐藏状态,˚F ' 吨以常规方式计算的当前状态和一吨表示当前帧的所述最终决定的重要性。所述˚F ' 吨和一吨,如下进行计算:
在等式中 3,ħ是激活函数,w ^ HH是权重矩阵连接前面的隐藏状态˚F 吨 -1到当前状态,X OT是该层的输出Ó,w ^ 哦是连接的权重矩阵X OT到RNN层,bh是RNN层的偏差。在等式中 在图4中,σ是S型激活函数,W a是学习注意力机制的权重矩阵,b a 是相应的偏差。
通常,同位素的强度是特征中其他同位素中最高的,并且支配了特征的总强度。此属性应通过IsoGrouping模块学习。我们通过为每个肽特征生成5个框架的序列来生成阳性样品,其中该序列始于各个特征的第一个同位素。每个帧的尺寸为[15 x 10],沿RT轴覆盖15个扫描,沿m / z轴覆盖10个单位。框架以与单同位素峰强度相关的点为中心,如图6所示。 。每个序列都由保留特征最后一个同位素的帧索引标记(索引从0开始)。如果特征具有5个以上的同位素,则标记为“ 4”。通过这种方式,我们生成了约220,00个阳性样本。我们通过从嘈杂或空白区域中剪切一些序列来生成负样本。我们还会生成包含肽特征的序列,但是该特征不会从序列的第一帧开始。这些样本被标记为“ 0”,也被视为阴性样本。我们这样做是为了处理IsoDetecting模块将嘈杂的痕迹错误地分类为同位素,从而在中间步骤中将其与实际特征聚在一起的情况。我们生成了大约120,000个阴性样本。我们应用“ Adagrad”随机优化37初始学习率为0.07。我们在输出层使用softmax交叉熵作为误差函数。
为了减少差异,我们使用多个IsoGrouping模块的集合38报告肽的特征。我们生成IsoGrouping模块的四个实例,它们的初始权重,学习率(0.07、0.08),状态大小(6、8、10)和第二个完全连接层的大小(80、128)有所不同。使用软投票39将其输出合并。集成技术可将与鉴定出的肽段的匹配度提高约0.33%。有关详细信息,请参见补充表 S1。
我们想提及实施和培训两个模块所遵循的通用策略。我们使用Google开发的Tensorflow库实现了深度学习模型。但是,我们必须自己构建RNN网络,而不是使用其内置的RNN单元,以反映FC-RNN 16和关注门控RNN单元17中提出的门控机制。在两个模块的训练过程中,我们都使用128的小批量,以确保每个时期的重量更新足够。在每10个小批量训练后,我们会检查验证集的准确性。我们在每个时期之后执行数据改组,这有助于更快地实现收敛。我们会继续训练,直到在大约5个时期的验证集上看不到任何进展为止。在我们的模型中包括辍学层,可使验证灵敏度提高约1.5%。尽管在许多文献中,整流器线性单元(ReLu)激活功能优于tanh,但根据我们的实验,我们的模型对ReLu的学习并不充分。
|