您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!2008-2021
Wuhan Xinqidi Biotech Co.Ltd
本企业通过iso9001质量体系认证

MOSS可以从多个大体积dna肿瘤样本中获得高灵敏度的单核苷酸变异

 二维码
发表时间:2021-04-16 14:11作者:武汉新启迪Xinqidibio

摘要

肿瘤内异质性使得体细胞单核苷酸变异(SNVS)的识别成为一个具有挑战性的问题。特别是,低频SNV很难与序列伪影区分开来。虽然越来越多的多样本肿瘤DNA测序数据具有更准确的变异呼叫的潜力,但缺乏使用这些数据的高灵敏度多样本SNV呼叫者。在这里,我们报告MOSS,一种用于识别来自同一肿瘤的多个测序样本中重复出现的低频SNV的方法。MOSS为任何现有的单样本SNV调用方提供了支持多个样本的能力,而不需要额外的时间开销。我们证明了MOSS在保持模拟数据集高精度的同时提高了召回率。在多样本肝细胞癌、急性髓系白血病和结直肠癌数据集上,MOSS确定了新的低频变异体,它们符合人工检查标准,并且符合肿瘤的突变特征。此外,MOSS在同一肿瘤的样本中检测到的变异比单一样本呼叫者报告的更多。MOSS提高了SNV呼叫的敏感性,这将使癌症基因组学中更详细的下游分析成为可能。

导言

癌症是由一种进化过程产生的,在这种进化过程中,体细胞突变在细胞中累积。1。虽然种系突变是遗传的,但体细胞突变发生在个体的一生中。体细胞突变在基因组规模上各不相同,从影响单个碱基的单核苷酸变异(Snv)、影响染色体臂等大基因组区域的结构变异(Svs)和拷贝数畸变(Cnas),到影响整个基因组的全基因组复制。重要的是,肿瘤细胞群,或克隆,在其身体突变的补充-一种现象称为肿瘤内异质性。为了了解肿瘤发生的机制和制定个性化的治疗方案,必须充分描述肿瘤内异质性的程度。这首先准确地称为肿瘤中存在的体细胞突变,这是癌症基因组学中许多重要的下游分析的第一步,包括识别推动癌症进展的突变。2,重建肿瘤的进化史3,4,预测免疫治疗的反应5,识别(暴露于)突变签名6,7并重建癌症演变的重复模式8和转移9。不准确或不完全变异调用可能导致下游癌症基因组分析的不正确结论。

变异调用中的关键挑战是由于现有测序技术的局限性,这些技术无法对完整的基因组从一端到另一端进行测序。这些技术被应用于批量测序样本,并产生比所述基因组短几个数量级的DNA读取。为了克服这一挑战,当前的变异调用者将输入序列的映射作为输入到参考基因组的映射,从参考基因组中识别变异,同时考虑测序和映射错误。在种系变异调用中,所使用的参考基因组是所述物种的参考基因组。在肿瘤样本的体细胞变异呼唤中还有两个额外的挑战。首先,我们的目标是找出不发生在生殖细胞中并且是肿瘤特有的变异体。为了实现这一点,除了一个或多个来自肿瘤的样本之外,还对一个匹配的正常样本进行了测序。体细胞变异呼叫者利用匹配的正常样本来识别生殖系变异体,并获得新的参考基因组,进而用于鉴定体细胞变异体。第二,肿瘤内异质性的存在导致肿瘤样本中变异等位基因频率(VAFs)的变异。虽然种系突变通常有少数频率取决于它们的合子性(例如,二倍体生物体的频率为0、0.5和1),但体细胞突变可能具有VAF,其频率范围介于0到1之间。体细胞变异呼叫者除了存在测序和定位错误外,还必须考虑到这种异质性。区分低频体细胞变体与测序和作图伪影尤其具有挑战性,特别是对于SNV来说更是如此。

提出了几种用于体细胞单核苷酸变异调用的方法。Mutect 210在基因组分析工具工具包(GATK)中,首先进行局部组装和读取单倍型比对,然后用贝叶斯模型逼近基因型的似然函数。斯特雷卡211,由Illumina开发,将正常和肿瘤样本的等位基因频率建模为潜在变量,并通过对频率的边缘化来计算后验概率。缪斯12使用马尔可夫代换模型估计等位基因的平衡频率,然后从样本特定的误差模型中计算截止点。穴居人13以肿瘤在正常样本中的对齐读取、拷贝数和污染作为输入,然后使用期望最大化来计算SNV的概率。其他SNV来电者包括柳叶刀14鸭嘴兽15洛弗16,还有很多其他的。重要的是,上述变异来电者只接受单个肿瘤样本作为输入。然而,多样本数据集17能够更精确地描述肿瘤中存在的克隆以及肿瘤的进化史18,19。这一点,再加上测序成本的降低和液体活检等新的分析技术的提供,导致了多样本数据的可获得性增加。目前的单样本SNV呼叫者无法释放这些数据的潜力,这使得更精确的变异调用成为可能,因为在同一位置的所有肿瘤样本中发生相同测序错误的概率随着肿瘤样本的增加而显著降低(图一)。1a)。

图1:MOSS通过利用多个样本来提高召回率来扩展当前的单核苷酸变异呼叫者。

a当同时分析多个肿瘤样本时,具有低变异等位基因频率(VAF)的单核苷酸变异体(SNVS、黄星)比单独分析肿瘤样本更容易与测序误差(红点)区分开来。bMOSS的工作流概述,以匹配的正常样本(下标0)和SAM作为输入BAM(或SAM)文件m肿瘤样本,连同m任何现有的单样本SNV调用者获得的VCF(可变呼叫格式)文件。MOSS的输出是一个聚合的VCF文件,其中包含在m肿瘤样本。

在这里,我们提出了MOSS,一个体细胞SNV呼叫者,它利用多样本肿瘤数据提供的附加信息,与现有的单样本体细胞SNV呼叫者相比,能够提高灵敏度SNV呼叫。MOSS被设计成一种重量轻、用途广泛的工具,可以将任何选择的单样本调用者转换为多样本调用者(图一)。1b)。MOSS使用一种贝叶斯模型,对多个肿瘤样本进行解释,在每个肿瘤样本上单独运行一个单一样本SNV调用者,在较宽的条件下,从候选集中识别SNV。虽然大多数体细胞SNV呼叫者只支持单个肿瘤样本,但有两个例外:最近版本的Mutect 2(GATK版本4.1)和Multisnv20。利用模拟数据,我们证明MOSS的性能优于这两个多样本呼叫者,并且改进了被广泛使用的单样本呼叫者。具体而言,我们的仿真表明,与Mutect 2(单样本模式)或Strelka 2一起运行MOSS可以准确地恢复低VAF的变体,从而在保持高精度的同时提高召回率。在两个多样本肿瘤数据集上,我们发现由mos识别的大多数附加的低频snv都得到了癌症类型特定突变特征以及通过手动检查标准的良好支持。21。同样,我们改进了急性髓系白血病基准数据集的召回率,该数据集具有高覆盖率的靶向测序所识别的黄金列表。22。最后,我们发现与单个样本调用者相比,MOSS在运行时间方面增加了很少的开销。MOSS提高了对低频SNVS的敏感性,这将使癌症基因组学中更详细的下游分析成为可能。

结果

方法概述

我们认为m肿瘤样本和一个匹配的正常样本(图)。1a)。在我们建议的工作流中,在每个m肿瘤/正常对获得一个允许的候选呼叫集(如图所示)。1b)。MOSS然后通过将所有SNV记录在VCF(变型呼叫格式)文件中的位置结合起来来提取候选位点集(获得的过滤标准比默认参数(包括那些不通过集合筛选器的参数),以及由基调用方推断的正常等位基因。此信息以及原始和重新对齐的BAM(或SAM)文件。m肿瘤标本和匹配的正常样本构成MOSS的输入。

MOSS独立地评估每个候选位点,并计算躯体SNV概率,即一个位点是否包含SNV的后验概率,以及如果存在SNV则相应的肿瘤等位基因。符合Strelka 211,我们假设每个位点最多存在一个肿瘤等位基因。MOSS采用贝叶斯模型计算躯体SNV概率,将正常等位基因、对齐基和质量分数作为观察值,肿瘤等位基因作为潜在变量。MOSS的输出是一个聚合的VCF文件,其中包含在m肿瘤样本。

为了增加对呼叫的信心,MOSS可以选择放弃不符合最低质量要求的读取。然后,作为最后(可选)步骤,MOSS将几个经验过滤器应用于新识别的变量,以进一步降低假阳性率(方法)。例如,可能由测序过程中的系统错误引起的具有链偏差的变异被过滤掉。为了加快计算速度,并确保后验概率不会随着样本数目的增加而消失,在计算后验概率时,莫斯排除了读取与考虑的位点上的正常等位基因相同的样本。此外,如果只有一个肿瘤样本包含带有变异等位基因的读取,则我们只在原始调用者调用SNV时才服从单个样本呼叫者。

MOSS在C++中实现,并利用HTSlib库23用于访问SAM/BAM和VCF文件。MOSS还配备了Python脚本,提供了简单的配置和运行界面。代码和脚本可在Https://github.com/elkebir-group/Moss。有关详细信息,请参阅“方法”。

MOSS提高了模拟数据的准确性

我们首先在一个合成数据集上评估mos的准确性,表明mos提高了召回率,而不损失两个被广泛使用的单样本snv调用者strelka 2的精度。11和Mutect 210。我们模拟Illumina测序m=5个20染色体的大体积DNA样本如下(图1)。2a)。首先,通过从dbsnp中添加germline spp生成一个匹配的正常样本。24人类参考基因组GRCh38p12的20号染色体。接下来,我们随机产生体细胞突变的概率为0.001。然后,我们将突变随机分成四组,形成一个简单的线性系统发育树,包含四个克隆。在用MASCoTE插入75,958个突变后25,我们生成m=5个混合比不同的样品,平均覆盖度分别为30×或60×。

图2:MOSS提高了召回率,而不会丢失合成数据的准确性。

a线性系统发育树,树根代表正常克隆和四个额外的肿瘤克隆。边缘标记表示每个肿瘤克隆中新引入的SNV(单核苷酸变异体)的数目。该表显示了每个样本中每个克隆的流行率。b将Strelka 2(浅蓝色)和Mutect 2(淡红色)识别的SNVS联合使用于5个样本和60×覆盖的模拟大样本DNA测序数据集的精确-回忆曲线,并与这些方法(蓝色和红色)一起应用MOSS。虚线代表F1得分等值线(即回忆和精度之间的调和平均值)。

我们分别在5个肿瘤/正常对上运行Strelka 2和Mutect 2(默认设置)。另外,为了评估单样本调用者在多样本数据上的性能,我们采用了单个样本中调用的SNV的联合。然后,我们在允许的条件下运行每个单样本SNV调用方,以获得MOSS的输入候选集。具体来说,MOSS将生成的VCF文件和重新对齐的BAM文件作为输入。我们绘制了每种方法得到的精确召回(PR)曲线(图)。2b)。在这里,召回是指被调用的模拟SNV的部分,而精度是对应于模拟SNV的调用的部分。具体而言,我们通过调整VCF文件中给定特征的特定方法阈值来生成PR曲线,即Strelka 2的“特征EVS”、Mutect 2的“TLOD”和MOSS的“躯体概率”。

我们发现,与Mutect 2和Strelka 2隔离运行相比,MOSS提高了召回率,而没有丢失精确性(如图所示)。2b)。这也可以从F1得分,这是回忆和精确性的调和平均值。例如,我们看到Strelka 2和MOSS的组合达到了最大。F1得分为0.93,而最高分为0.93F1Strelka 2的得分为0.89,隔离运行(图1)。2b)。我们得到了类似的结果m{2,3,4}样品和覆盖范围30×(附图)1)。此外,与单样本呼叫者相比,MOSS的运行时间可以忽略不计(补充图)。2)。最后,我们将MOSS的性能与最近发布的具有多样本功能的Mutect 2版本进行了比较。虽然这个更新版本的Mutect 2在召回和精确度方面与单一样本Mutect 2和MOSS(补充图)的结合具有相似的性能。1),我们发现多样本Mutect 2运行时间要长得多(补充图2)。2)。相比之下,Multisnv20取得比MOSS(补充图)更糟糕的回忆。1所有方法中运行时间最长的(补充图)。2)。总之,我们的仿真结果表明,与原始的单样本SNV调用者相比,MOSS提高了召回的准确性,并且运行时间开销可以忽略不计。

肝细胞癌数据集中MOSS的评估

我们进一步评估了MOSS对肝细胞癌(HCC)肿瘤的治疗效果。26对其中23例肿瘤活检标本及1例癌旁正常标本进行测序,平均深度为74.4×(图1)。3a)。由于大量的样本,我们无法在这个数据集上运行多样本Mutect 2和Multisnv。因此,在下面的文章中,我们将重点关注与单样本Mutect 2和Strelka 2一起运行时MOSS的性能。具体来说,我们与MOSS一起单独运行Strelka 2和Mutect 2。MOSS与单样本调用者的比较采用调用方默认标准下被调用的SNV的联合。和以前一样,提供给MOSS的输入包括单一样本调用者在允许条件下识别的所有候选SNV的联合,以及来自正常和肿瘤样本的对齐读取。由于空间限制,我们只在主文本中报告Mutect 2的结果,并参考补充图2。3结果使用Strelka 2。

图3:在肝细胞癌(HCC)数据集中,MOSS恢复了单个样本变体调用者丢失的高质量的体细胞变体。26.

a玲等人26对23例HCC肿瘤进行了全外显子测序(WES)。bVenn图比较了Mutect 2单独运行时和与MOSS一起运行时的调用集。MOSS识别了466个新的变体,同时保留了Mutect 2所识别的所有变体(只有一个)。c由苔藓识别的支持样本数目(x-轴)和单样本调用者Mutect 2(y-轴)对于每种变体,表明MOSS增加了36%变体的支持样本数量(586个变体,补充图中提供的空间分布)。5)。MOSS唯一恢复的变体对应于y-轴等于0。d在所有肿瘤样本中,由苔藓识别的含有变异体的样本数量随变异体最大频率的变化而变化,这表明苔藓发现的大多数变异体的VAF值都很低。颜色表示变体是Mutect 2和Moss(黄色)所共有的,还是Moss(绿色)或Mutect 2(红色)所特有的。e不同方法暴露于肝脏肿瘤的突变特征(以颜色表示)。应用MOSS可以增加突变特征所解释的变异数(951 Vs 742)。f在Moss刚刚调用的145辆SNV中m=2份样本,102份SNV通过人工评审(补充图1)。7). g同时分析多个样本会显着地增加恢复的变异数。h与Mutect 2相比,MOSS在运行时几乎没有增加任何开销。在Strelka 2(补充图2)中也观察到了类似的结果。3).

与模拟相似,我们发现MOSS在Mutect 2之后应用时会识别额外的SNV(图2)。3B)和Strelka2(补充图2)。3a)。特别是,MOSS在与Mutect 2一起运行时调用466个额外的SNV,只保留一个单一样本Mutect 2标识的所有变量。对于丢失的变异体,我们观察到突变碱基的碱基质量明显低于非突变碱基的碱基质量,这表明存在潜在的测序和/或映射伪影(附图)。4)。在调用一个变体之后,MOSS通过评估相应的BAM文件来识别支持它的样本。因此,MOSS标识支持给定变体的所有样本,而Mutect 2通常不支持(图1)。3C,大多数条目低于对角线)。特别是,MOSS增加了由单样本Mutect 2确定的586个变异体的支持样本数量(36%),减少了肿瘤特定空间位置所特有的SNV数量(补充图)。5)。我们观察到类似的行为与Strelka2(补充图2)。3b)。

我们进一步发现,MOSS唯一识别的变异通常具有较低的VAF。特别是,这些变体中的大多数在支持性肿瘤样本中的VAF不大于0.3(如图所示)。3d)。当MOSS与Strelka2(补充图2)一起运行时,我们观察到类似的结果。3d)。这些发现支持了我们的观点,即联合分析多个肿瘤样本有助于恢复低VAF变异体。为了确保没有种系泄漏,我们验证了恢复的变异体在正常样本中,无论是Strelka 2还是Mutect 2(补充图2),正常样本中的VAF都很低。6)。例如,MOSS与Mutect 2一起运行时恢复的一组被调用的变体在正常样本中不显示大于0.06的VAF。这表明,由苔藓恢复的变异不是种系突变。

虽然模拟有真实的基础,但对于肝细胞癌(HCC)的数据集,却没有可用的SNV的地面真实集。因此,为了部分验证MOSS识别的变异集是准确的,我们分析了它们的突变模式。特别是,我们计算了30个宇宙v2突变信号的暴露量,这些突变是由mos和单样本来电者发现的。27,28,29,30。我们对肝癌特征的暴露百分比感兴趣。与单样本呼叫者相比,MOSS识别的SNV中肝癌特征暴露的百分比更高或相同,表明新的SNV与原始的SNV具有相同的病因,这表明了它们的有效性。我们使用解构Sig进行此分析。31,使96种突变的数量正常化。当与Mutect 2一起运行时,MOSS的调用集包含5、12、16和22的签名,这些特征已被确定为发生在肝癌中。28(无花果)3e)。虽然总暴露量低于Mutect 2单独运行时(59%比65%),但更多的变异是由肝癌相关特征解释的(MOSS约951个SNV,Mutect 2约742个)。当Strelka2与MOSS一起运行而不是单独运行时,总暴露量更高(54.2vs52.3%)(补充图1)。3c)。

为了进一步验证,我们在两个样本中对MOSS调用的变体执行手动检查,但在任何示例中都没有由Mutect 2调用。我们遵循Barnell等人的程序。21。在应用Moss的过滤标准之前,有166个这样的变体(补充图)。7a)。经过过滤(在“方法”中描述),MOSS识别145个变体。人工检查表明,其中102辆是真正的SNV(图1)。3F,补充图。7B和补充数据1)。其余145个−102=43个由MOSS命名的SNV,其中32个在至少一个样本中被确定为模棱两可。对于由MOSS筛选出的166个−145=21个变体,1个SNV被标记为正常肿瘤(TIN),8个SNV被标记为空链,10个被标记为低肿瘤支持,7个被标记为集群(请注意,一个SNV可以有多个标志)。手动检查这些变体会产生符合Moss过滤标准的指定标记(补充数据)1)。在分析所有变异体时,TIN滤波器标记在183个SNV、空链445个SNV、低肿瘤支持772个和701个SNV.这些发现表明,已实现的过滤器能够消除伪影,并且被MOSS新调用的大多数被分析的SNV通过手动检查。

为了展示分析多个样本的好处,即使只有少量的样本可用,我们在23个样本上单独运行单一样本调用程序Mutect 2和Strelka 2,并与MOSS一起运行。对于单样本调用者,与以前一样,我们使用所有(独立)分析样本的联合集作为调用。我们观察到,被称为变异的数量随着样本数的增加而增加,从而产生较高的召回率(如图所示)。3F和补充图。3e)。即使有2个或3个样本,相对于单独运行每个样本中的调用者,MOSS恢复的变量的数量也会增加。特别是,MOSS恢复了Mutect 2漏掉的48个和71个变体,分别有2个和3个样本,分别增加8.9%和12.3%。为了验证MOSS在低覆盖率数据集上工作的能力,我们将HCC数据集(原始覆盖率75×)降至30×、20×和10×,然后隔离地重新运行Mutect 2,并与MOSS一起递增地对23个样本进行处理。我们发现MOSS保留了在低覆盖率数据集上恢复其他变体的能力(补充图)。8).

Mutect 2需要大约18个小时才能完成SNV调用,而MOSS则需要不到20分钟(图1)。3g)。因此,MOSS使运行时间增加了1.8%。此外,MOSS只需要361 MB内存,而Mutect 2使用2 216 MB。在使用Strelka 2运行MOSS时,也观察到了类似的开销(补充图)。9)。所有实验都是在一台有两个64位x86英特尔Xeon2.20GHz CPU和512 GB内存的机器上运行的。

用人工编制的SNVS列表评估急性髓系白血病数据集上的MOSS

我们测试MOSS在急性髓系白血病(AML)数据集上的性能。22。该数据集采用全基因组测序(WGS,中间覆盖312×),全外显子测序(WXS,中位覆盖率433×)和自定义靶向捕获(中值覆盖1500×)等多种测序策略对正常标本、原发肿瘤标本和复发标本进行测序。Griffith等人分析了目标捕获数据,产生了一套人工策划的高质量SNV被指定为黄金列表。这里,我们在WGS数据上与Mutect 2一起运行MOSS。为了进行验证,我们将注意力限制在目标捕获数据覆盖的基因组区域(每个原始样本、复发样本和正常样本的最小覆盖范围为100×)上的候选SNV。对每个WGS肿瘤样本单独运行Mutect 2,总共产生14 343个候选,其中1480个出现在黄金列表中(图1)。4a)。Mutect 2从黄金列表中召回1342个变体,Moss则召回1396个变体(如图所示)。4b)。由Mutect 2而不是由MOSS识别的金列表中的单个SNV具有较低的突变基基质量分数,并随后被过滤掉(补充图)。10)。此外,MOSS还识别了黄金列表中没有出现的3409个变体。为了验证这些SNV,我们在定制的目标捕获数据中检查它们的VAF。具体来说,我们指定一个候选SNV为“正确”,如果它在正常样本中的VAF小于0.05,并且在原始样本或复发样本中至少有5个带有变异等位基因的读取,否则SNV被指定为“不正确”。在3409辆SNV中,1663辆是正确的,其中984是由MOSS唯一识别的。4c)。此外,在Mutect 2唯一确定的31人中,有30人(不在黄金名单上)被指定为“不正确”。因此,这些发现进一步证实了莫斯利用多样本数据识别导致灵敏度提高的低频SNV的能力。此外,我们发现MOSS减少了一个(时态)样本所特有的SNV的数量(补充图)。11).

图4:MOSS提高了急性髓系白血病(AML)数据集的召回率,并手动管理了SNVS(单核苷酸变体)的“黄金列表”。22.

a在整个基因组测序(WGS)原发肿瘤和复发样本中独立运行时,将Mutect 2候选集与金列表进行比较。b比较MOSS和Mutect 2调用的SNV和黄金列表的Venn图。cMutect 2和MOSS根据检查定制目标捕获数据中的VAF发现的SNV数量被指定为“正确”或“不正确”。颜色表示变体是Mutect 2和Moss(黄色)所共有的,还是Moss(绿色)或Mutect 2(红色)所特有的。

大肠癌数据集中MOSS的评价

最后,我们结合Strelka 2评估了MOSS Run的性能。11结直肠癌(CRC)数据集32。该数据集包括两名患者(分别为43名患者和45名患者)的数据,并对三份肿瘤样本和一份匹配的正常样本(从血液中提取)进行了测序。对于病人43,MOSS恢复了另外49,497个SNV,同时失去了Strelka2所称的318个变异(图1)。5a)。支撑样本的数量进一步增加了23%的变体(图)。5(B)减少单个样本所特有的SNV数量(补充图)。12)。Alexandrov等人28确定签名1、5、6和10与“儿童权利公约”有关。虽然暴露在肝癌中的比例从Strelka 2确认的SNV的87%下降到了82%(图一)。5(C)必须指出,MOSS使呼叫集增加了27%以上。这意味着,绝大多数新发现的SNV都是由已知的CRC签名来解释的。我们观察到病人45的相似结果,发现另外24%的SNV与相关的支持样本的数量增加,同时保持对CRC突变特征的总暴露(补充图)。13).

图5:MOSS恢复了strelka 2在结直肠癌(Crc)数据集中缺失的高质量体细胞变体。32.

aVenn图比较了Strelka 2单独运行时和与MOSS一起运行时的调用集。MOSS确定了49,497个新的变体,同时保留了Strelka 2确定的几乎所有的变体。b由苔藓分类的支持样本数目(x-轴)和单样本调用者Strelka 2(y-轴)对每个变异体,表明MOSS增加了Strelka 2所确定的23%的变异体(52,690个变体)的支持样本数,增加了至少两个样本中存在的普通SNV(单核苷酸变异体)的数量(补充图)。12). c不同的方法暴露于结直肠肿瘤的突变特征(每个特征以独特的颜色表示)。识别的签名保持不变。

讨论

在本工作中,我们介绍了MOSS,一种多功能的多样本体细胞SNV调用者,用于大量的DNA测序肿瘤数据。MOSS将任何当前的单样本调用方转换为多样本调用方,而无需修改原始调用方的软件。而最近的两个SNV呼叫者,Mutect 2(GATK版本4.1)和Multisnv20,支持多个样本,大多数方法仍然仅限于单个样本,例如strelka 2。11缪斯12穴居人13、VarScan 233柳叶刀14鸭嘴兽15,和LoFreq16。因此,MOSS可与上述任何一种方法结合使用,以提高其呼叫集对多样本肿瘤测序数据的敏感性。

关于含模拟数据m{2,…在肿瘤样本中,我们发现与单一样本调用器strelka 2的联合调用集相比,mos在所有情况下都提高了召回率并没有丢失精确性。11和Mutect 210。关于实际数据m=23例肝细胞癌肿瘤标本26m=2例结直肠肿瘤3例32,我们观察到mos可以恢复低vaf变体(我们通过手动检查验证了一个子集)。21)同时保持或增加对肿瘤型特异性特征的整体暴露。我们的召回率也出现了类似的增长。m=2份急性髓系白血病数据的样本(原发肿瘤和复发)22一组精心策划的体细胞变体已经被释放。此外,我们还表明,MOSS的好处是有形的,即使是少量的样本或覆盖范围低到10×,并且与单样本调用者相比,其运行时间和内存消耗的开销是可以忽略不计的。我们发现尽管Mutect 2(GATK版本4.1)和Multisnv20最近包括了对多个肿瘤样本联合分析的支持,MOSS达到了更高的水平。F1在模拟数据上以较短的运行时间得分。

总之,MOSS从多样本大量dna测序肿瘤数据中恢复低VAF单核苷酸变异体的能力以及由此产生的灵敏度的提高将使癌症基因组学的下游分析更加详细。我们确实注意到,人工检查已识别的变体仍然是获得高质量变体的必要步骤。在假设产生的背景下,MOSS将是最有用的,在这种背景下,MOSS识别的低频变体将是有针对性的后续测序的最佳人选。由于测序技术的成本降低,我们预计多样本数据将越来越多地可用.MOSS特别适用于分析肿瘤的液体活检,由于肿瘤循环DNA的存在率较低,通常在多个时间点取液活检,其VAFs值较低。

今后的研究有几个方向。首先,使用多个样本来提高变异呼叫灵敏度的概念广泛适用于单核苷酸变异。例如,Zaccaria等人。25最近证明,当考虑单个肿瘤的多个样本时,可以更准确地识别拷贝数像差。我们期望对小样本和较大结构变异的检测将受益于MOSS所采用的类似的多样本分析。其次,MOSS用于处理大量DNA测序肿瘤数据,其中样本由数十万个细胞组成。摘要单细胞测序(Scs)直接揭示单个肿瘤细胞的突变,可用于肿瘤系统发育重建,近年来受到越来越多的关注。34,35,36,37。我们计划采用MOSS的贝叶斯模型来支持SCS数据中的SNV调用。第三,SCS数据的误差率上升。38,MOSS可以进一步扩展到由大样本和scs测序样本组成的混合肿瘤数据集中执行联合体细胞SNV调用。39,40,41,42。联合变量调用混合数据集将直接提高在scs和批量测序数据上执行系统发育重建的算法的准确性。43,44。第四,它将有趣地调整MOSS以支持长读排序数据,增加错误率.最后,这组所谓的变异可以通过纳入癌症基因组下游分析的信息而进一步完善。例如,Rubanova等人。45将突变信号整合到在肿瘤克隆中共同发生的簇状SNV中。同样地,SNV调用的准确性可以通过考虑变异呼叫过程中的突变特征来提高。另一个纳入下游信息的例子是Singer等人的工作。46世卫组织从肿瘤的单细胞DNA测序数据中探讨了SNV的同时调用和系统发育推断。在未来,我们计划同时调用SNVS并从混合数据集或多样本大量肿瘤DNA数据中进行癌症系统发育推断。


武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297