研究样本
研究中的患者早期被诊断为猪干皮病(中位数:3.5年;范围为1.5−,9年)。本实验以未暴露皮肤的成纤维细胞为研究对象,利用uv-c照射后的非程序dna合成,确定了dna修复缺陷。32。利用表达野生型dna修复基因的重组逆转录病毒对xp基因缺陷进行互补分析。33。Westernblots显示缺乏xpc蛋白。34。这个XPC突变由Sanger测序或全外显子测序确定。根据“赫尔辛基宣言”和法国法律,已从病人和/或其父母那里获得知情、签署的同意。这项研究得到了法国生物医学署(法国巴黎)、波尔多大学医院道德委员会(法国波尔多)和大学血液学研究所(IUH:圣路易斯医院,巴黎)机构审查委员会的批准。对于白血病患者(n6)在Fycoll-Hypaca上分离肿瘤骨髓或外周血单核细胞。以培养的皮肤成纤维细胞为非造血细胞DNA对照,对6例患者中的5例作对照。骨髓CD 34+、CD 14+、CD3+细胞采用磁珠法分类,CD 34+CD 14+细胞为白血病细胞,CD3+T淋巴细胞为对照。通过病理检查和解剖,从FFPE块中提取固体肿瘤(SA002T2和SA007T3)的DNA。从含90%以上肿瘤细胞的FFPE中提取肿瘤DNA。从FFPE的非肿瘤部分提取生殖细胞dna(补充表)。1).
基因组测序和数据处理
基因组测序采用BGISEQ-500或Illumina HiSeq 2500(SA008T6)测序仪,按制造商协议进行平均覆盖度分别为肿瘤45×和正常dna 30×(补充表)。1)使用100 bp成对读。使用BWA-MEM(v0.7.12)软件映射读取35到GRCH 37人类参考基因组,然后使用标准GATK最佳实践管道36处理样本并调用体细胞遗传变异。用GATK去除PCR重复序列,对碱基质量评分进行校正。37(v4.0.10.1),MarkDuplits和BaseRecalibrator工具。使用GATK工具Mutect 2、FilterMutectCalls和FilterByOrientationBias调用和过滤躯体SNV和indels,并加上癌基因注释。38(v1.9.9.0)。SCNAs调用是用facet完成的。39(v0.5.14)。FASTQ质量控制与FastQC制图40(v0.11.7),Samtools41(v1.9),GATK HS度表,MASDURD42(v0.2.5)和Multiqc43(v1.5)。所有处理步骤都是在用snakemake建造的管道中进行的。44(5.4.0版)。
郑等人工作的CSCC。20从基因型和表型数据库(DbGaP)下载SRA文件。数据集的处理和过滤方式与XP-C白血病样本相同.
体细胞变异体的筛选
对于骨髓活检中的XP-C白血病样本,我们对PASS变异体进行了额外的筛选,其中包括至少需要在这两条链上读取一条通路(F1R2.Split(‘,’)1>0&F2R1.splation(‘,’)1>0滤波器)和变异等位基因频率(VAF)最小阈值等于0.05。
为了避免FFPE序列伪影对真变体的污染,我们对乳腺肉瘤(SA007T3)和横纹肌肉瘤(SA002T2)采用了更严格的标准,其中每条至少有2条和1条,最小VAF值分别为0.3和0.4,适用于乳腺癌和横纹肌肉瘤。这些阈值是根据经验选择的,同时考虑到样品的高纯度/倍性(补充表)。1)和VAF的FFPE工艺品,可在0.01和0.15之间的变化。45.
此外,所有使用的vcf文件都是根据人类基因组的可比对性图进行过滤的。46来自UCSC浏览器47(Https://genome.ucsc.edu/cgi-bin/hgFileUi?db=hg19&g=wgEncodeMapability当K-mer长度为75 bp(WgEncodeCrgMapabilityAlign75mer)时,筛选出得分<1的重叠区域和UCSC浏览器黑名单区域(Duke和DAC)。
突变特征分析
为了将VCF文件转换成一个突变矩阵目录,我们使用了MutationalPatterns软件v.1.11.048。用SigProfilerMatrixGeneratorv.1.0软件分析indels和双核苷酸替换的突变矩阵49.
为了与xp-c肿瘤进行比较,我们使用了来自icgc pcawg收集的190个组织匹配的完整癌症基因组。50其中包括来自以下项目的癌症:慢性髓样疾病-英国(n=57),急性髓系白血病-KR(n=8),乳腺癌TCGA US(n=91),Sarcoma-TCGA US(n=34)。我们只使用高质量的变异体,并且在人类基因组的低映射和黑名单区域筛选出突变。
为了构造多维标度图(MDS),我们使用MutationalPatterns包计算了所有样本之间的成对余弦相似距离。48然后在R中对prcomp()函数中样本间的距离矩阵进行了处理。
为了进行非负矩阵分解方法和提取新的突变特征,我们使用xp-C样本和PCAWG样本的组织匹配数据集(n=190)在用MutationalPatterns R包实现的NMF框架中48具有500个初始化运行。在对诊断图进行检查后(附图)。2A),我们选择K=7(根据Hatchins等人的数据,RSS处于通货膨胀点)。51)提取突变特征(附图)。2B),然后根据余弦相似性将它们分配给已知的突变签名(如图所示)。2C和补充图。2E)。选择较低的(K=4)或更高的分解秩(K=9)对提取的签名“C”及其在样品中的比例影响不显著。
为了量化nmf衍生突变信号(A−G)在xp-C肿瘤和组织匹配pcawg癌中的贡献,我们使用了基于二次规划的算法。52在SigsPack R包中实现53(无花果)2B)。为了更好地理解和量化xp-C数据集中nmf派生的突变签名的贡献,我们还使用了引导(n=10,000)在替换类上接收每个签名贡献的置信区间(补充图)。二维空间).
转录链偏倚分析
利用突变Patterns软件包对每个样本和6个突变类进行转录链偏倚(TRB)的量化。48。该函数计算了嘧啶(C>A,T,G;T>A,C,G)与嘌呤突变(G>A,C,T;A>C,G,T)之间的差异。嘌呤和嘧啶突变数量的不平等被认为是转录偏差的证据,并通过Poisson检验评估了统计学意义。
为了计算低水平和高水平表达的基因之间的组织特异性trb,我们使用表观遗传路线图项目的rpkm值rna-seq。54(E 028为乳腺肉瘤,E 050为白血病,E 100为横纹肌肉瘤)。在转录或未转录的基因链上分离每个基因突变,按表达水平将基因分成两类(RPKM:0−0.1,0.1−1,1−10,10−20,000,对白血病;0−0.1,0.1−2,000,对于乳腺肉瘤和横纹肌肉瘤)。分别用Poisson试验、双侧(乳腺肉瘤和横纹肌肉瘤的单个标本)或Wilcoxon符号秩检验(白血病,n然后,为了直观起见,每个垃圾桶中基因的总长度对突变的数量进行了归一化处理。
根据大多数突变是由嘌呤DNA损伤引起的假设,我们能够计算转录起始位点(Tsss)周围的链特异性突变密度。将转录和未转录的基因链以及TSS基因间区附近的5‘’分别处理。所有注释基因的tsss(GENECODE V30)55)使用BEDTools v2.29.0检索。56然后,将位于±50 kb的tsss的区域分割成1kb的间隔。去除与其他基因间或基因间隔重叠的1 kb区间(主要表现为重叠或紧密定位的基因)。该方法使237个5‘近端的TSS基因间区和151个基因区。
复制定时
我们使用了来自12个细胞系的复制eq数据。57,58若要计算一致复制时间区域,请执行以下操作。对于每个1kb区域,我们计算了所有细胞株之间的标准差,去除了所有标准差大于15的区域。对于其他不同细胞系一致的区域,我们计算了平均值,并在分析过程中使用了它们。根据基因组的复制时间值,将基因组分为5个回收箱(10−25,25−40,40−55,55−70,70−85),并计算每个垃圾桶的突变密度,调整每个区域的长度。我们独立计算了基因和基因间区域的突变密度对复制时间的依赖关系,该区域将转录链和未转录链上的突变分离开来。
表观遗传标记和突变密度
为了推断各种表观遗传标记(甲基化、H3K27ac、H3K27me3、H3K36me3、H3K4me1、H3K9me3)的突变密度与强度之间的关系,我们下载了路线图表观基因组项目的大型文件54然后把它们转换成假发,然后是床上文件(组织E 050)。用BEDOPS v2.4.37(BEDMAP)软件计算了1 kb非重叠窗口在常染色体上的平均强度。59。我们只使用基因组窗口,具有较高的比对能力(等于1),至少90%的窗口。标记强度标准化为1−100范围。对于每个窗口,我们将标记强度拆分为5个分位数(以R为单位)。60)并计算了基因间区、转录区和非转基因区各标记的相对突变密度。
ChromHMM扩展的18态染色质态模型(E 050)作为床文件下载。54所有对齐度最高的窗口都被过滤掉,其宽度小于90%。然后计算XP-C白血病和散发性髓系肿瘤各样本的相对突变密度和染色质状态。