病人登记和样本收集
这项研究得到韩国首尔三星医疗中心(SMC)机构审查委员会(IRB)的审查和批准(IRB No.2014-11-015),并得到患者知情同意,用于临床和基因组数据的研究。临床研究Www.clinicaltrials.gov(NCT 02591966)。所有患者均经组织学证实为浸润性乳腺癌,并在SMC治疗。采用标准新辅助化疗[AC-D(H)]方案,采用阿霉素联合环磷酰胺(AC)联合化疗4个周期,然后采用多西紫杉醇(T)化疗4个周期。根据ASCO的指导原则,对HER 2+BC患者在AC后给予多西他赛联合曲妥珠单抗治疗。对每例患者,在治疗前前瞻性地进行肿瘤核心活检和匹配的血液检查(T1)。在AC(T2)的第一个周期后3周进行第二次核心活检,6个月后(T3)在手术中进行第三次肿瘤活检。
收集210例患者中的201例新鲜冷冻组织标本。所有活检标本均在采集后即刻或15 min内处理。手术标本(T3)取标本后,在手术台上进行大体检查。我们排除了肉眼看不见的、有非常小的、分散的肿瘤或在大体检查时含有大部分坏死或纤维瘢痕样组织的标本。根据SMC的方案,大部分保乳手术后的标本被送往乳腺X线片,以确保新辅助化疗前夹子位于肿瘤的中心区域。
肿瘤纯度估计
制备5-μm厚的H&E片,由两位病理学家(YLC,SYC)进行分析,以确定肿瘤细胞的存在和百分比。肿瘤丰富的区域在必要时被标记为手工宏观解剖,避免了大面积的坏死。肿瘤纯度以肿瘤细胞(肿瘤细胞、淋巴细胞和正常细胞)在标记肿瘤区域中所占的百分比计算。我们排除了55例下一代测序(NGS),因为低肿瘤纯度和低DNA/RNA产量或质量(图)。1B)。我们还用小面计算出肿瘤的纯度。44(补充数据)1根据计算和病理估计,从低肿瘤纯度(<20%)的下游分析中排除了5个样本。NGS数据QC分析排除了另外四个样本,原因是读取覆盖率不足或异常数据表达模式。用小面衍生肿瘤纯度估计值作为协变量进行回归分析。
全转录组序列
用TruSeq RNA样品制备试剂盒v2(RS-122-2001和RS-122-2002,Illumina)制备了RNA-Seq测序文库.RNA文库的测序是在Illumina HiSeq 2500的100 bp配对模式下进行的,分别是TruSeq快速PE群集试剂盒和TruSeq快速SBS试剂盒。用rSEM分析rna-seq。45以hg 19为参考基因的管道。
乳腺癌亚型分类
IHC检测ER、PR、HER 2亚型,应用于临床诊断和治疗。为了确认,我们还预测了使用genefu的PAM 50亚型。46基因表达数据。用PAM 50亚型对IHC亚型进行定位:Er+(Lumina A和Lumina B)、ER+/HER 2+(Lumina B和Her2)、HER 2+(Her2)和TN(Basal)。在IHC和PAM 50不一致的情况下,我们通过检查单个标记来选择一个亚型,包括ERBB 2, ESR 1,和PGR基因表达ERBB 2拷贝号47.
差异表达及通路分析
我们应用线性混合效应模型来识别NAC治疗时间点差异表达的基因,同时调整乳腺癌亚型和肿瘤纯度的混杂效应。在不同样本组中分别对三个配对比较(T1对T2、T2对T3和T1对T3)进行De分析,包括总体队列和三种亚型ER+、HER 2+和TN。ER+/HER 2+亚型由于T3样本数量不足而被排除在外。一份重要DE基因的汇总列表是通过以下方法选择的p-所有配对比较和样本组的值<0.01,绝对倍数变化>2。基于K均值的共识聚类48对每个样本组的显着性DE基因的表达谱进行了分析,以确定每组的三个聚类。
对每一组显着性DE基因进行超几何学测试,以确定从MSigDB V5.1中提取的三组编码基因的富集与已知的与癌症相关的途径。49-标志,KEGG,和自述我们计算了MSigDB通路以及主要免疫和肿瘤相关细胞类型的基因表达特征评分。34使用GSVA算法28。在同一样本组中,FDR<20%并具有FDR<5%的差异表达特征(T1对T2,T2 vs.T3,T1 vs.T3)被定位到DE基因簇上。为了进一步解决免疫细胞的混合问题和区分密切相关的细胞类型,我们采用nu-支持向量回归(Nusvr)方法实现了一种在硅免疫细胞中的反褶积方法。32利用RNA-Seq数据推断各肿瘤中所有白细胞中13种免疫细胞亚型的相对比例。
识别随时间变化的差异分布特征
包括VOOM在内的分子特征的分布50对不同处理时间的正常基因表达、基因标记和推测的免疫细胞组分进行比较,以找出显着性差异。放任ωj表示包含随机变量观测值的数据集。yIJ特征j连同临床资料(派, si, ti, di,和ri)N样本(i),其中的特征yIJ提供了资料,以便[[omega_{matrem{j}},=],=,y_{{matrm{i}},p_{matrm{i},s_{matrm{i},t_{matrem{i},d_{matrem{i},r_{matrem{i}_{i}{i=1,\l点,N})。由于特征假设是相互独立的,并且以单变量的方式处理,因此特征指数。j为了简单起见,本节将进一步省略。临床资料包括肿瘤样本纯度(p),它描述在给定样本中存在的肿瘤组织的百分比,协商一致的亚型(s),其中列出了每个患者的模式肿瘤亚型、收集时间(t),它代表每个样本获得的治疗时间,病人供体(d)每个样本的病理反应状态(r)捐献者。
NAC引起的特征随时间的变化采用线性混合效应回归模型,如
$y_{\matrm{i}=\β_0+\β_1p_{matrem{i}+\β_2s_{\matrm{i}+\β_3t_{i}+b_{matrem{d}+\varepsilon_{matrem{i}},$$
(1)
哪里β0是整体特征值(拦截),β1肿瘤纯度对特征值的影响,β2估计由于子类型造成的特征差异,β3描述处理时间对功能值的影响,bd是一个正态分布的随机变量,其均值为零,表示与d捐献者病人(病人之间的残余物),以及εi是一个正态分布的随机变量,均值为零,反映了病人体内的残值.给出的平方残差和的约简β3用x-平方检验进行评估,如果时间协变量的增加与模型的拟合优度(Fdr)有统计学意义,则保留特征以供进一步研究。51 < 0.05). A similar approach was applied to identify subtype specific NAC induced feature changes over time but now with the exclusion of the term β2si从埃克。(1)。这个LmertestR包52用于这些分析。
多重免疫荧光(IF)和免疫组织化学(IHC)
采用Opal 7实体肿瘤免疫学试剂盒(PerkinElmer)进行多重IF染色。根据制造商的协议,福尔马林固定的石蜡包埋组织切片用二甲苯固定,再用乙醇梯度再水化,最后用蒸馏水冲洗。用AR9(pd-L1、CD4和CD8)或AR6(CD45RO、CD3和泛细胞角蛋白)缓冲液和微波处理进行抗原提取。将第一抗体pd-L1(克隆E1L3N)孵育,再用蛋白石聚合物HRP进行二次抗体孵育。然后应用Opal-620染料对Pd-L1进行显影,微波处理去除原发抗体和次级抗体。抗体/荧光染料按以下顺序重复:CD4(克隆EP 204)/Opal-520,CD8(克隆4B11)/Opal-570,CD45RO(克隆UCHL 1)/Opal-650,CD3/Opal-540,泛细胞角蛋白(克隆AE1/AE3)/Opal-690。将DAPI应用于原子核的显示后,安装幻灯片,覆盖滑动。使用PerkinElmer Vectra Polaris定量幻灯片扫描仪对多路图像进行成像,并利用信息软件(PerkinElmer,Ver)对图像进行分析。2.4.1)。用抗CD8(SP 57)单克隆抗体免疫组织化学方法检测FFPE组织中CD8,未用Ventana基准XT稀释,通过Optiview DAB IHC检测试剂盒进行免疫组织化学检测。
基于数字H&E图像分析的TIL量化
使用CRImage53病理学家在20×放大率下将三星医学中心的273个细胞标记为淋巴细胞,189个细胞标记为H&E诊断乳腺癌的非淋巴细胞。用于分割的参数是Otsu阈值、minShape=50、FailureRegion=2000和maxShape=800。利用EBImage生成36个参数54对支持向量机分类器进行训练,对单元格进行标记,并输出每个单元的坐标和特征。支持向量机模型由e 1071 svm函数生成,参数类型为C,核=径向,概率=真。对每个独立参数使用Wilcoxon秩和检验,30/36参数有一个p淋巴细胞与非淋巴细胞之间的−05值<1e,表明单因素参数非常显着。我们用“VIPs dzSave”将20×H&E图像平铺成2050×2050像素的瓷砖。采用与训练集相同的参数对瓷砖进行分割,并采用支持向量机模型对其进行分类。通过计算瓷砖相对位置和像素大小的偏移量,对每个瓷砖的输出文件进行合并,以重建特征的全局坐标。支持向量机生成一个分数从0到1,以表示对每个类的信心。筛选标记淋巴细胞大小为60~150,最小支持向量机评分为0.97。标记为非淋巴细胞的细胞的支持向量机评分为≤0.1。大细胞定义为未标记淋巴细胞的细胞,其大小为≥,占所有细胞的第三四分位数。从H&E图像中计算出组织面积。TM(丹麦,HOERSHOLM)使用自定义算法。然后将CRImage获得的淋巴细胞计数除以每例患者的估计组织面积,计算H&E图像中的淋巴细胞密度。数据与线性模型拟合,R2用lm计算。
免疫状态分类
我们使用了i群集55将样本聚类和分类为多个数据类型的联合多变量回归,包括免疫基因表达和免疫细胞组分,并参照一组代表潜在免疫状态的公共潜在变量进行聚类和分类。基于贝叶斯信息准则确定了最优聚类数。免疫状态与免疫特征的关联(Yi)通过求解下列方程,用方差分析(ANOVA)进行计算:
$Y_{MACREm{I}=\β_0+\β_1p_{MAHERM{I}+\β_2S_{MAHERM{I}+{epsilon}}_{\MAXERM{}},$
哪里β0是整体特征值(拦截),β1肿瘤纯度对特征值的影响,β2估计由于免疫状态造成的特征差异。利用统计R软件包的lm函数估计系数。
虚拟显微解剖分析
我们使用非负矩阵因式分解(Nmf)算法进行了虚拟显微解剖分析,将大量肿瘤表达分为代表不同组织间隔的因素。56。将nmf应用于rna-seq基因表达简编,其中包括tcga、ccle、gtex和smc ybc队列中的nac(Nac)和1678个样本。47。基因表达矩阵V分解的NMF算法g基因和s的两个非负矩阵的样本k因子:基因因子矩阵Wn基因权重k因子与样本因子矩阵Hm样品重量k因素。表示k部分和H分别表示k每个样本或块状肿瘤的部分57。NMF在log转化基因表达矩阵V,log上进行。2(TPM+1),在使用R包NMF的组合队列中,使用了“brunet”算法58。我们运行了30次NMF,并选择了获得最小逼近误差的因式分解作为后续分析的依据。提取每一个样本基因k因子,每个基因的分数g是首先计算出来的,表示它是如何以熵度量为基础的。59。然后用两个标准来选择这些基因。首先,基因分数必须大于\BAR\MU+3\BAR\σ,在哪里(酒吧)和\(巴\西格玛)分别表示分数的中位数和绝对偏差(MAD)。第二,功能的基本组成部分的最大贡献必须大于所有贡献的中位数。利用Fisher‘s精确检验和MSigDB v5.2通路基因集对每个因子的样本基因进行路径富集分析。确定最优k,我们计算了相关系数,并选择了k=14,使系数得分最大化58。为了将NMF因子归属于不同的组织区,我们研究了样本因子权重在已知标记的样本组中的分布情况,并根据样本基因检测了样品的富集途径。我们鉴定了四个肿瘤内在因子,包括TN亚型的F14,HER 2+的F2和两个ER+因子-F1和F4。我们还鉴定了四个代表肿瘤外部区(TME)的因素-TIL因子F13、基质因子F12和两个正常组织因子F3和F7。GTEX研究发现,F3在癌旁组织中超重,而F7在健康正常组织中更丰富。将肿瘤固有和正常组织因子权重相加,形成F-肿瘤和F-正常两种复合因子。
多元分析
我们对混合变量进行了多元回归分析,以评估免疫特征与临床特征之间的关联。评价7个临床变量:病理反应状态(PCR与RD)、TN亚型(是与NO)、HER 2+亚型(是与NO)、肿瘤分期(早期与晚期)、结节期(早期与晚期)、T1、T2肿瘤纯度。评价了T1、T2期肿瘤活检的三种免疫特征:组织病理学分析(TIL密度)、免疫细胞比例(CD8+T细胞、CD4+记忆T细胞、%Mast细胞)和基因表达特征(如细胞毒性细胞、NK细胞和CD8+T细胞)。免疫特征为二元变量时采用Logistic回归,连续变量采用规则线性回归。对于多元线性回归分析,我们求解了该函数。(y=β_0+\β_1x_1+\β_2X_2+\l点+\β_{p}}x_{{p}}+\varepsilon\\varepsilon)哪里βj量化变量之间的关联j有反应。使用“stats”包中的r函数“lm”估计回归系数。β0, β1,… βp以及相应的p价值。对于Logistic回归分析,我们求解了该函数。{({1-p(X)}})=\β_0+\β_1x_1+\β_2X_2+\β_{{p}}+\\β_{p}}+\varepsilon\\β_0+β_2X_2+\\β_{p}},在哪里\(左)(x\右)={\matrem{Pr}(Y=1 x-X)\)和Y二进制响应变量。用“stats”包中的r函数“glm”估计回归系数。β0, β1,… βp以及相应的p价值。
弹性网60是一种用于变量选择的受惩罚的回归方法,它确定了对响应变量(如PCR状态)有贡献的唯一变量的线性组合。弹性网络通过最小化正则化成本函数来进行变量选择。多变量分析的免疫特征包括24个Binda免疫特征。34并估算了13种免疫细胞类型的细胞组成。根据每个特性被选择超过10,000个引导迭代的次数对特性进行排序,使用的惩罚因子为1。