病人群体
我们的研究检查了38例没有新辅助治疗的TNBC患者,这是Keren等人检查的41例患者中的一个子集。25。取患者乳腺组织FFPE切片,用MIBI扫描,然后分割成细胞边界。25。我们还收集了有关年龄、肿瘤分级、分期、肿瘤部位和临床结果--复发和总体生存率(OS)的患者数据(表)。1)。此外,我们还收集了8名健康患者的乳腺组织MIBI图像,这是Risom等人检查的一个子集。34.
数据集
MIBI扫描从FFPE组织中产生蛋白质表达的图像,其中每个图像有44个通道;每个通道在组织样本上表达一个特定的标记物(如图所示)。1A)。Keren等人提供了TNBC和健康患者图像的细胞分割。和Risom等人,他利用DeepCell,一种从MIBI数据中识别单个细胞的深度学习技术。25,34,35。Keren等人还对TNBC患者的图像进行了细胞类型分配。25通过一种层次化的方法(图1)。1B)(方法)。
图1:计算流水线概述。aMIBI扫描分层结构的绘制。每个MIBI图像的尺寸为2048×2048像素,44个通道,其中每个通道代表每个蛋白质的表达;也就是说,图像中的每个像素在该位置传递该蛋白质的浓度。b在MIBI图像上执行的细胞分割的彩色映射图像。单元分割图有一个通道,维数为2048×2048。每个单元格都有自己的单元格类型,以在颜色栏中引用的颜色表示。从这些细胞分割图和原始MIBI图像中提取细胞计数,测量蛋白质表达,量化共表达。c细胞分割图的Voronoi图解。每个多边形对应于原始分割中的一个单元,这样多边形区域中的每个点都比任何其他单元更接近于对应单元的质心。每个多边形与有限数量的其他多边形相邻,模拟单元间的邻接。d利用Voronoi图分析相邻细胞间的相互作用。e计算每个病人的相互作用矩阵,A行和B列处的入口代表蛋白质A阳性的细胞与蛋白质B阳性的细胞(TOP)相邻的次数。选择矩阵的上半三角形,在对角线上拆分,如紫色矩形所示。然后,这些矩形被压平,形成一个特征向量,即每个病人的交互特征。f利用交互特征对患者进行聚类,并利用Kaplan-Meier曲线和对数秩检验对两组患者的复发/存活情况进行比较。
微环境的免疫成分与复发或存活无关。
我们检查了当时某些细胞群的流行是否与复发和生存有关。我们测量了每个病人的每一种细胞类型的细胞数,并将这个数目表示为该病人样本中细胞总数的一个比例。然后我们进行了单因素Cox回归,并进行了双面回归。t-检验可变系数,以确定每一种细胞类型的流行率是否与复发和总生存期有关。
在进行了benamini-hochberg修正后,对多个比较进行了解释。36,没有一种细胞类型的系数对这两种复发有显著的影响(表)2)或整体生存(表)3).
功能蛋白的单细胞表达水平与复发或存活无关。
我们检查了功能蛋白在组织样本细胞中的表达是否与复发和存活有关(如图所示)。2A)。我们计算了每个病人的每一种蛋白质的每像素表达水平。几种蛋白质的表达直方图如图所示。2B,所有蛋白质的直方图如附图所示。1。在这一分析中,我们只包括功能蛋白,它们与仅仅用于谱系分配的蛋白质形成对比;它们的表达是根据细胞的功能状态来调节的。以前的文献认为其在肿瘤进展中具有重要作用的蛋白被认为是功能性的,而那些相关作用较弱的蛋白质则被认为是家族性的。我们在功能类别中统计了18个标记,在谱系类别中计算了18个标记(补充表)。1).
图2:蛋白质表达的定量和分析。a图示如何计算蛋白质表达。黑色方格分别表示图像中的一个像素。计算单元格中每个像素的表达式级别,然后对单元格中的所有像素进行求和。得到的数目除以细胞的大小(以像素为单位),导致每个蛋白质细胞的平均每像素表达水平。b直方图显示几种相关蛋白质的对数每像素表达水平的分布。用垂直虚线表示背景信道中的每像素表达式(正性阈值)。c热图显示两种不同患者对功能蛋白共表达的立方根。颜色条还显示立方体根,因此颜色值16表示16。3共同表达式的实例。d聚类图显示所有38名患者的扁平特征。从树状图中选择了两个簇。红线显示了这两个星系团被分开的方式。eKaplan-Meier曲线,比较由共表达特征形成的簇,以便于复发和整体生存。双面对数秩检验(df=1)p-值显示在情节图例中。
没有功能蛋白,其系数有显着性。p-本雅明-霍奇贝格复发率校正后的数值(补充表)2)或整体生存(补充表)3)。角质6(系数=0.025,HR=1.025,p和HLA-DR(系数=−0.018,HR=0.982,p0.045)与手术前的生存期显著相关。我们将角蛋白6和HLA-DR置于一个多变量模型中,以评估它们相对预后的相关性。p=0.04),而HLA-DR没有(p=0.06)。在以前的工作中,keratin 6的表达与生存结果不佳有关。37我们的发现松散地证实了这一点。CD45RO(系数=−0.019,HR=0.981,p0.051)与术后复发密切相关。CD45RO因其在抗肿瘤免疫中的作用,特别是在记忆性T细胞中的表达而在文献中被讨论过。38,39。我们的发现松散地证实了这一点,因为CD45RO的表达与良好的复发结果有关。
在这个队列中,功能蛋白的表达水平不具有可靠的预后相关性。因此,我们决定不再对时间进行宏观层面的询问,而是通过量化蛋白质的共同表达和细胞与细胞之间的相互作用,在我们的分析中加入空间语境。
功能蛋白在患者细胞中的共表达与复发和生存有关
我们试图开发一个计算管道来测试免疫活动的局部协调与复发/存活之间的联系。我们计算了对功能蛋白在病人的所有细胞中共同表达的次数,并在一个“共表达矩阵”中总结了这一信息。(无花果)2C).
共表达矩阵提供了关于每个病人中存在的细胞表型的信息,将蛋白质的表达置于单个细胞的上下文中。我们使用共同表达信息作为特征来描述每个病人。将患者按层次聚类分组,并将树切割成两个病人聚类(如图所示)。二维空间)。我们选择在这个分析中选择两个聚类,以及所有的层次聚类分析,都是基于剪影得分分析的。40,这表明将两个组划分为最大的组间差异(补充表)。4)。用双侧对数秩检验比较两组患者的复发/存活结果。他们因复发而发散(χ)2(df=1,n=38)=3.75,p=0.053)和生存(χ)2(df=1,n=38)=2.80,p=0.094)(图1。2E)。我们还测试了患者分层时,选择了三组(补充图)。2)。对数秩检验(df=2)p-复发值分别为0.093和0.222。
我们使用随机森林变量重要性来评估个体共表达特征的相对重要性。CD45RO+H3K27me3(评分=0.822)、CD45RO+H3K9ac(评分=0.767)、CD45RO+HLA 1级(评分=0.646)和HLA-DR+IDO(评分=0.604)是四种最重要的共表达特征。这些结果表明,计算蛋白质的共同表达,即上述组合,可以帮助病人分层。CD45RO与HLA 1(一种促进细胞毒性T细胞活化的抗原)的共同表达与已有的黑色素瘤文献相一致。41并可能证明记忆T细胞与细胞毒性T细胞在癌症中的协同作用。
细胞间的相互作用包含预测相关的信息。
我们通过从分割的MIBI图像中创建Voronoi镶嵌图来检查细胞与细胞之间的相互作用(图)。1C)。Voronoi图以前被用来定义空间组织和细胞形态。31,42。每个单元格的Voronoi多边形是从其质心位置创建的;它的多边形将与其他单元格中的一些多边形交界。43。这些边界可以用来模拟单元间的相互作用(图)。1D);其多边形共享边界的单元可视为相邻的(如图所示。3A)。由于Voronoi算法的几何形状,多边形只会与其近邻边界,这就限制了某一单元对最近的细胞的影响范围。
图3:细胞间相互作用的分析。a图显示如何分析相互作用,以找出哪些蛋白质组合参与了相互作用。该相互作用的特点是两个Voronoi多边形的邻接。每一个参与相互作用的细胞都有一个独特的蛋白表达模式,从而产生复杂的相互作用。b热图显示两名病人功能蛋白对之间相互作用数量的立方根。在热图中A行和B列处的条目表示在病人MIBI图像中,蛋白质A阳性的细胞与蛋白B阳性的细胞相邻的次数的立方根。没有交互作用的对被排除在地块之外。c患者功能蛋白相互作用特征的聚类图。dKaplan-Meier循环曲线和整体生存对比研究由相互作用特征形成的簇。双面对数秩检验(df=1)p-值显示在情节图例中。
我们为每个病人建立了一个相互作用矩阵,通过计算特定蛋白质对相互作用的次数来描述病人细胞与细胞间相互作用的特征。A行和B列矩阵中的条目代表蛋白质A阳性的细胞与蛋白B阳性的细胞相邻的次数(图)。3B).
利用功能蛋白相互作用的数据作为分级聚类的特征,形成两个聚类,其中第1组17例,第2组21例(图2)。3C)。卡普兰-梅耶曲线比较两组复发患者的临床结果(χ)2(df=1,n=38)=3.39,p=0.065),并根据生存情况(χ)发散。2(df=1,n=38)=4.55,p=0.033)(图1。三维空间).
我们量化细胞与细胞间相互作用的方法表明,功能蛋白的空间邻近性包含有价值的预后信息;参与相互作用的蛋白质可以作为特征,将患者聚为一类,结果有显着性差异。
相反,与谱系蛋白有关的定量相互作用并不具有预后相关性。在谱系蛋白相互作用特征上的分级聚类并不能导致在复发和生存结果上有显著差异的簇(补充图)。3).
将聚类后形成的功能蛋白相互作用特征与Keren等人描述的形态特征进行比较。25如附图所示。4.
免疫调节蛋白相互作用预测复发和存活
我们进一步研究了免疫调节蛋白pd-1、pd-l1、ido和lg 3的一部分功能蛋白,这些蛋白被认为是免疫治疗的靶点。9,44,45,46,47,48。先前的研究没有回答涉及这四种蛋白质的相互作用是否与复发和存活有关,这些信息对于了解它们在TNBC进展中的作用是有价值的。
为了回答这个问题,我们量化了表达免疫调节蛋白的细胞之间的空间相互作用,不包括所有其他的蛋白质。4A)。我们推断,如果这些蛋白阳性细胞间的相互作用与复发或存活有关,则结果将表明这些蛋白质的预后相关性。类似于先前的分析,相互作用的计数被用作聚类病人的特征(图1)。4B)。由此分析而成的簇的Kaplan-Meier曲线根据重现性有显著差异(χ)。2(df=1,n=38)=7.60,p=0.0058)(图1。4C)。我们还测试了患者分层时,选择了三组(补充图)。5)。三组在复发方面有显著差异(χ)。2(df=1,n=38)=5.40,p(=0.020),表明风险分层的有效性对所选择的簇数具有很强的鲁棒性。
图4:相互作用子集的分析。a2例患者免疫调节蛋白(IDO,LAG 3,PD-L1,PD-1)相互作用矩阵的热图,其结果如热图所示。b患者免疫调节蛋白相互作用特征的聚类图。树状图被分割的地方用一条红线表示。cKaplan-Meier曲线用于比较免疫调节蛋白相互作用形成的簇的复发和存活。双面对数秩检验(df=1)p-在情节传说中显示了价值。d图表显示如何通过消融分析一次评估单个蛋白质之间的相互作用。作为特征的唯一相互作用是涉及特定蛋白质的相互作用。图中给出了CD 63的例子。e显示一组同型相互作用的图表。如红色框所示,只有对角线中的条目作为功能包括在内。
消融分析显示预后相关的特征组
通过多次消融分析,我们进一步研究了细胞与细胞间的相互作用数据.
首先,我们一次检查单个功能蛋白,只包括作为特征涉及到这种蛋白质的相互作用(图1)。4D)。例如,在研究涉及Pd-1的相互作用时,我们构造了特征向量,包括Pd-1/LAG 3相互作用、Pd-1/Ki 67相互作用、Pd-1/Pd-L1相互作用等。利用这些特征进行的双边对数秩检验(df=1)揭示了几种相互作用与复发显著相关的蛋白质:Ido(p=0.008),HLA第1级(p=0.011),H3K27me3(p和Beta catenin(p=0.023)。磷-S6的相互作用与生存密切相关(p=0.041)。
我们还研究了“同型”相互作用--涉及同一蛋白质的相互作用。同型相互作用出现在相互作用矩阵的对角线上--它们代表了病人中蛋白质A阳性细胞与蛋白A阳性细胞相邻的次数(如图所示)。4E)。这一信息传达了具有相似表达模式的细胞的空间邻近性。我们使用所有功能蛋白的同型相互作用(整个对角线)作为每个病人的特征,并重复聚类分析。卡普兰-梅耶曲线根据递推,χ而发散。2(df=1,n=38)=3.43,p=0.064,根据生存情况,χ明显发散。2(df=1,n=38)=4.90,p=0.027,表明同型相互作用的频率是影响生存预后的相关信息。
我们通过拟合一个随机森林模型,以交互作用作为预测因子,聚类分配作为响应变量,计算了交互特征的重要性。特征重要性用基尼指数的平均下降来评分。最重要的特征是βcatenin+CD45RO交互作用特征(评分=0.794),其次是CD45RO+HLA-DR(评分=0.738)、PD-1+CD45RO(评分=0.716)、PD-1+H3K27me3(评分=0.709)、LAG 3+CD45RO(评分=0.706)、IDO+PD-1(得分=0.694)和LAG 3+PD-1(评分=0.647)。CD45RO存在于7种最重要的相互作用中的4种,Pd-1在4种,LAG 3在2种。这些结果表明,涉及这些蛋白质的相互作用对病人分层特别有用,它们对聚类的贡献最大,在复发和存活方面差异显著。
提取的特征在健康样本和TNBC样本之间存在差异。
为了验证我们提取的特征的有效性,我们测试了健康组织样本和TNBC组织样本之间是否存在差异。在我们的分析中使用的健康组织来自一项不同的研究,该研究描述了一组不同的标记物。健康图像与TNBC图像共有6种蛋白质:Foxp 3、IDO、Ki 67、PD-1、PD-L1和磷-S6。
我们计算了健康组织的表达水平(n=8),并将它们与TNBC组织进行比较(n=38)使用双边Wilcoxon秩和检验。6种蛋白质中有5种在不同组织之间有显著差异:Foxp 3(W=2.06,p=0.040),Ki67(W=3.06,p=0.022),PD-1(W=3.622,p=0.0003),Pd-L1(W=2.42,p=0.020)和磷-S6(W=4.00,p=6.35 e−05)。对比健康和TNBC组织中每种蛋白质的条形图如附图所示。6A.
我们还验证了我们在健康组织上分析细胞与细胞间相互作用的方法,方法是将其置于我们的计算管道中,并测试健康组织的细胞与细胞间的相互作用特征是否与TNBC组织不同。我们使用均匀流形近似和投影(UMAP)将健康和TNBC患者的交互特征简化为二维。49并绘制了简化的特征以便于可视化。由此产生的散射图显示了健康和TNBC组织之间的分离(补充图)。6B).
这些结果表明,我们的计算管道成功地提取了肿瘤特异性的单细胞空间特征,这是复发和整体生存的预测。此外,它们还证明了我们的计算管道适用于各种MIBI数据集,因为我们对两个不同的数据集应用了相同的方法。
多因素分析显示与复发和生存有独立预后相关性的特征。
为了评估我们所确定的特征的预后重要性,我们拟合了三个多变量Cox回归模型,每个模型包括一个聚类变量、两个临床变量(级别和年龄)以及Keren等人描述的免疫结构差异。25。我们获得了系数和风险比,以确定聚类变量是否增加了预测信息。
由细胞间相互作用特征形成的两个簇都包含至少一个临床结果的额外预后信息。免疫调节蛋白相互作用簇包含独立的复发预后信息(系数=−1.32,HR=0.27,p=0.02)。功能蛋白相互作用簇包含独立的生存预后信息(系数=−1.24,HR=0.29,p=0.04)。这些结果表明,我们的计算管道能够提取额外的与预测相关的特征,并将它们用于风险分层。
接下来,我们评估了每个聚类变量之间的相对预后相关性。为此,我们用六个预测因子对随机森林进行拟合:三个聚类变量、两个临床变量(肿瘤分级和年龄)和免疫结构差异。然后通过计算Shap(Shapley相加性解释)值来度量变量的重要性。50和使用Harrell的c-指数的整体拟合优度51.
随机森林分析证实了多变量Cox回归分析的结果。免疫调节蛋白相互作用簇是复发最相关的特征(图)。5A功能蛋白相互作用簇是生存最相关的特征(图1)。5B)。这些特征比肿瘤分级、年龄和肿瘤结构更重要。复发模型的c指数为0.718,生存模型的c指数为0.731,符合较好。
图5:随机森林变量的重要性。a显示随机森林中每个变量平均Shap值的条形图,n=38幅TNBC图像。Shap(Shapley相加性解释)值是衡量变量重要性的一种度量,它量化了当对某个变量进行调整时,预期的模型预测将如何变化。与其他特征归因方法相比,它们更符合人类的直觉。b条形图显示随机森林中预测生存的每个变量的平均值,n=38幅TNBC图像。