您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!
本企业通过iso9001质量体系认证

在人类交互基因组中发现介导慢性呼吸系统疾病之间相互作用的基因

 二维码
发表时间:2020-02-12 15:47作者:武汉新启迪Xinqidibio来源:www.qidibio.com

在人类交互基因组中发现介导慢性呼吸系统疾病之间相互作用的基因

摘要

复杂疾病的分子和临床特征可能会受到影响同一个人的其他疾病的影响。因此,了解疾病与疾病的相互作用对于揭示疾病之间共享的分子机制和设计有效的治疗方法至关重要。在这里,我们介绍流中心性(FC),这是一种基于网络的方法,可以识别介导蛋白质-蛋白质相互作用网络中两种疾病之间相互作用的基因。我们关注哮喘和COPD,这两种慢性呼吸系统疾病长期以来被认为具有共同的遗传决定因素和机制。我们显示FC突出显示了两种疾病之间的潜在介导基因,并在将FC应用于66对其他相关疾病时观察到相似的结果。进一步,GSDMB,表明FC可以识别GSDMB与COPD相关基因之间相互作用的候选介体我们的结果表明,FC预测了有望用于疾病-疾病相互作用进一步研究的候选基因。

介绍

生物网络是发现和理解的机制强大的资源背后的人类复杂疾病12的确,人们公认,诸如基因和蛋白质之类的生物成分并不是孤立地起作用,而是通过复杂的分子相互作用网络连接在一起的,这种复杂的分子相互作用网络使扰动在整个系统中扩散并产生,增强或改变疾病的表型。在过去十年中,已经观察到相关联的疾病的蛋白质编码基因具有彼此附聚物和在一个特定的网络邻居称为疾病模块进行交互的强烈倾向3456但是,疾病的进展受到生物体生物学环境的强烈影响。引起一种疾病的摄动可能会影响其他疾病,尤其是当涉及的基因位于同一网络附近时,会产生复杂的表型和合并症7

寻找相关疾病之间的分子共性对于理解其异质性以及确定常见的生物标志物和治疗方法至关重要。作为朝这个方向迈出的一步,Menche等人。5我们测量了226个疾病对之间基于网络的分离,观察到重叠的疾病模块显示出显着的分子相似性,相关基因的共表达升高,相似的症状和高合并症。然而,尽管引入的分离措施提供了关于两种疾病相似性的信息,但它并不能帮助鉴定编码影响两种疾病的蛋白质的基因。此外,介体基因可能不是任何一种疾病模块的一部分,但它们可以介导两种疾病之间的相互作用而无需参与个别疾病的核心途径。在这项工作中,我们提出了一种方法来确定将多种复杂疾病对联系起来的介体,重点是哮喘和慢性阻塞性肺疾病(COPD),8哮喘和慢性阻塞性肺病是由遗传和环境因素的影响,它们往往表现通过相似的表型,如气流阻塞,炎症和呼吸急促 910由于许多病例介于这两种情况的经典描述之间,而且患者经常同时表现出哮喘样和COPD样特征,因此仍然缺乏关于它们之间差异的广泛接受的定义。例如,气流阻塞可逆性,哮喘的主要特征之一考虑的一个,可以存在于许多COPD患者 910在另一方面,固定气流阻塞,慢性阻塞性肺病的一项基本表现,可以在哮喘病患者发展为好,特别是那些有严重的疾病或从小持续症状1112此外,人受哮喘自出生更可能在后世的发展COPD 131415这种表型灰色区域一直是关于两种疾病的可能共同遗传起源的广泛辩论的源头,这一假设最初由Orie和Sluiter提出16,并称为“荷兰假说”。尽管在描述和总结哮喘和COPD临床表现的丰富性方面付出了巨大的努力,但对这两种疾病之间共有的分子机制和因果关系仍然知之甚少。下一代测序和全基因组关联研究(GWAS)允许以识别潜在的因果基因,可以解释这些慢性呼吸系统疾病的发展和可能提供机械见解他们的共享因果关系1718尽管在哮喘-COPD重叠的背景下可以预期存在共同的疾病基因关联,但先前的工作几乎没有为荷兰假说提供遗传支持,发现主要哮喘和通过GWAS 12鉴定出的COPD基因之间几乎没有重叠在这里,我们表明基于网络的统计方法可以提供其他途径来探索此问题。

我们在蛋白质-蛋白质相互作用(PPI)(也称为相互作用组)网络中对哮喘和COPD进行建模。网络的每个节点对应一个蛋白质编码基因,两个基因之间的链接代表相应蛋白质之间的物理相互作用。为了找到两种疾病之间的介体,我们定义了一种拓扑测量方法,称为流动中心性(FC),用于识别参与两种疾病之间大多数分子相互作用的基因。我们显示,流动中心基因彼此之间以及与哮喘和COPD的疾病基因在功能上的关联比偶然预期的要多。此外,我们通过将其复制到其他66对相关疾病上来概括这些结果。利用多种证据,包括先前的文献,来自哮喘和COPD受试者的多个转录组数据集中的基因共表达分析,以及支气管上皮细胞系(与哮喘和COPD相关的细胞类型)的体外遗传扰动,我们显示具有高FC值的基因具有生物学意义并且与已知的哮喘特异性,COPD特异性和重叠过程。总之,这些结果将血流中心性确定为检测介导不同疾病之间相互作用的基因的重要工具,为了解复杂疾病之间的关系提供了机会。我们显示具有高FC值的基因具有生物学意义,并且与已知的哮喘特异性,COPD特异性和重叠过程有关。总之,这些结果将血流中心性确定为检测介导不同疾病之间相互作用的基因的重要工具,为了解复杂疾病之间的关系提供了机会。我们显示具有高FC值的基因具有生物学意义,并且与已知的哮喘特异性,COPD特异性和重叠过程有关。总之,这些结果将血流中心性确定为检测介导不同疾病之间相互作用的基因的重要工具,为了解复杂疾病之间的关系提供了机会。

结果

疾病模块建设

我们考虑了先前构建的蛋白质-蛋白质相互作用19,该相互作用整合了来自公开可用数据集的高质量酵母双杂交数据和文献衍生的相互作用(请参见方法)。尽管一个基因可能表达不同的同工型,但我们每个基因只考虑一种蛋白质产物,因此在全文中,我们将网络的节点称为基因或蛋白质。我们从最近的文献中汇编了两组种子基因,分别代表与哮喘和COPD相关的已知GWAS基因座(请参见方法)。哮喘种子基因集由36个基因组成(网络中有35个作图),而COPD基因集由30个基因组成(补充数据   12),而这两组没有重叠。为了探索每种疾病的网络邻域,我们通过应用DIAMOnD算法构建疾病模块,DIAMOnD算法是根据基因与种子基因20的连通性重要性对网络中的基因进行排名的过程(请参见方法)。为了定义通过DIAMOnD计算的基因排名的临界值,我们考虑了两个参考集,分别从UK-Biobank资料库21(UKB)下载了与哮喘和COPD相关的GWAS重要基因对于这两种疾病,选择最终模块大小作为最大化UKB基因在各个模块中富集的大小(请参见方法)。这两个模块具有14个重叠基因(参见补充图   1)。b),总结在补充数据   3中已知清单中的大多数重叠基因,例如TP53,MDM2,NFKB1,RELA,CTNNB1,TGFBR2,SMAD3,MAPK1,MAPK3,MAPK8,STAT1STAT3,都参与细胞凋亡,增殖,炎症,细胞重塑和分化2223242526尽管这些生物学过程可能在哮喘和COPD中起作用,但它们并非这些疾病所独有。如补充数据3所示,还可以通过表征所有这些基因的高度特征来推断这种固有的非特异性   此外,经验p量化重叠部分的重要性的值在很大程度上不重要(0.39),证实了哮喘与COPD关系难以捉摸。重叠部分的重要性不足促使我们进行以下分析。

模块之间的流中心性

哮喘和慢性阻塞性肺病清单通过类似的表型和症状,许多哮喘患者慢性阻塞性肺病发展在较大年龄91012该观察结果表明,源自哮喘特异性遗传危险因素的摄动可能会缓慢破坏关键途径,最终导致易感人群发生COPD。疾病特异性基因的直接相互作用可能并不能完全消除这种干扰。实际上,它可能会通过与特定疾病没有特异性联系的介导基因传播,因此以标准方法识别它们具有挑战性。

这些介导的基因可能参与了两种模块之间的大部分相互作用,从而构成了两种疾病之间交流的“瓶颈”。在网络中,中介中心度度量可量化在连接所有其他节点的路径中某个节点的出现频率。路径定义为从源节点开始到目标节点的跨网络边缘的有序步骤序列。在任何来源和目的地之间都有多种可能的路径,并且文献中有数篇著作致力于探讨选择和加权这些路径的不同标准。例如,弗里曼(Freeman)27提出的经典中间性中心度度量,仅考虑源节点和目标节点之间的最短路径。在其他工作中,提出了随机游走中间性中心性,其中通过在随机游走过程28中被步行者横穿的概率来加权路径此外,在另一项研究中,作者设计了一种阶乘加权方案,该方案支持较短长度的路径,称为连通性之间的连通性29Kivimaki等。30定义了随机最短路径(RSP)的框架,该框架通过温度参数在基于最短路径的中间性中心性和随机游走中间性中心性的经典概念之间进行插值。这些度量的规范形式是从任何源节点开始到任何目的节点的所有路径的平均值,从而可以估算出该节点在全局网络拓扑中的中心位置。尽管中心间淋巴结可能在哮喘和COPD的通路中起作用,但从定义上讲,它们并非特定于这两种疾病(因为考虑不同疾病时其中心性不会改变),因此它们不太可能提供有意义的信息关于他们的共同途径。

在这项工作中,我们介绍了流中心性的概念,在“方法”部分(参见图1a进行了详细说明   流中心性是在节点的源集和目标集上参数化的中间性度量,并且其覆盖范围仅覆盖连接两个模块的最短路径,而不是整个网络。因此,当选择网络的所有节点作为最短路径的源和目标时,流中心性降低到参考文献中定义的经典中间性中心性。27不论选择的源模块和目标模块如何,上述流中心性和中间性中心性度量都与节点度相关。为了纠正这种影响,我们定义了源模块和目标模块的随机方案,以生成预期流中心值的空分布。流中心性得分(FCS),然后作为计算Ž当与零分布进行比较的流动中心性值的-score(见图   1个 B和方法部分)。FCS的大正值表示该节点在源和目标基因集方面处于高度中心,即使考虑到其全局中心性也是如此。

图1:分析的总体方案。
图1

一个流量中间值。源节点(蓝色)优先通过高流量中心节点(绿色)连接到目标节点(红色)。b流量中心度得分计算。通过“方法”部分所述的随机化方案生成了1000个样本。对于每个节点,将其FC得分与随机样本中的相应值进行比较,并获得z得分,定义为流中心得分(FCS)。C在哮喘和COPD种子基因之间的最短路径中选择流中心路径。选择条件是路径中所有中间基因的FCS> 2。提取两组10,000个随机路径(类型A,保留长度,类型B,保留端点),总共三组路径。d从每组网络路径,GO批注和GEO表达式数据开始,计算并比较顺序相似度和顺序共表达值。

通过将哮喘节点集定义为源模块,将COPD节点集定义为目标模块,我们计算了网络中所有节点的血流集中度评分。虽然所有中间性中心度度量值都与程度和彼此高度相关(Spearman'sρ=0.91±0.07,参见补充图。 23),表示相对于哮喘和COPD模块的特异性较低,我们发现血流集中度评分与其他指标非常正交(Spearman'sρ=-0.22±0.04),说明FC对特定来源和目标基因集具有高度特异性。

在流量最大的中央结点中(参见补充数据   4),SLC39A8,SOX17MFAP4等几种基因显示与哮喘和COPD有直接关系。更具体地,已经在文献中发现SLC39A8SOX17MFAP4的表达水平可能直接影响哮喘和COPD。例如,MFAP4缺陷小鼠表现出嗜酸性粒细胞炎症减弱,嗜酸性粒细胞生成趋化因子,气道重塑和气道高反应性,这是哮喘的典型特征,而呼吸道上皮细胞SOX17的表达降低了转化生长因子-β的表达(TGF -β)响应性的细胞周期抑制剂,例如P15,P21,P57和在成年小鼠肺3132SOX17也抑制TGF -β介导的体外转录反应,证明对TGF的抑制作用-β途径的3132TGF -β中,在COPD患者的小气道上皮高度表达33,已知的是在疾病中发生的增加的粘膜下胶原表达的作用,并且也已知在哮喘肺重塑参与组织的介体3435SLC39A8是锌转运蛋白,是镉(Cd)吸收的主要门户36SLC39A8 mRNA和蛋白表达水平被认为在慢性吸烟者的肺来显著增加与不吸烟者相比36香烟烟雾中含有镉,它可能导致吸烟引起的肺部疾病,例如COPD 36在镉存在下,抑制NF -κ乙途径和SLC39A8表达降低细胞毒性,同时TNF -α治疗原发性人肺上皮细胞和A549(肺癌细胞系)的细胞显示出诱导的表达SLC39A8,导致更高的细胞死亡3637IHHDHH是sonic hedgehog途径的一部分,并且是已知的直接交互与HHIP其强烈COPD的风险相关联(刺猬相互作用蛋白)3839HHIPPtch1IHH的膜受体竞争IHHDHH的结合Ptch1绑定到IHHDHH触发刺猬蛋白信号通路,因此,结合HHIPIHH这是众所周知的有在肺发育至关重要的作用hedgehog途径负调节3840

流中心基因的功能相似性

为了验证血流中心基因的生物学相关性,我们选择了哮喘和COPD种子基因之间的最短路径,其中间节点(即该路径中除源和目标之外的所有节点)的特征在于FCS高(请参见方法部分)。有关选择的更多详细信息)。通过应用我们获得371条不同中央路径此选择标准,其我们称之为中央流动路径(见图   1个 C)。

我们通过考虑相关的基因本体论(GO)术语,评估了在流中心路径中发生的基因之间的功能相关性程度。两个基因之间的GO相似性定义为Resnik相似性度量的最佳匹配平均数(BMA),Resnik相似性度量是最著名的基于信息的相似度度量,用于分层排序元素41此外,我们定义了顺序相似度(SS),这是一种路径级量,用于测量网络路径中相邻基因之间的平均GO相似度(请参见图   1 d左上方和“方法”部分)。SS越高,沿路径的基因在功能上越相似。

我们为每个流中心路径计算了SS,获得了371个相似值的分布。为了估计其重要性,我们生成了两个空路径的网络路径,即类型A和类型B的随机路径。要生成类型A集,我们提取10,000个随机路径,这些路径的长度分布与在FC路径中观察到的经验分布相匹配(保留长度),使用方法中说明的随机化方案。通过从哮喘和COPD种子基因之间的最短路径池(端点保留)中随机提取10,000条路径来构建B型集。类型A考虑到与FC路径的特定长度有关的可能偏差,而类型B允许与不使用FC信息的情况进行直接比较。

图   2a显示了流中心路径,类型A和类型B路径的SS分布的比较。FC路径的顺序相似性远大于A型和B型路径的相似性(单尾曼恩惠特尼检验p值分别为1.12e-111和2.06e-77)。我们评估了三种主要的基因本体论分类到全局相似性的单独的贡献(参见图   2 b)中:细胞组分(CC),分子功能(MF),和生物过程(BP)。在所有情况下,FC路径的相似性都大大高于预期。在图   3中a我们显示了按GO批注的顺序排序的FC路径,以及按其信息内容(即它们在整个GO数据库中的特异性)排序的前50个BP GO术语。生物调控是最丰富的类别之一,这是可以预期的,因为注释了调控过程的大量基因。但是,它的发生仍比GO注释语料库中更常见的细胞过程术语更为频繁,这表明调节机制在哮喘与COPD途径之间的相互影响中至关重要。例如,在图1和2中。 3b–d显示了三个FC路径,这些路径在与疾病发作和恶化相关的几种生物学过程中得到了丰富。调节趋化因子的产生,调节T细胞的活化,伤口愈合,管子的发育和炎症反应是涉及哮喘和COPD的气道重塑和免疫反应的生物学过程。更具体地,图2中的路径的基因   3 b,c是高度相关的TGF -β信号通路。TGF -β信号通路,它由蛋白质如TGFBR1TGFBR2SMAD2,和SMAD3,涉及分化,细胞生长和在发展中发挥至关重要的作用和伤口愈合许多其他细胞功能4243TGF相互作用RAR途径-β通过信号通路SMAD蛋白,由视黄酸结合于视黄酸受体激活(RAR S)如RARB 4445RAR途径也参与这一在发展中发挥关键作用,伤口愈合细胞功能44在另一方面,在图中所示的FC路径。   3 d是由所涉及到通过炎症反应基因的JAK-STAT信号转导途径和TLR4信号传导途径4647无论是JAK-STAT信号通路和TLR4信号通路在免疫反应中起着至关重要的作用,两种通路之间的串扰被认为可以调节宿主炎症反应的严重程度48

图2:流动中心路径的GO相似性。
图2

一个类型A,类型B,和FC路径的随机路径顺序GO相似之处(SS)的分布; b为三个主要的GO根项计算的A型,B型和FC路径的SS:细胞成分(CC),分子功能(MF)和生物过程(BP)。c每个相关疾病对的FC路径和随机路径之间比较的最坏情况p值在方框图中,方框表示四分位数,晶须延伸到额外的1.5 * IQR间隔,并且中位数以红色突出显示。一个,两个和三个星号分别表示曼恩-惠特尼p值<0.05、1e-4和1e-10,并且“ ns”表示不重要的结果。

图3:前50个生物学过程GO术语。
图3

前50个生物学过程GO术语丰富了流中心路径,按信息内容排序,而前17个FC路径按GO批注数量排序。一个方形表示左边的GO术语注释所有在底部的FC路径的基因。不同的颜色表示生物过程类别的不同子类。bd对应于所选GO术语的路径示例。

相关疾病FC基因的功能相似性

为了检验先前的结果是否普遍成立,我们考虑了DisGeNet信息库49中包含的基因-疾病关联(GDA)语料库以及从疾病本体知识库中提取的疾病-疾病相似性。我们选择了至少50个相关基因和低重叠率的所有相似疾病对,以减少为类似于哮喘和COPD的病例(请参见“方法”部分以及补充图   67)。这些标准导致66对不同的疾病,这些疾病根据其表型,遗传原因,在生物体内的位置等相关(补充数据   5)。一些例子是阿尔茨海默氏病和肌萎缩性侧索硬化,是共享相似的表型两者的神经变性疾病如痴呆,语言功能障碍,肌肉无力等功能5051,以及涉及基因打在蛋白稳态和内质网应激主要作用的病理过程5253 ; 牛皮癣和过敏性接触性皮炎均为炎性皮肤疾病涉及免疫应答共享相似的表型特征,由于炎症5455和促炎途径涉及IL-36γ56 ; 多囊卵巢综合征和阿尔茨海默氏病不共享表型特征,但研究表明,这两种疾病可能根据胰岛素抵抗,并通过蛋白磷酸酶2A通路中的因果关系 575859对于每对,我们按照上面定义的相同方案,计算了网络中所有节点的流中心性,选择了它们对应的FC路径并提取了10,000个Type A和B路径。我们进行评估的FC路径和A / B型路径的SS值,计算两个 p -值p一种p,分别对应于比较FC  类型A路径和FC  B型路径。然后,我们将每个疾病对的p最低(即,最大p一种p),确定FC路径中SS增长的最坏情况估算。所得的得分p -值,计算作为其负对数变换值,示于图   2 ℃。我们发现,对于绝大多数疾病对(66种疾病中的58种),我们在FC路径的SS和随机变量之间获得了非常显着的差异(p值<1e-20)。此外,我们测试了先前结果的特异性。我们生成了66个对中的每个疾病模块的100个随机度保留节点集(6600对随机模块)。对于每个原始疾病对,我们通过Mann-Whitney检验将其SS分布与每个随机对进行比较,得出100个最坏情况p-值(请参见方法)。我们发现,原始疾病对的FC路径几乎总是比其随机对应路径更相似(补充图   8),唯一的例外是疾病对脑积水  白细胞营养不良,可能是由于两种疾病之间的遗传联系较弱。总的来说,该结果表明流中心性是源模块和目标模块的高度特定属性,并且如果应用于不相关的基因,它将不会产生相同的结果。

流中心基因的共表达

为了强调哮喘和COPD之间的推测机制联系,我们测量了沿连接两种疾病的流动中心路径的基因共表达。尽管基因共表达不一定暗示功能关系,但它表明两个基因在表达方面是否是协同(或拮抗)的,暗示了共同参与相同的生物学过程。因此,FC基因与哮喘和COPD疾病基因之间较高的协调性表明它们参与了两种疾病共同的生物学过程。

作为参考表达数据,我们考虑了来自Gene Expression Omnibus的两个哮喘和COPD患者的表达数据集。第一个数据集是哮喘患者和健康对照者(GSE4302 60的气道上皮细胞的微阵列表达测量,第二个数据集是COPD患者和健康对照者(GSE57148 61肺组织的RNA序列分析(参见补充数据   6)和方法部分以获取详细信息)。为了测量沿每个路径的基因的共表达,我们将顺序共表达(SC)定义为路径中相邻基因之间的平均绝对共表达(请参见方法)。对于给定的路径,较高的顺序共表达表示沿该路径相互作用的基因之间的共表达程度较高。对于每个表达数据集,我们分别计算了健康状态和疾病状态的FC路径的SC(图   1 d,e),分别获得了哮喘和COPD的SC值的两种分布。以相同的方式,我们针对上述相同情况(哮喘控制/疾病和COPD控制/疾病)评估了类型A和类型B路径的SC值。

我们发现在哮喘和COPD数据中,与A型路径(分别为MW p值 8.38e-10和2.14e-18)和B型路径(p值2.25e-8和1.41e-33,请参见图   4 a)。此外,健康患者的样本中也存在相同的结果(最坏情况下的p值 < 1e-9),表明FC路径对应于在健康和疾病状态下都可以激活的相互作用级联。

图4:流中心路径的顺序共表达。
图4

a与哮喘(左)和COPD(右)的A型和B型随机路径相比,血流中心(FC)路径的顺序共表达值的分布。b在每个GEO数据集中所有疾病类别中计算的哮喘(左)和COPD(右)的最坏情况p值得分。在方框图中,方框表示四分位数,晶须延伸到额外的1.5 * IQR间隔,并且中位数以红色突出显示。一个,两个和三个星号分别表示曼恩-惠特尼p值<0.05、1e-4和1e-10,并且“ ns”表示不重要的结果。

我们在16个其他GEO表达式数据集中重复了相同的分析。在每个数据集中,当可以获得更多信息(例如细胞类型,组织或疾病严重性,请参见补充数据6时,会考虑疾病和健康样本(分类)的几个细分   与以前类似,我们在所有类别中每个数据集的p最小的有效值进行了分类。补充图9和图4分别显示了   SC值和所得p值的分数b。尽管考虑的表达数据集差异很大,但我们在18个GEO数据集中总共13个疾病类别中发现了所有疾病类别的相似结果,其中5个病例具有重大意义(最差情况p值)<1e-10)。这些结果表明,由流动中心确定的相互作用路径对波动具有鲁棒性,并且对单个细胞类型,组织或实验环境不是特定的。有趣的是,我们观察到相同的结果在健康或控制状态的各个类别中也成立(参见补充图   10)。

由于哮喘和COPD是相关的,我们假设它们的流动中心路径比将哮喘与其他不相关疾病的随机路径更共表达。为了检验这一假设,我们考虑了DisGeNet GDA语料库,从中提取了所有与哮喘和COPD相似的注释基因数量(介于25和35个基因之间)的不相关疾病和表型,共59种表型。因此,我们测量了连接哮喘和COPD种子基因与这些表型相关基因的随机路径的SC(请参阅方法)。在哮喘样本(GSE4302)的上皮刷毛中测量了连接哮喘种子和每个DisGeNet表型的随机路径的SC值,而在COPD样本的肺组织中测量了这些表型和COPD种子之间的SC值(GSE57148) 。数字 图5a示出了哮喘病例(上)和COPD病例(下)中每个DisGeNet表型的FC路径和随机路径的SC分布。为了清楚起见,我们仅显示前10个表型的分布,按其p排序值得分(每个图顶部的条形)。在这两种情况下,我们都发现FC通路的特征在于明显较高的共表达值,这证实了哮喘与COPD之间的密切关系。为了进一步检验哮喘-COPD关系的特异性并考虑最终的内在偏倚,包括疾病模块的构建和血流中心性评估,我们重新执行了哮喘与肺部两种相关疾病之间的整个处理流程,肺炎和特发性肺纤维化(IPF)(请参阅方法)。我们发现哮喘和COPD的特征在于相对于哮喘的更高的SC值  肺炎和哮喘  哮喘样品(GSE4302)(图的上皮刷IPF对   5 B,上图)。然后,我们重复用于对COPD肺炎和慢性阻塞性肺病,IPF相同的分析,获得了类似的结果COPD样品(GSE57148)(图的肺组织在   5 B,底部)。这一结果表明,与荷兰肺病假说相比,与其他肺部疾病相比,哮喘和COPD的分子相互作用可能比预期的更深。

图5:连接到不相关表型的随机路径的顺序共表达。
图5

与哮喘模块和每个DisGeNet表型之间的随机路径(顶部)以及COPD模块和每个DisGeNet表型之间的随机路径(底部)相比,FC路径顺序共表达(SC)。为了清楚起见,仅显示了排名前10位的表型,并按重要性增加排序。b(上)哮喘-COPD对的SC分布与哮喘-肺炎和哮喘-IPF对的SC的比较,在GSE4302哮喘数据样本上进行了评估。b(下图)在GSE57148数据的COPD样本上评估的哮喘-COPD对的SC分布与COPD-肺炎和COPD-IPF对的SC相比。在方框图中,方框表示四分位数,晶须延伸到额外的1.5 * IQR间隔,并且中位数以红色突出显示。一个,两个和三个星号分别表示曼恩-惠特尼p值<0.05、1e-4和1e-10,而“ ns”表示不重要的结果。

细胞系中的过表达和击倒实验

为了进一步验证FC方法,我们使用了体外基因扰动,通过高流动中心性的网络路径,通过实验建立了哮喘源种子基因和COPD目标种子基因之间的联系(请参见方法)。为此,我们将注意力集中在哮喘种子基因GSDMB上,该基因是17q21上的几个基因之一,该基因具有GWAS 62鉴定出的最易复制的哮喘易感基因座GSDMB在支气管上皮中表达(一种与哮喘和COPD发病机理相关的细胞类型),最近的小鼠模型表明,GSDMB过表达导致自发气道重塑63-上皮纤维化-在人类中导致COPD中观察到的固定气道阻塞。对于该实验,我们考虑之间的所有流路中央GSDMB和任何COPD种子的基因(图   6 a)中,即,那些在所有的中间基因具有显著FCS路径。为了最大程度地提高分析的敏感性,我们认为FCS> 2或流动中心值的右尾经验p值<0.05 时,这些基因才有意义我们找到满足这些条件的8条路径。值得注意的是,所有八个流动中心路径都通过两个GSDMB邻居HIVEP1PEBP1之一(图   6)。b)。在人支气管上皮细胞系中一式三份进行的实验中,我们分别通过质粒转染或siRNA敲低来增强或抑制GSDMB mRNA表达,并从RNA中获得GSDMB的表达数据,所有预测的流中心基因和靶COPD种子基因全局基因表达的-seq配置文件(有关详细信息,请参见方法)。我们发现哮喘种子GSDMB与预测的下游目标COPD种子IL27HHIPGSTCD之间有联系的有力证据总结于图   6 B,既过表达和沉默GSMDB导致大多数血流中心基因和靶COPD基因表达的相互下游变化。例如,GSDMB沉默导致流动中枢HIVEP1(表达增加),MAPK8(减少),IL27RA(增加)和COPD种子基因IL27(增加)的表达发生显着变化,而GSDMB过表达导致相反的表达变化与通过GSDMB沉默诱导的那些MAPK8增加,IL27RA减少,HIVEP1表达无明显减少)相关,请参见图6中的路径1 b。IL27的基线表达低于有意义的检测水平,不包括其分析)。在连接GSDMBHHIPGSTCD的路径中,大多数基因观察到类似的模式

图6:GSDMB和COPD种子基因之间的流动中心路径。
图6

FC路径中的节点子网;b以GSDMB为源节点的八个流中心路径的集合,以及在GSDMB的过表达/组合后,下游相对表达的变化。对于每一列,橙色(蓝色)箭头表示相应基因的显着过表达(下调),而灰色箭头则表示无明显变化。

讨论区

复杂疾病之间的因果关系是难以捉摸的,因为经常通过多种机制过程来解释为什么这些疾病以许多不同形式发生和发展。然而,随着测序技术和多组学测定法的出现,现在有可能获得更易患病的遗传概况的更全面概述。因此,可以从分子的角度探讨长期存在的哮喘和COPD之间潜在的机械关系的问题,并从基因和蛋白质的水平分析可能的原因。然而,通过这种技术获得的信息主要是关于过程的“参与者”,而不是过程本身,这为进行有针对性的研究提供了空间,以分析涉及疾病发展的基因与相互影响的通路之间的关系。

对连接两种疾病的蛋白质相互作用进行分析,是弄清导致哮喘和COPD等常见疾病发病机理的复杂途径的第一步。

在这项工作中,我们定义了血流中心性,这是一种拓扑措施,可检测介导哮喘和COPD之间发生分子相互作用的基因。流中心基因显示出高特异性,并且不能通过第一邻居相互作用与疾病基因简单关联。通过分析将哮喘与COPD连接的网络路径,我们发现流动中心基因在功能上类似于两种疾病的种子基因。这种模式非常普遍:对于许多相关疾病对,我们观察到了血流中心基因与其各自的来源和靶标之间的高度功能相似性,这表明血流中心性捕获了处于不同病理条件下的低水平分子机制。为了进一步支持这一假设,我们在多个人类转录组学数据集中,测定了流中心基因与哮喘和COPD疾病基因之间的高共表达。为了获得哮喘和COPD基因之间调节模式发生的实验证据,我们将注意力集中在GSDMB是与哮喘相关的复制最多的基因之一,并通过体外过表达/抑制实验评估了其摄动的下游影响。连接GSDMB和COPD种子基因的网络路径中出现的血流中心节点显示出强烈的差异表达模式,这暗示这些基因可能参与携带从哮喘特异性到COPD特异性结构域微扰的分子机制。

这些结果表明,流动中心性可以帮助鉴定与两种疾病之间的过渡表型或杂合表型相关的关键途径所涉及的基因。可以利用多组学测量(例如转录组学,基因组学和表观基因组学检测)来定义受影响患者中流动中心基因的分子概况64通过将这些分子图谱与患者的临床状况和结果相关联,原则上可以将这些谱图定位在哮喘-COPD谱图上,从而为靶向疗法创造新的机会。

流中心性方法的有效性取决于当前PPI数据的可靠性。但是,据估计只有大约20%的总蛋白质相互作用是已知的,并且大量的建模相互作用可能是假阳性相互作用的结果5而且,由于实际相互作用的发现是不统一的,并且主要是受到对研究与重要功能或疾病相关的蛋白质的兴趣的驱使,因此可能导致网络的实际布线模式的建模不准确。但是,新的和改进的无偏差实验和预测可以提高可靠性65 蛋白质相互作用(如酵母-两个杂种)的检测方法,对于加深我们对引起疾病扰动的基因的理解至关重要。

方法

相互作用组的构建

我们在这项工作中使用的网络已由Cheng等人编译。19,并整合了从15个数据库中提取的蛋白质间相互作用:

  1. 1。

    质子泵抑制剂的二进制测试通过高通量的酵母双杂交(Y2H)系统(参考文献6667http://interactome.baderlab.org)。


  2. 2。

    从KinomeNetworkX激酶-底物相互作用68,人蛋白资源数据库(HPRD)69,PhosphoNetworks 7071,PhosphositePlus 72,DbPTM 3.0 73,和磷酸。榆木74


  3. 3。

    通过亲和纯化,质谱(AP-MS),Y2H和文献衍生的低通量实验鉴定PPI,以及BioGRID 75,PINA 76,Instruct 77,HPRD 69,MINT 78,IntAct 79的蛋白质三维结构和InnateDB 80


  4. 4。

    通过SignaLink2.0 81中注释的文献衍生的低通量实验进行信令网络


通过仅考虑网络中最大的连接组件并消除自环,所得的相互作用组包括16,656个蛋白质和243,592个相互作用。有关更多详细信息,请参阅参考资料。19

哮喘和COPD种子基因

我们通过汇总针对COPD和哮喘易感性复制的若干全基因组范围关联研究的来源,以及由eQTL或GWAS区域内的功能研究牵涉的特定基因,确定了一套完善的基因。补充资料12分别详细列出了考虑用于哮喘和COPD的来源   对于COPD,我们还考虑了导致孟德尔综合症的基因,其中包括肺气肿作为其表型的一部分:α-1抗胰蛋白酶缺乏症(SERPINA1)和角质疏松ELNFBLN5)。

疾病模块构造

哮喘和COPD疾病模块是通过DIAMOnD算法20构建的DIAMOnD基于迭代方案,该方案利用网络的拓扑结构逐步构建疾病模块。给定一个疾病基因集ñs在每个迭代基因上,DIAMOnD会计算网络每个节点与疾病基因的连通性的统计意义。如果当前迭代中的疾病模块由s 基因,然后是具有度的候选节点 ķķs 边缘连接到 s模块中的基因具有p

p--v一种ķķs=ķ一世=ķsķpķķ一世
(1)

哪里 pķķ一世 是超几何分布

pķķ一世=sķsñ-sķ-ķsñķ
(2)

ñ是网络中基因的总数。在参考。如图20所示,可以对种子基因进行加权,以使其在p值计算中更为突出,但是在此分析中,未探讨这种可能性。在候选节点中,将与节点集最重要的节点(因此具有较小的p值)添加到模块,然后从增加的基因集开始该过程。重复此操作固定次数的迭代ñ,最终模块大小为 ñs+ñ基因。为了选择ñ我们使用阈值p从UK-Biobank 21中提取了与哮喘和COPD显着相关的基因1个Ë-3和分别不存在于哮喘和COPD种子基因集中。虽然UKB基因通常与哮喘和COPD的种子基因不同,但可能会发生一些重叠。因此,我们仅考虑了哮喘和COPD的种子基因中分别不存在的UKB基因742和458基因。从哮喘种子基因开始,我们执行了DIAMOnD,并且在每次迭代中,我们测量了GWAS重要基因与当前模块中的基因之间的超几何p值,获得了图1所示的曲线   (a,左)。然后我们选择迭代截止ñ产生曲线中最低p值的值。我们对COPD模块重复了相同的操作(补充图   1(b,右))。哮喘和COPD模块的最终大小分别为373个基因和228个基因,其中有14个重叠基因。

模块之间重叠的意义

为了测试哮喘和COPD模块之间重叠的重要性,我们使用以下描述的程序(方法中的基因组随机化部分)生成了1000个哮喘和COPD基因组随机对,并计算了随机样本之间的重叠等于或大于观察值(14个基因)。

流中心

给定源疾病模块 Ť 和目标模块 小号,我们定义节点的流中心性 v 是(谁)给的

FC小号Ťv=1个|小号||Ť|s小号ŤŤσsŤvσsŤ
(3)

哪里 σsŤv 是距离的最短路径数 sŤ 通过节点 vσsŤ 是之间最短路径的总数 sŤ||是相应集合的大小。在特定情况下小号=Ť=V,在哪里 V等于网络中所有节点的集合,则流量中心性降低为中间性中心性度量。注意,虽然等式。3)暗示源疾病模块之间的方向性小号 和目标模块 Ť,在无向网络中,此类角色可以互换。

流动中心度的原始值由方程式计算得出。3)偏向集线器:高度节点更有可能偶然偶然参与节点对之间的最短路径。为了解决这个偏差,我们通过将获得的值与通过将源模块和目标模块随机化1000倍而生成的零分布进行比较来计算其统计显着性。“方法”部分描述了随机化方案的详细信息。对于源模块和目标模块的每个随机对,我们计算网络每个节点的流量中心度并测量平均值μFC 和标准偏差 σFC所有样本中。节点的FCSv 然后计算为

FC小号小号Ťv=FC小号Ťv-μFCσFC
(4)

较大的正FCS表示该节点更有可能出现在连接源模块和目标模块的最短路径中,而较小或负的值表明该节点与所选模块对无关。

FCS稳定性

为了评估FCS值对疾病模块边界的适度变化的稳定性,我们进行了以下测试。我们在DIAMOnD模块的选定临界值迭代中定义了一系列可能的小变化,即Δ{-30-20-10-5-1个1个5102030}例如,当考虑变化-对于哮喘模块(373个基因),我们从列表中列出了30个,我们只考虑了第一个 ñ-30 由DIAMOnD优先排列的基因,其中 ñ 是原始截止值,获得的模块大小为 ñ哮喘-30=343基因。对于COPD,我们重复相同的方案。对于每个值Δ我们通过将被干扰的模块设置为源和目标来计算被干扰的FCS值。然后将扰动后的FCS与原始FCS进行比较(请参见补充图   4),补充图   5显示了每个值的Spearman相关性。Δ获得的相关值非常高(0.94),表明FCS分数对模块大小的适度变化具有鲁棒性。

基因集随机化

我们定义了一种随机化方案,旨在创建拓扑与给定DIAMOnD模块相似的随机模块的空分布。生成随机基因集的直接方法是选择一个数字ñ 保留程度的随机基因,其中 ñ是我们要随机分配的疾病模块的大小,然后重复此过程多次以获取样本。但是,这种方法的缺点是生成的疾病模块与我们使用DIAMOnD计算出的哮喘和COPD集完全不同。DIAMOnD迭代搜索种子基因的附近区域,从而生成相对于随机选择而言更紧凑且互连性更好的模块。因此,通过在此类样本上进行比较而评估z得分将被随机模块的不同拓扑特性所混淆。因此,我们定义了以下随机方案:

  1. 1。

    给定一组 ñsËËd 疾病模块的种子基因 中号 (通过DIAMOnD获得),我们提取了一组新的 ñsËËd 以保留度的方式随机种子基因。


  2. 2。

    我们对随机种子基因集运行DIAMOnD ñ 迭代,其中 ñ 是的大小 中号,获得一个新的大小随机模块 ñ


这样,该过程将生成随机模块,这些模块在拓扑上与DIAMOnD生成的模块更相似。

选择网络路径

选择流动中心路径作为连接哮喘和COPD种子基因的所有最短路径,其中间基因(即不是路径来源或目标的那些基因)的流动中心度得分为2或更高。假设FC值的零值分布具有正态性,那么与平均值相差2个标准差的值将远远超出零值分布的大部分。选择太大的阈值可能会导致选择的节点太少,并可能导致边缘密度较低的区域中的重要节点丢失,而阈值太低则会增加误报。作为附加约束,我们要求路径中的所有中间节点至少参与连接COPD和哮喘节点的五个最短路径,为了从池中删除所有由于最短路径统计信息低而具有不稳定FCS值的节点。请注意,虽然尚未使用完整的疾病模块信息来选择最短路径的初始池,但是由于FC取决于源疾病模块和目标疾病模块,因此该信息将嵌入网络中每个基因的流动中心度计算中。

Type A路径随机化方案的结构如下:

  1. 1。

    提取一个长度值 大号 根据FC路径长度的经验分布。


  2. 2。

    创建一个空路径 P


  3. 3。

    选择一个节点 ñ 在网络中随机均匀地添加到 P


  4. 4。

    选择一个随机的邻居 ñ 在那些还没有进入 P 并将其添加到 P


  5. 5,

    从第3步开始重复,直到 P大号


  6. 6。

    P 到当前的随机路径集。


  7. 7

    从步骤1开始重复,直到获得所需数量的随机路径。


请注意,在上述方案的实际实现中,为了考虑诸如无法将新邻居添加到路径等情况的边缘情况,还执行了一些其他控制。

通过从连接两种疾病的基因的最短路径池中均匀采样路径来选择B型随机路径。

顺序相似

给定一条路 Pñ 长度 ñ 作为网络中独特基因的有序序列 G1个G2G3Gñ然后将顺序相似性定义为

s序列Pñ=1个ñ-1个一世=1个ñ-1个sG一世G一世+1个
(5)

哪里 s是基因之间的任何GO术语相似性度量。在这项工作中,我们认为雷斯尼克的相似性度量的最佳匹配平均值(BMA)8283,定义如下。给定两个基因üv 与GO术语集相关 üV分别是BMA Resnik相似性的形式

süv=1个|ü|+|V|[αü一种XβV[s一世αβ]+βV一种Xαü[s一世αβ]]

哪里 sim卡αβ 表示GO项之间的Resnik相似性度量 αβ

顺序共表达

给定一条路 Pñ 长度 ñ 作为网络中独特基因的有序序列 G1个G2G3Gñ然后将顺序共表达定义为

ρ序列Pñ=1个ñ-1个一世=1个ñ-1个|ρËG一世ËG一世+1个|
(7)

哪里