您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!2008-2024
Wuhan Xinqidi Biotech Co.Ltd
本企业通过iso9001质量体系认证

FitHiChIP从HiChIP数据中鉴定显着染色质接触

 二维码
发表时间:2019-09-17 15:23作者:武汉新启迪Xinqidi来源:www.qidibio.com

FitHiChIP从HiChIP数据中鉴定显着染色质接触


摘要

HiChIP/plac-seq在分析调节元素之间的三维染色质接触和注释基因变异功能方面越来越受欢迎。在这里,我们描述FitHiChIP,一种从HiChIP/plac-seq数据循环调用的计算方法,它联合建模接触计数的非均匀覆盖和基因组距离,以计算统计显着性估计。我们还开发了一种过滤假定的旁观者环路的技术,可以用更强的相邻环路来解释。与现有方法相比,FitHiChIP在恢复Hi-C、启动子捕获Hi-C和CHIA-PET实验以及捕捉先前验证的启动子-增强子相互作用方面表现出了更好的效果。FitHiChIP循环调用是重复的,并且在不同的实验环境下是一致的。我们的工作还为差分HiChIP分析提供了一个框架,并提供了一种利用芯片-seq数据来进一步描述微分环路的方法。尽管FitHiChIP是为HiChIP设计的,但它也适用于其他构象捕获测试。

导言

即使高通量染色体构象捕获(3C)技术(例如Hi-C)的发明1,2,3,染色质相互作用分析与配对末端标记(CHIA-PET)4)已经彻底改变了三维(3d)基因组学领域,产生千巴比分辨率接触图的成本仍然很高,这样就可以重新识别相互作用的调控元素。3..Hi-C与染色质免疫共沉淀结合的两种新技术-测序(芯片-seq),即HiChIP(Hi-C染色质免疫共沉淀)。5和plac-seq(邻近结扎辅助芯片-seq)6,与CHIA-PET相比有显著改善。4在调节性(如H3K27ac)和结构(如恒河皂甙)与中等测序深度的相互作用(~200 M读)和原代细胞中的直接分析。然而,目前,从这些数据中计算出一个重要的功能子集的交互/循环/接触仍然是困难的。描述这两种分析的原始文章5,6(我们使用HiChIP来指以下两者)使用特定于Hi-C的计算方法(Hiccups)。3或者FitHic7)用于从HiChIP数据进行循环调用。HICCUPS使用局部邻域来检测循环,以计算接触矩阵每个区域的中心像素的富集。在另一端,FitHiC从全球接触计数集合中估计一个背景模型,以发现每个像素相对于该基因组距离的总体期望的丰富程度。这两种方法都假设每个基因组bin由大致相等数量的整体接触来表示,这一假设对于hichip和其他目标构象捕获分析(如chia-PET和启动子捕获hi-c(Pchic)是无效的。4,8..其他几种计算Hi-C数据的方法,这些方法解释了零通货膨胀和接触计数的过分散。9以及相邻片段/bin对之间的接触依赖关系。10,也不容易适用于HiChIP数据。另一方面,为CHIA-PET分析开发的几种工具不支持查找涉及非峰值区域的循环。11,12,13,这是一个对hichip非常重要的任务,与chia-PET相比,hichip的覆盖范围更广。14.

Hichip信号还取决于附近芯片-seq峰(1d)的限制性内切酶(RE)切割位点的密度和距离,与CHIA-PET相比,更多的是依赖于限制酶切位点的密度和距离。14..HiChIP数据的最新工具14,通过在macs 2中引入一个新的背景参数来纠正该RE位偏置。15模拟峰与其附近RE位点之间的距离。此校正用于从HiChIP数据中调用1d峰值,然后使用芒果进行循环调用。11..最近的工具,地图,16没有显式校正这个峰值到RE的距离效应,这也是我们的方法。映射采用以前用于hi-c数据的零截断泊松回归模型。17计算标准化的HiChIP接触计数,并使用这些标准化计数来计算每个观测计数的统计显着性。鉴于缺乏黄金标准验证集,我们使用许多不同和互补的度量方法,对我们的工具与这两种现有方法进行了广泛的比较。

在这里,我们开发了一种通用的方法,FitHiChIP,它从HiChIP数据中执行循环调用(即识别重要的联系人),方法是:(I)使用回归模型来了解每个基因组距离的分析特异性偏差或覆盖值之间的依赖关系。(2)采用单调不增加平滑样条拟合方法对不同距离的学习参数进行平滑处理。(3)使用从背景模型中推断的从所有可能的峰值箱(与所提供的峰值注释重叠的回收箱)推断出的参数和相应的预期计数来计算统计意义,我们将其命名为峰值到峰值或严格的(S),或者从涉及至少一个峰值箱的对(我们将其命名为峰值到全部或松散的(L)。(4)(可选)进一步提高由此产生的循环调用的特殊性,将被确定为二进制循环调用矩阵的连接部分的相邻环路合并,然后过滤可以用更强的直接循环来解释的旁观者环路。FitHiChIP工作流程如图所示。1A并在补充图中提供合并滤波器的图像描述。1..FitHiChIP的其他特性包括:(I)允许用户从其HiChIP数据的1d覆盖范围推断峰值,或输入可能来自匹配芯片-seq实验的预定义的峰值参考集;(Ii)报告对以下方面的重要性:(A)只有两个重叠的桶提供峰值(峰值到峰值,类似于CHIA-PET管道);(B)对至少一侧具有峰值重叠(峰值-至所有前景,类似于PCHiC)的对,或(C)所有对(所有前景,类似于Hi-C),(3)允许使用由矩阵平衡法计算或仅从边缘化的HiChIP覆盖值计算的正常化/偏差因素。

图1
figure1

FitHiChIP管道的概况和不同的设置/参数。aFitHiChIP管道概述。b从同一细胞类型的PCHiC数据恢复循环的角度比较不同的归一化技术与没有规范化的FitHiChIP。c我们的合并过滤器(M)技术使用不同的设置和窗口大小的PCHiC循环的恢复性能。d利用不同的读取集从HiChIP数据中推断MACS 2峰恢复芯片-seq峰。e在从GM 12878 Hi-C数据恢复循环调用的参考集合方面,比较选择峰值调用(从参考芯片-seq数据或从HiChIP数据直接推断)。符号N指示相应方法的循环总数(或峰值)。源数据作为源数据档案

在多个已发布的HiChIP数据集上运行时,FitHiChIP将识别循环,以便与现有方法相比,更好地恢复原位Hi-C、PCHiC和CHIA-PET数据在匹配单元类型中报告的联系人。FitHiChIP还捕获了几个基因之前验证过的增强子相互作用,包括MYC, TP 53,和NMU..FitHiChIP的结果在生物复制中是可复制的,并且在不同数量的起始材料的实验中是一致的,因此对实验和技术的变化具有很强的鲁棒性。通过模拟Hi-C数据中的HiChIP接触图,证明FitHiChIP能够恢复底层数据中较强的Hi-C循环。当模拟之前对覆盖值进行调整时,这种恢复就会受到阻碍,这意味着FitHiChIP调用是特定的。这些仿真结果还表明,实际HiChIP数据中近三分之一的FitHiChIP循环不能用Hi-C和片-seq数据的结合来解释,这突出了HiChIP特别丰富的触点的存在。我们的微分分析结果表明了将发现的接触计数差异与FitHiChIP循环调用相交的重要性。我们对差动环与比较单元类型之间的芯片-seq信号富集变化的关系的分析表明,一小部分环路,不能用芯片-seq覆盖范围的变化来解释,它们的HiChIP信号有很大的差异。FitHiChIP也适用于其他类型的构象捕获分析,我们在这里对PCHiC的研究结果和HiChIRP最近的工作都证明了这一点。18..FitHiChIP可在https://github.com/ay-lab/FitHiChIP.

结果

FitHiChIP循环调用公开可用的HiChIP数据

如图所示,我们应用FitHiChIP。1A分析已发布的HiChIP数据集5,19四种细胞类型(补充表)1):GM 12878,K 562和幼稚CD4+T细胞(参考基因组hg 19);小鼠胚胎干细胞(参考基因组MM9),有两种不同的免疫沉淀靶点(组蛋白修饰的H3K27ac和恒河猴素,如RAD 21或SMC1A抗体所描述的那样)。为了推断背景模型,我们要么使用严格的(S)模型(峰到峰),后者估计较高的背景接触概率(补充图)。2),因此,更保守的显着性估计或松散(L)模型(峰值到全部),它报告了更多的循环调用(补充表)。2)。对于每一种细胞类型,我们使用FitHiChIP对单个复制进行重复性度量,以及在合并所有复制后的组合数据上使用FitHiChIP,以获得最大的统计能力。在本工作中,我们使用2.5或5kb固定大小的基因组窗口/桶来分析HiChIP数据。我们选择这两个窗口大小是为了与现有关于hichip和hi-c数据分析的文献兼容。3,5,14,16,19..然而,用户可以使用FitHiChIP,并根据其数据的排序深度和所使用的RE的不同,使用与其数据相适应的任何其他窗口大小(补充说明)。8)。在这里,我们选择指定置信度估计(即用作前景),峰值到所有对作为峰值到非峰值对的包含,大大增加了FitHichIP(补充图)恢复的原位Hi-C循环的比例。3).

FitHiChIP循环调用的评估及现有方法

为了系统地比较FitHichip与现有工具,并评估不同参数的影响,我们量化了与其他单元类型匹配的构象捕获数据(补充表)的一致性程度。35)。当将HiChIP循环调用与来自Hi-C、PCHiC或CHIA-PET数据的一组循环进行比较时,我们使用恢复图来测量从HiChIP数据中捕获的循环调用的比例(即降低严格阈值)。2)。为了与Hi-C数据进行进一步的比较,我们创建了聚合峰分析(APA)图,该图测量了被认为与HiChIP数据相互作用的两个基因座的Hi-C信号对其局部邻域的丰富程度(图)。3)。我们还编写了一套由独立方法(例如,在单个细胞和散装的、DNA荧光原位杂交(FISH)或3C)中定期排列的间隔较短的回文重复序列(CRISPR)屏幕、DNA荧光原位杂交(FISH)或3C(DNA荧光原位杂交(FISH)或3C)确定的长期有效染色质环,并询问这些环是否是通过不同方法从HiCh4)。此外,当生物或技术复制可用于HiChIP数据时,我们计算并比较了来自不同方法的循环调用的重复性,以及在不同数量的细胞作为起始材料的实验中,高级别循环的一致性(图)。5)。最后,我们使用每个回收站的芯片seq覆盖来模拟来自高深度GM 12878 Hi-C数据的类似HiChIP的联系人地图,以测试FitHiChIP是否能够从模拟数据中恢复底层的Hi-C循环调用,并查看这种恢复是否与混洗的芯片-seq覆盖值的模拟相比是特定的(见方法)。

图2
figure2

FitHiChIP可以恢复Hi-C、PCHiC和CHIA-PET循环调用的很大一部分.acHiChIP循环调用方法从HI-C数据中恢复HICCUPS调用循环的比较分析。y轴上的数字表示所有的Hi-C循环,而不管它们与芯片-seq峰的重叠程度如何。暗棕色点表示从HiChIP数据中调用的HICCUPS循环,图形图例中相应的数字表示这样的循环,其中至少有一端重叠一个参考芯片seq峰值,使其类似于我们的峰值到全部前景。d, e与已发表的启动子捕获Hi-C和CHIA-PET循环相类似的比较.f以GM 12878、RAD 21、CHIA-PET和GM 12878在原位HI-C循环之间的共同回路作为参考集,进行了类似的分析。g详细分析了来自hiccups的GM 12878 Hi-C循环调用以及与HiChIP循环重叠的调用的各个部分,这些调用使用四种不同的方法调用两个不同的数据集。对于所有子图,重叠循环使用一个5 kb的松弛(见方法)来确定。源数据作为源数据档案

图3
figure3

FitHiChIP循环由原位HI-C数据支持.aGM 12878现场Hi-C数据调用的HICCUPS循环的APA图3使用与基础联系人映射相同的数据集。bd根据GM 12878 Coherin HiChIP数据计算的HICCUPS、HICHHIPER和MAP循环的APA分数5分别。eh对于相同GM 12878的HiChIP数据,不同FitHiChIP版本的APA评分5..对于HICCUPS,所有5108个报告的循环都被使用,而FitHichIP、hichiper和map则使用顶部。k考虑循环,其中k=5441(等于GM 12878 RAD 21 CHIA-PET环的数目)。(一)FitHiChIP之间重叠和排他性循环的比较APA分析原理图(TOP)k循环)和一组来自引用方法的循环(包含k总循环)或来自竞争方法的循环(顶部)k循环)。jlGM 12878恒河资料FitHiChIP(S+M)与hichiper重叠和排他循环的比较APA分析结果5..对于上述所有APA图,重叠循环使用5 kb松弛(见方法)确定,循环调用被子设置为150 kb-1 Mb的距离范围(如参考文献中所建议的)。11)对于每种方法,在确定顶部之前k. m对于不同的HiChIP环路呼叫者,在CTCF结合方向上,双方重叠的CTCF结合单元的破坏。在每种方法的左边列出了每一种方法的两侧有CTCF基元的循环总数,并在相应的部分上覆盖了具有收敛方向(绿色)的循环数。源数据作为源数据档案

图4
figure4

FitHiChIP恢复独立验证的远程交互。a*CRISPRI(定期间隔的短回文重复干扰)屏幕MYCK 562细胞上7个增强子区的定位21其中四个在这里显示,其余三个可以在补充图中看到。26,影响到MYC当被KRAB-dCas9系统抑制时表达(CRISPRi评分跟踪)。b在K 562细胞中进行单细胞CRISPR筛选,发现其在K 562细胞中的表达有很强的相关性。NMU基因和一个增强子区~100 kb上游24. c经超增强子分析和广域分析确定的两个区域与rna polⅡchia-PET数据相互作用。TP 53EpiSwitch诱饵在K 562细胞中的启动子(由星星指示的环)22..所有浏览器视图都是使用wasu eppigene浏览器生成的。46..所有数据H3K27ac来自K 562细胞的HiChIP数据被用于FitHiChIP,hichiper,map和hiccups HiChIP。源数据作为源数据档案

图5
figure5

FitHiChIP通话可以在不同分辨率的重复中重复使用。aGM 12878 H3K27ac两种生物复制方法循环调用的重叠19..使用5kb的松弛(见方法)确定重叠循环,并分别显示相对于单个样本的重叠。bFitHiChIP的重现性对不同的HiChIP数据集的分辨率要求在5~2.5kb之间。对于每个数据集,列出了所有2.5kb循环的数目以及与5 kb循环调用重叠(即包含在其中)的循环数。对于重叠至少一个2.5kb循环的5kb循环,用为每个数据集显示的这种情况的百分比来说明五种不同的可能配置的细分。源数据作为源数据档案

我们详细讨论了如何选择正常化(如图所示)。1B和附图。46),使用基于合并的过滤来消除间接接触(如图所示)。1C、方法和附图。179)和选择使用来自片-seq数据的峰值调用,或者从HiChIP数据中产生的不同读取类型中选择使用,在放弃了对RE站点分布的校正或不对读的配对之后(如图所示)。1D,e和附图。1012(影响FitHiChIP在补充说明中的结果14.

FitHiChIP从原位Hi-C实验中恢复回路

在此,我们首先比较了FitHichip、hichiper、map和hiccups循环调用与hichip数据的性能,以及从gm 12878和k 562细胞株的原位Hi-C数据中恢复5 kb分辨率的高置信度循环调用的性能。3..为此,我们在4个不同的设置(L,L+M,S,S+M)中,以1%的错误发现率(FDR)计算FitHiChIP对Hi-C数据的循环调用,在4种不同设置下(≥2配对末端标记(PETS)(默认)、≥2宠物+M、≥12宠物、≥12宠物+M、1%FDR、≥12宠物和预期计数比≥2的默认设置地图,以及三个不同设置下发布的CUPS HiChIP循环调用(见方法)。对于FitHiChIP、hichiper和map,在基因组距离从20 kb到2 Mb的范围内进行循环调用。对于HICCUPS HiChIP调用以及所使用的参考数据集(Hi-C、CHIA-PET、PCHiC),容易计算的调用被过滤为只在这20 kb到2 Mb距离范围内保持循环(方法)。在所有情况下,FitHiChIP(L+M)提供更好的总体恢复(y与其他工具的所有设置相比,Hi-C循环的轴(图)。2A-C)。与FitHiChIP相比,即使在竞争方法报告了更多循环的情况下,这种情况也是如此(如图所示)。2B,c)。对于H3K27ac数据集,地图的性能可与FitHiChIP的某些设置相媲美(如图所示)。2B,c),但在任何给定数目的情况下,回收率都较低。k挑顶上-k循环调用在眼镜蛇的数据(图)。2A)。当每个方法被限制为具有相同次数的循环调用时,HiChIP数据中的hiccups循环显示出相对于所有其他方法的可比或更好的恢复;然而,HICCUPS的总体恢复是相当有限的(如图所示)。2B,c).

为了进一步刻画HiChIP循环调用方法在恢复性能上的差异是否鲁棒,我们在不同的设置下进行了相同的分析。一个可能产生重大影响的因素是,当FitHichip、map和hiccups使用固定大小的基因组垃圾箱(5或10 kb)时,接触图的分辨率就会下降,而hichiper使用的是大小不同的环锚(1-70 kb,中间值为2.5 kb)。14..我们使用2.5kb分辨率的联系图进行的分析表明,FitHiChIP在GM 12878和K 562 H3K7ac数据方面仍然表现出明显的优势,无论使用的是原始锚坐标(RAW)还是它们被绑定(2.5 kb)。13)。然后,我们测试另一个潜在因素,即对FitHiChIP循环调用使用后处理步骤(即合并过滤器)。无论是应用我们的合并过滤器,以打嗝的结果和使用更严格的PET阈值12(如地图所建议的),并不会大大改善打嗝的结果(图一)。2A-C)。最后,我们直接使用循环调用两个gm 12878 HiChIP数据集上的两个gm 12878 Hichip数据集,而不是从比较数据集上使用hichiper和map映射的循环调用,这两个方法都可以从映射的源数据文件中获得。16..这一分析旨在了解不同群体在应用工具方面的技术差异是否影响到我们的观察。我们观察到,与我们自己应用地图和打嗝器的结果相一致,无论是对恒河猴还是H3K27ac数据,FitHiChIP的几乎所有设置都比地图和HICHIPER更好(补充图)。14)。总的来说,这些结果表明FitHiChIP的更好的恢复性能不能通过分辨率、距离范围、后处理设置或数据处理或工具应用中的技术差异来解释。

FitHiChIP从其他3C数据中恢复循环

接下来,我们使用来自PCHiC或CHIA-PET的循环调用作为我们的参考集,而不是Hi-C。FitHiChIP(L+M)在总体恢复方面的表现再次优于HICHIPer和MAP,即使在竞争方法调用更多循环的情况下也是如此(如图所示)。2D,e和补充图。15)。对于这些参考集,FitHiChIP与合并过滤器和hiccups具有相同的恢复能力-k循环被认为(k等于从hiccups发出的所有循环调用的次数),对于GM 12878恒河数据来说,这两个数据都比没有合并过滤器的映射、hichiper或FitHiChIP要好得多(如图所示)。2E)。然而,打嗝的次数要少得多,特别是对于幼稚的CD4。+T细胞H3K27ac HiChIP数据导致PCHiC循环的整体恢复仅为10%,而FitHiChIP恢复超过60%(图1)。二维空间)。当我们使用在两种不同类型的构象捕获实验(例如Hi-C和CHIA-PET)中一致的循环时,FitHiChIP仍然优于现有的方法(图1)。2F和补充图。16A)。由于其严格性,我们还利用HiChIP数据上的hiccups循环调用作为引用集,以比较其他三个HiChIP循环调用者。HiChIP数据上循环调用的恢复图(补充图)。8)或在匹配数据集中与CHIA-PET循环调用的交叉(补充图)。16b,c)所有这些都表明FitHiChIP(L+M)在每种情况下都具有最佳的总体性能,而映射作为H3K27ac数据集的第二或第三最佳。我们还测试了联系人地图分辨率对FitHiChIP性能的影响。重复上述使用2.5 kb分辨率联系图进行的恢复分析,我们发现FitHiChIP对于大多数设置仍然具有更好的总体恢复能力,而使用top-k循环调用k所有设置相比较,打嗝(补充图。17)。这些结果表明FitHiChIP的整体恢复更好,而且它的恢复只有在顶部-k使用循环调用,在广泛的引用数据集之间是一致的。

对于GM 12878细胞株,采用恒河蛋白和H3K27ac HiChIP数据,以及来自HICCUPS的高分辨率HI-C循环调用,比较了三个数据集对不同HiChIP循环调用者的一致性。我们的结果表明,超过43%的Hi-C环被FitHiChIP从Coherin和H3K27ac数据(三向交点)中捕获,而分别为<20%、30%和24%的Hi-C环分别用于Hhichiper、MAP和hiccups(图1)。2G)。另外,只有不到15%的Hi-C循环(9270中的1318个)不能被FitHiChIP使用任何一个HiChIP数据捕获,而对于所有其他方法则是超过25%。这些结果表明,通过适当的分析,HiChIP有能力对从Hi-C数据中发现的大部分测序深度较低的最强环进行重述,并检测出新的环,这些环在Hi-C中也以接触计数富集的形式支持,如下文所述。

FitHiChIP回路显示Hi-C接触图中的富集

上一节展示了FitHiChIP和现有方法从Hi-C和其他数据集中调用的循环的恢复。这里我们从HiChIP循环开始,询问它们是否被Hi-C联系图所支持。我们询问:(I)使用两种不同的方法(Hiccups)调用的hi-c循环从hichip数据中检测出多少个循环。3和FitHic7),(Ii)当使用apa对周围的局部接触模式进行综合分析时,所识别的hichip环是否显示出hi-c接触数的增加。11,以及(Iii)方法特定的HiChIP循环(即FitHiChIP报告的,而不是由hichiper报告的)是否在它们从单元类型匹配的Hi-C数据中得到的支持方面显示出不同的模式。

首先,当与HI-C循环相比,FitHiChIP循环(无论是常见的还是排他性的)与Hi-C循环调用的重叠程度更高(补充图)。18)。FitHiChIP和map之间的类似比较表明,特定于映射的循环调用(与FitHiChIP相比)也很好地得到了底层Hi-C数据的支持,这与hichiper(补充图)不同。19)。其次,在APA分数方面(越高越好),我们观察到与FitHiChIP的所有设置的循环调用以及coherin(1.63-1.69)和H3K27ac(1.27-1.35)HiChIP数据上的循环调用相比,hichiper循环始终具有最低的富集度。5,19,至RAD 21 CHIA-PET循环。20(1.83)和Hi-C的打嗝循环3(2.17)和HiChIP数据(1.93恒河,1.76 H3K27ac)。3和附图。2021)。与前面提到的重叠分析一致,类似于FitHiChIP环(1.84-2.12恒河,1.49-1.79 H3K27ac),MAP循环调用也得到Hi-C数据的高度支持(2.02恒河,1.75 H3K27ac)。3和附图。2021)。值得注意的是,较高的APA分数并不是由报告较短距离环的偏好来解释的,因为FitHiChIP(S)报告了最高的APA分数和最大的中间环路距离,这是因为,无论是Coherin还是H3K27ac数据集都是如此。最后,当我们分析特定于方法的HiChIP循环调用时(如图所示)。3I),专用于FitHiChIP的循环(对于所有设置)显示出更高的APA分数,而不是只适用于hichiper的循环(如图所示)。3J-l和附图。2223)。与地图相似的比较表明,方法特异性循环计数不对称(FitHiChIP较高),但APA评分一般相当,表明FitHiChIP和MAP-排他环对应于Hi-C接触富集区域(补充图)。2425)。关于所有这些结果的更详细的讨论见补充说明。5.

FitHiChIP循环与收敛的CTCF基元高度重叠

由于ctcf/coherin相关的相互作用在ctcf基序的收敛方向上表现出更高的偏好性。3,我们测试使用不同方法调用GM 12878 Coherin HiChIP数据的循环是否也显示了这种偏好(图1)。三米)。这些结果表明,在大多数方法中,收敛环的百分比是相似的,尽管报告的收敛对的数目不同。FitHiChIP(L)识别出最大数量的这类循环(大于12 k,而HICCUPS为<3.5 k,地图为7.5 k),突出了FitHiChIP与其他HiChIP方法相比,在恢复具有预期CTCF绑定配置的附加结构环方面的灵敏度提高,以及从GM 12878原位Hi-C数据(3619对汇聚对)中发现的循环。3.

FitHiChIP识别独立验证的远端环路

为了评估FitHiChIP是否从HiChIP数据将远端增强子连接到其经实验验证的目标启动子上,我们编制了一份功能数据(例如CRISPRi)与相同细胞系的HiChIP数据一起可用的基因座列表。3,21,22,23,24..其中包括MYC, NMU, TP 53, MYO1D,和SMYD 323具有不同功能实验的基因,目的是将远端增强子与其调节联系起来,以及从hi-c中鉴定并经dna鱼验证的具有强ctcf依赖的长距离环的四个区域。3..对于大约400 kb的区域MYC,FitHichip和map都识别出从crispri屏幕上发现的所有四个增强子区域都与MYC启动子(K 526 H3K27ac HiChIP)19只有一个增强子是相互作用的,而hichiper在这个轨迹中报告了大量的循环,其中大部分是短程的,而不是来自MYC启动子(如图所示)4A)。~2 Mb处最远增强子的环被所有回路调用者以及Hi-C(补充图)捕获。26)。为NMU,Fithichip和hicheper准确地捕获了从单细胞crispri屏幕上识别出来的增强子。24由于与启动子相互作用,而打嗝和地图都不能做到这一点(图中所示)。4B)。如果TP 53启动子,FitHiChIP识别使用EpiSwitch诱饵识别的两个命中区域的循环22,而打嗝则两样都错过了(图中所示)。4C)。另一方面,hichiper和map报告了大量的循环,包括TP 53启动子对这两个攻击区域没有特异性。我们讨论了MYO1DSMYD 323补充说明(补充说明)中详细说明的基因以及鱼验证环的基因。67和附图。2729)。总的来说,这些结果表明FitHiChIP能够从细胞类型匹配的HiChIP数据中恢复经功能验证或实验证实的接触/交互,而无需报告许多潜在的假阳性循环呼叫。

FitHiChIP循环的重现性和鲁棒性

我们还评估了FitHiChIP的循环调用和来自HiChIP数据的其他方法在多大程度上可以在技术和生物复制中重复使用(如图所示)。5A和附图。3031)。一般来说,所有三个hichip循环调用者都有更好的重现性,与其他测试(如hic和chia-PET)的复制所发布的循环调用相比,它们具有更好的重现性。8)。我们还比较了MES HiChIP样本中以不同数量的细胞作为起始材料产生的FitHiChIP呼叫(含1、5和10个M细胞的恒河胶、50K、100 K、500 K和25M细胞的H3K27ac)。5,19..这些结果还显示FitHiChIP循环调用与使用更高的单元数和更高的测序深度生成的样本有很大的重叠,从而产生了更多的循环/发现(补充说明)。8和补充图。32)。最后,我们从绑定在2.5或5kb分辨率的HiChIP数据中计算FitHiChIP循环调用的重叠。5B,补充说明8,以及附图。33)。我们对三个不同的HiChIP数据集的结果表明,对于松散和严格的背景模型,也有超过95%的2.5kb循环被重叠的5 kb循环所检测到(补充图)。33)。在重叠至少一个2.5kb循环的5kb循环中,我们看到大多数5kb循环可以被分解为一个底层的2.5kb循环(图1)。5B),说明FitHiChIP呼叫在一定程度上对选择联系人地图分辨率具有一定的鲁棒性。

FitHiChIP在模拟HiChIP数据中的鲁棒性

我们还测试FitHiChIP的鲁棒性,首先使用Hi-C和芯片-seq数据模拟HiChIP映射,使高(低)芯片-seq信号的回收箱在模拟后具有更高(更低)的HI-C读取覆盖率(方法)。然后,我们在这个模拟的HiChIP映射上应用FitHiChIP,以查看FitHiChIP是否恢复由底层Hi-C数据和真实/非模拟HiChIP数据生成的循环。为此,我们使用原位hi-c数据。3GM 12878细胞的恒河蛋白和H3K27ac芯片-seq数据的匹配(补充表)1)。FitHiChIP的应用表明,从模拟HiChIP映射中识别的循环在很大程度上(85%-99%)与底层Hi-C数据或实际HiChIP数据(补充说明)所报告的循环相对应。9和附图。34a35A)。对于Hi-C数据中的HICCUPS循环,模拟的恒河猴素和H3K27ac HiChIP数据分别恢复了72%和61%的循环,而FitHiChIP调用的模拟地图使用的是洗牌芯片-seq覆盖只能捕获12%和14%的相同循环,同时报告非常少的整体循环相比,从模拟地图没有洗牌覆盖(方法,补充图)。34B35B)。这些结果表明,FitHiChIP的统计能力和参考回路的恢复都是针对实际使用hichip数据的情况,或者使用实际的(即不改组的)芯片-seq覆盖来模拟hi-c数据中的hichip地图的情况(补充说明)。9).

FitHiChIP在其他构象捕获实验中的应用

我们还使用Mifsud等人提供的GM 12878 PCHiC数据集测试FitHiChIP在其他构象捕获测试中的适用性。8..我们使用对应于捕获的限制片段的捕获设计文件作为FitHiChIP所需的参考芯片-seq峰值文件。关于芝加哥生成的循环的比较25一个专为分析PCHiC数据而设计的工具,它显示FitHiChIP能够恢复近90%的芝加哥循环调用(补充说明)10和补充图。36a)。当gm 12878 rad 21 chia-PET回路、Fithichip或h3k27ac hichip数据上的hiccups循环或gm 12878原位hi-c数据的hiccups循环作为参考回路集时,Fithichip也具有与芝加哥相当的恢复(补充注)。10和补充图。36B-f)。这些结果以及使用FitHichip分析rna相关染色体构象(Hichirp)的最新工作。18),强调FitHiChIP对于分析其他构象捕获分析是有用的。

对HiChIP数据的差分循环调用

我们使用FitHiChIP实现的另一个实用工具是通过复制HiChIP实验识别两个条件之间的差分HiChIP循环的能力。我们用Edger来做这件事26,27为了评估在给定条件之间的差异接触计数的重要性,然后用FitHiChIP循环从每个复制调用识别出的差异(补充图)。37 a,b)。由于HiChIP接触计数信号依赖于底层位点的芯片富集,我们进一步将所产生的微分回路按芯片-seq信号的变化划分为不同的组,这两个条件对应于一个给定回路所涉及的两个基因座(即关于一维信号的变化-一维微分或一维不变量)。最近,一项关于Notch调节和依赖于促进剂和促进剂之间循环的研究使用了类似的分类。28..在比较GM 12878和K 562 H3K27ac的HiChIP数据时,我们确定了1D差异位点和1D不变位点之间的差异接触,表明接触计数的一部分差异完全是由潜在的3D构象引起的,而相关位点的活性或染色质状态没有变化(补充图)。37 a,b)。我们还显示,进一步过滤这些检测到的3d差异,将它们限制在至少一个输入样本中与FitHiChIP循环调用重叠(一个复制在一个类别中),就会产生一个循环集,在从所比较的单元类型对HiChIP数据的分析中,APA分析有显着的丰富差异,以及在基本的Hi-C接触计数方面存在显著差异(补充说明)。11和补充图。37C-e).

讨论

这里我们描述了FitHiChIP,一种基于经验零的灵活计算方法,用于从HiChIP/plac-seq数据中进行统计显着性估计和循环调用。FitHiChIP联合建模了HiChIP接触数的非均匀覆盖和基因组距离尺度,采用回归模型和样条拟合相结合的方法,并进一步利用迭代合并滤波器对相邻环路的每个连通分量进行了旁观者交互滤波。FitHiChIP速度快,内存效率高。FitHiChIP的一个重要特点是它为峰值呼叫、归一化、滤波相邻环路、背景估计以及循环呼叫考虑的区域对提供了多种选择。在前面的文本中,我们讨论了许多这些选项,并为我们的默认设置提供了理由;然而,在整个文本中,我们将L、L+M、S和S+M作为四种不同的设置。当我们比较这四种设置对GM 12878恒河素和H3K27ac HiChIP数据使用完全重叠的循环调用时,我们发现来自S+M的很大一部分循环也被其他三种设置所报告,这表明FitHiChIP(S+M)是所有FitHiChIP配置所同意的循环的良好替代物(补充图)。38)。对于这两种情况,L和S报告的大量循环,但在使用合并时,都证实了存在许多涉及实际环锚点周围区域的强环,这些环是通过合并滤波器去除的。循环的最大数目属于背景松散,但不严格,这突出了背景选择的重要性。例如,如果目标是在循环域的边界之间查找循环3它由收敛的CTCF基序标定,接触计数最高,最好使用背景严格的coherin HiChIP数据,最好为FitHiChIP启用合并滤波器。另一方面,如果目标是在域中找到增强子-启动子之间的相互作用。3,29,30这对基因表达有一定的贡献,那么人们可以选择使用松散的背景分析H3K27ac HiChIP数据,最好使用合并过滤器来收集一组完整的呼叫。

我们还认为,我们的工作突出了Hi-C和HiChIP数据之间的重叠,并通过对每种数据类型使用多种计算方法来调和一些差异。例如,尽管我们发现来自HiChIP数据的交互比Hi-C的HICCUPS循环更多,但我们发现在Hi-C数据中使用了非常大的一部分(恒河素几乎是100%,H3K27ac超过60%),当使用FitHiC,一种更宽松的方法,而不是Hi-C数据时,这种特定于HiChIP的循环被报告为Hi-C循环(补充图)。18)。这表明,通过针对特定的感兴趣因素,HiChIP放大了对富集于该因子的区域的环路信号,这些区域在Hi-C接触图中的接触计数很容易高于预期。我们用Hi-C和芯片-seq数据模拟1号染色体HiChIP图谱的结果进一步证实了这一点,即99%(79%)的模拟恒河素(H3K27ac)图谱是由Hi-C(补充图)支持的。3435)。相反,很大一部分最强的Hi-C循环(例如,hiccups调用)可以被HiChIP数据捕获,特别是当Coherin复合物被攻击时(77%,52%用于H3K27ac)(补充图)。3).

在对HiChIP数据进行差分分析的基础上,提出了一种基于Edger的差异检测框架,并利用FitHiChIP来识别出的差异中哪一个对应于一种单元类型的循环和另一种类型的循环。根据一维环锚区芯片覆盖范围的变化,进一步分离微分环。这些结果表明,虽然两个不同的细胞系在HiChIP数据上的大部分差异是由于芯片-seq信号的巨大变化造成的,但仍有数百个具有强烈差异接触的回路,从HiChIPAPA图上可以看出,并且得到了Hi-C数据变化的支持,没有潜在的芯片-seq覆盖差异。由于我们目前的方法仅限于对轨迹对的逐个分析,因此,我们不能排除附近区域的一维变化对这种一维不变的微分回路所观察到的差异可能产生的间接影响。未来发展差异HiChIP分析工具的方向可能包括模拟邻近的芯片-seq峰值或环路的贡献,以进一步分层各种差动循环模式。

总之,我们的工作强调了用一种适当的方法来分析HiChIP数据的重要性,比如FitHiChIP,它超越了最强的循环(例如循环域的角落或TADS),并且与现有的方法相比,专门识别了大量Hi-C/CHIA-PET/PCHiC支持的循环或文献中功能验证的交互。我们坚信FitHiChIP是深入探索来自HiChIP分析的丰富数据的关键一步,因为它有助于数据解释,并为HiChIP数据分析提供了一个标准化的工作流程。

方法

表基因组浏览器上循环调用的可视化

对于在本工作中分析的所有HiChIP数据,下面是具有所有相关循环调用的单个细胞系的会话ID(HiChIP、Hi-C、CHIA-PET、PCHiC),可以在华盛顿大学的Epi基因组浏览器中加载[http://epigenomegateway.wustl.edu/browser/]。单击提供的浏览器链接后,用户应在标有“文本框”的文本框中输入其中一个会话ID。会话包ID(左下角),单击检索会话然后单击恢复把铁轨形象化。

  • GM 12878循环调用-会话ID:787c9250-65fa-11e9-9623-5f9c43c4cfff.

  • GM 12878 H3K27ac循环调用-会话ID:b491c3d0-65f7-11e9-b334-5ff263937318.

  • K 562 H3K27ac循环呼叫-会话ID:019e06b0-65f4-11e9-921c-577d3df57445.

  • 幼稚CD4+T单元H3K27ac循环调用-会话ID:19d21050-65f9-11e9-A173-99425b87a4ba.

  • mESC循环调用-会话ID:7a47bff0-65fb-11e9-a36f-5fdb22c1eda3.

  • 对GM 12878 H3K27ac HiChIP和K 562 H3K27ac HiChIP数据集三个重复的差异分析-会话ID:27845860-6573-11 e9-822 e-5 db126207a24.

参考研究中使用的HiChIP数据集

我们使用已公布的HiChIP数据集(补充表)1)四种细胞类型:GM 12878、K 562和幼稚CD4。+T细胞(参考基因组hg 19);小鼠胚胎干细胞(参考基因组MM9),有两种不同的蛋白或组蛋白标记(H3K27ac和恒河蛋白复合物,如RAD 21或SMC1A抗体所描述)。5,19..对于每个数据集,我们下载了validpairs.txt.gz用于单个复制的文件,在每个复制或将所有复制合并到单个文件之后,都会对数据进行分析。

芯片-seq数据

对于每个hichip数据集,我们从encode下载了匹配的(单元类型和抗体)芯片-seq数据(峰值和覆盖率)。31或一般事务主任(补充表)1).

FitHiChIP的统计意义估计

FitHichIP通过:(1)用单调样条拟合技术模拟接触概率随基因组距离的增大而衰减。7以及(2)在观察到的接触计数和相互作用桶的偏置值之间进行回归。

等占用率距离衰减模型的目的是估计接触概率。p一对基因座之间l1l2基因组距离d = dl1l2由函数f(d)。假设N表示所有可能的(相互作用或零计数)轨迹对的数目,以及C是他们之间接触的总数。我们首先通过增加基因组距离来对这些对进行排序,然后使用等占用率论整体接触的数量C(即所需范围内的有效读对数),以便每个M回收箱(默认为200)大约有CM联系人。对于每一个被索引为j(1≤)j ≤ M),让nj是属于该垃圾桶的轨迹对的数目,以便j=1Mnj=NSj表示这些数据的联系人计数之和。nj一对座位,例如j=1MSj=C..然后,每个SjCM由于占用率相等,基因组距离排序中的一些领带断裂,以及每个位点对的平均接触数。j将是Sjnj..然后我们将这个平均值转换为先验接触概率, pj,每一个这样的垃圾桶jpj=Sj/njC..更进一步,让Dj是所有用户的平均交互距离。nj垃圾箱内可能存在的一对基因座j..使用点(Dj, pj)j=1,…,M,FitHichIP适用于单变量样条7 f,对于给定的轨迹对(l1, l2)与基因组距离d,期望/先验接触概率可以从样条拟合得到pl1l2=f(d=dl1l2).

背景模型的选择对于峰值到全部的前景(循环报告,如果它们至少有一个峰值在一侧;默认设置FitHiChIP),FitHiChIP使用两组可能的轨迹对之中的一组作为背景,以执行相等的占用率绑定和样条拟合。第一组使用每个垃圾箱内所有可能的峰值到全部轨迹对(L表示松散)。j,来定义值pjDj..第二组只对每个桶使用峰值到峰值循环(S表示严格)。j因此,提供了更严格的背景和更高的背景概率。pj(补充图。2),导致更保守的置信度估计和较低的重要循环数。

无偏差回归的统计显着性估计*如果不采用偏倚回归,则让p是特定轨迹对的先验接触概率(l1, l2)从样条拟合处向上看f..那么,精确观察的概率k此轨迹对之间的接触是通过二项分布计算的,如7:

Prob(X=k)=(Ck)pk(1p)Ck.
(1)

这个p观测值k之间的接触次数(l1, l2)是观察的累积概率k或者他们之间更多的接触:

P(Xk)=i=kCProb(X=i)
(2)

最后,我们修正了结果p使用Benjamin amini-Hochberg程序进行多次测试的值32计算q价值。如果一个轨迹对具有q值≤a给定FDR阈值,如0.01(用于当前研究;默认值为FitHiChIP)。

基于偏差回归的统计显着性估计:为了纠正可能与技术偏差有关的基因组不同区域的覆盖率差异,以及这些偏差可能与不同基因组距离方案的预期接触次数有关的差异,我们对每个个体的平均占用率进行了偏倚回归。j(1≤)j ≤ M)使用下列方法之一计算偏差值:

  1. 1.

    覆盖偏差*为固定大小的基因组桶定义bj(例如,5kb分辨率)作为其HiChIP覆盖范围与所有具有相同峰值状态的非零覆盖值(桶重叠芯片-seq峰值和不单独处理的)的平均覆盖范围的比率。


  2. 2.

    冰偏压使用矩阵平衡法(如迭代校正(ICE)计算每个垃圾箱33,在hc-pro管道中重新实现。34,它以相同的方式对待所有的基因组,而不管它们是否重叠一个一维峰(即富集)。


对于每个相等的占用箱jnj轨迹对与平均相互作用距离Dj,我们定义如下术语:

  1. 1.

    观测接触计数矢量Kj={k1,k2,,knj},


  2. 2.

    偏差向量(覆盖范围或ICE)值B1j第一个(较小的基因组距离)相互作用位点={b1,1,b1,2,,b1,nj},


  3. 3.

    偏置值向量B2j第二相互作用轨迹={b2,1,b2,2,,b2,nj}.


使用上述定义,FitHiChIP定义了以下偏差回归模型R每个垃圾箱j:

log(Kj)=R(log(B1j),log(B2j)).
(3)

我们使用R包质量实现的线性回归模型,使AIC(Akaike信息准则)最小化。35还有其他选择。因此,上述回归变成:

log(Kj)=β0j+β1jlogg(B1j)+β2jlog(B2j),
(4)

哪里β0,1,2j表示回归系数β0j对应于截取项。

在计算上述所有相同占用箱的回归后j(1≤)j ≤ M),相对于每个桶的平均交互作用距离值的回归系数,Dj,用光滑样条拟合。类似于不使用偏置值时用于接触概率的样条,这些样条fβ0, fβ1,和fβ2它们都显示出随着基因组距离的增加而减少的趋势,从而消除了明确模拟与基因组距离有关的接触概率变化的需要(补充图)。2).

利用这些样条拟合从回归模型中学到的参数,然后计算期望的接触数。cl1l2在轨迹对之间(l1, l2)与基因组距离d和偏差值(b1, b2)如:

log(cl1l2)=fβ0(d)+fβ1(d)log(b1)+fβ2(d),log(b2).
(5)

如果C“表示所考虑的所有座位对的预期接触数之和,预期接触概率为(l1, l2)变成pl1l2 = cl1l2/C..我们用这个概率p“类似于FitHic7正如情商中所描述的。(1)和(2)以上,在二项分布中计算统计显着性估计。在本研究中,除非另有说明,我们报告了在20 kb至2 Mb的距离范围内的峰到所有相互作用,并使用偏置校正模型。

相邻环路的合并滤波器

假设FitHiChIP或其他方法报告的一个重要循环由一对相互作用的固定大小(此处为5kb)的有序回收箱表示(x, y)哪里x < y..两圈(x1, y1)和(x2, y2)是邻接如果它们的组成箱是相邻的或相等的,即x1 − x2≤1和y1 − y2如果我们使用一个2D接触矩阵来表示所有可能的垃圾箱对,并且表示两个垃圾箱之间有一个重要的循环。xy作为位置上的非零项(x, y),找到一组相互相邻的循环的问题归结为使用8-连通性规则寻找图的非平凡连通分量。36..我们使用了Python包网络37找出这样的成分/簇相邻的统计意义的循环。对于每个这样的组件,我们提取一个可能代表直接交互的循环子集(剩下的循环可能是旁观者),以提高循环调用的特殊性,主要用于具有大量相邻循环调用的区域。一种简单的方法是,每个连接的组件报告一个具有最小值的循环。p价值(表示为办法)。然而,当多个独立和直接的循环落入同一个组件中时,这种方法有一个明显的缺点,即消除有意义的交互。因此,我们采用了迭代合并选择子集的方法S从一组循环K(|S<\x{e76f}K在连接组件内。在每次迭代中,我们选择当前最重要的循环。lK(基于统计显着性值、接触计数或任何其他循环评分方法),并将此循环包含在集合中。S当且仅当l不属于W = B × B(就回收箱而言)已经存在的任何循环的邻域S..我们使用恢复图测试多个值B(2,5,10)并选择在特异性方面表现最好的数字(补充图)。7)。除非另有说明,我们使用W当合并滤波器应用于FitHiChIP和现有方法的结果时,=2×2。

运行hichiper(0.7.5版)

不包括文件的hc-pro管道的基本输出目录RAWDAD_ALL ValidPair,作为对打嗝者的输入。当使用具有参考芯片-seq峰值的hichiper时,我们使用以下选项:-min-dist 20000-max-dist 2000000-背景校正-跳过-扩散环-跳过-重帧-跳过-qc-mak-ucc..当我们使用HICHIPER的峰值调用时,我们设置了山峰:每一个,自我选项在配置文件中,并使用以下选项:-min-dist 20000-max-dist 2000000-跳过-扩散环-mak-ucsc-保持-temp-文件在执行过程中。由于hichiper的输出循环没有固定大小的回收箱,为了与我们的方法进行公平的比较,我们将hichiper的每个交互桶的中点映射到重叠的bin(5或2.5kb取决于考虑的bin大小)。对于5kb的回收箱,因为大多数的打嗝环都在大小小于5kb的回收箱之间,这个过程会导致重复的循环调用,然后我们将其消除。请注意,这一转换减少了总次数的打嗝,并考虑到它的低特异性捕获参考集的循环(所有这些也是在固定大小的垃圾箱),减少很可能是帮助的特殊性问题,没有损失的敏感性。作为默认配置,hichiper只报告至少两个PET计数(最后一列)的循环。14..我们还使用一个更严格的过滤器,至少12个PET计数,以比较的目的,应审查者的要求。

合并相邻的打嗝环

我们测试我们的合并过滤器的效用,以减少一组报告的循环,对结果的打嗝。这个对应的方法由打嗝者+M..根据PET计数的减少对HICHHIPER的循环进行分类,并采用2×2个回收箱的窗口,类似于FitHiChIP的结果。

运行地图

对于给定单元类型的单个副本(.Quickq.gz读取),我们使用以下参数执行带有参考芯片-seq峰值的映射(与用于执行FitHiChIP和hichiper的峰值相同):垃圾箱尺寸=5000;罗斯福=过滤器文件=“无”;生成=0;mapq=长度截止=1000;螺纹=4;PERCHR=“真”..此外,对于循环调用,我们使用以下选项-联调范围2000000要求循环达到2毫巴距离,这是目前所有方法研究中使用的一个阈值。在为单个副本执行映射之后,我们将它们各自的对齐目录提供给映射,以便从组合副本生成循环。

使用映射和来自映射源数据的hichiper循环调用

对于gm 12878的coherin和h3k27ac hichip数据,我们下载了由map提供的循环调用。16在其原始数据档案(补充数据S1-ZIP)下。由于这些循环使用1 Mb的距离阈值调用,并且仅用于常染色体,因此我们过滤了FitHiChIP循环调用和参考数据集进行类似的比较。

由HiChIP数据推断一维峰

我们测试了以下四组读取的不同组合:(1)悬空端(DE);(2)自循环(SC);(3)再连接(RE);(4)CIS短程(<1kb)(<1kb)。V)读取(重复删除后)38..对于每一组读取,我们使用MACS 2。15具有以下参数:-Q0.01-147(默认为HICH HIPPER14)推断相应的一组峰。

Hichip 1d峰值调用与芯片-seq峰值的比较

我们用FitHiChIP的不同读入组或具有特定背景校正或没有特定背景校正的hichiper,通过计算它们与从匹配的芯片-seq数据推断的峰值的重叠来评估输出峰值集。我们通过允许1kb的空闲来计算峰值调用之间的重叠(在hichiper中使用)。14)。我们还计算了5kb回收箱水平上的重叠,以评估不同的峰值呼叫在将5kb垃圾箱标记为峰值或非峰值垃圾箱时可能产生的影响。

一对循环之间的重叠

除非另有规定,我们已经在两个循环集上使用了一个5kb的松弛/扩展(+或−每侧一个bin)来计算一对循环之间的重叠。我们在映射hichiper和chia-PET循环到5 kb bin(或者在与2.5kb FitHiChIP循环进行比较时,使用2.5kb)来应用这种松弛;它们在每一侧都有很大的重叠,因为这些方法通常在每端报告小于5kb大小的循环调用。对于HICCUPS,它报告了5和10 kb的分辨率循环,不管分辨率如何,我们都应用5kb的空闲。请注意,这在恢复图中给HICCUPS带来了些许好处,因为它的10 kb分辨率循环将在每一端填充到20 kb的总循环中,而所有具有5kb回收箱的其他方法都将在每一端有15 kb区域进行重叠计算。当使用非精确重叠(5kb松弛)报告不同循环调用集之间的重叠百分比时,我们分别报告每个集合的重叠和排他性循环。为了比较FitHiChIP的2.5 kb循环调用和5 kb循环调用,我们不使用任何松弛,并要求2.5 kb调用的两个循环锚都严格包含在5 kb循环调用的锚内,从而将两者视为重叠。

原位HI-C打嗝环的恢复

K 562和GM 12878原位Hi-C数据的HICCUPS循环3GSE 63525(文件GSE 63525_K 562_looplist.txt.gz和GSE 63525_GM 12878_PRIMARI+Replcups_Loplist.txt.gz)。我们只保留基因组距离在20 kb至2 Mb之间的HICCUPS环,并询问FitHiChIP或其他方法预测的循环数目增加(减少的严格性)时,它们中的哪些部分被恢复。我们计算重叠(成功恢复)与5kb的松弛,如上所述。

HiChIP打嗝环的恢复

我们得到在已发表的HiChIP数据集(补充表)上计算的HICCUPS循环。3)5,19..除了使用HiChIP数据上的hiccups调用进行比较外,由于hiccups调用的高度特异性,我们还使用它们作为参考集,并在比较上述其他方法或实验时计算这些调用的恢复。当用作参考集时,我们只保留基因组距离在20 kb至2 Mb之间的HICCUPS HiChIP循环,并且与至少一边由参考芯片-seq数据分配的峰值bin重叠。

CHIA-PET环的回收

我们从之前的两项研究(补充表)中得到了CHIA-PET循环调用。4)20,39..在以5 kb的分辨率进行绑定和去除重复后,我们用基因组距离和峰值重叠滤波器计算CHIA-PET环的回收率,如上述HiChIP信号环所描述的那样。

打嗝与CHIA-PET共循环的恢复

我们得到了一组参考的hiccups循环(参考文献中提供的HiChIPhiccups循环)之间的公共循环。5,19或者是在REG中提供的原位Hi-C打嗝环。3)和一套参考的CHIA-PET循环。20,39以5 kb的松弛为限。共环以5 kb的分辨率被绑定。这些循环的恢复分析是用相似的基因组距离和峰重叠滤波器进行的。

PCHiC回路的恢复

与上面描述的其他数据类型类似,我们还使用PCHiC循环调用来评估现有方法。我们获得了phic循环对纯cd4的调用。+T小组(补充表格)5)40用芝加哥计算25..我们保持循环的芝加哥分数为≥5,并在20 kb至2MB的距离范围内。由于PCHiC环至少在一端包含启动子段,因此我们只使用FitHiChIP或hichiper的启动子专用环(其至少一端位于参考TSS站点的5kb以内的环)来计算参考PCHiC循环的恢复。

FitHiChIP在PCHiC数据集中的应用

为了验证FitHiChIP对PCHiC数据的适用性,我们在GM 12878细胞系上下载了PCHiC数据集。25(Geo:GSE 81503)数据集由三个生物副本组成,分别有一个、三个和两个技术副本。将这些副本的.Quickq.gz文件合并在一起,然后通过hC-Pro管道(版本2.9.0)进行处理。34,它使Bowtie 2的读取对齐。41(2.3.3.1版)关于参考基因组hg 19,分配给DIII限制片段,过滤器的方向38,并使用Picard进行去重复操作。42..FitHiChIP将这些有效的读取对与PCHic数组的诱饵设计文件一起用作类似于芝加哥的峰值调用。25.

作为比较,我们从同一个GEO存储库中下载此GM 12878 PCHiC数据集的芝加哥显着循环(得分为≥5),并询问来自FitHiChIP的PCHiC循环调用还是通过hiccups从GM 12878现场HI-C数据中调用的芝加哥更好的恢复循环。

聚集峰分析

我们对GM 12878和K 562细胞使用Hi-C接触图(5 Kb)。3被ICE标准化的33对HiChIP数据进行循环调用的APA分析,或对Hi-C、CHIA-PET和PCHiC等其他实验的调用进行APA分析。对于每一个被称为循环,APA提取所有位点对50 kb上下的归一化Hi-C接触计数,对应于21×21维的矩阵,分辨率为5kb。然后,它将这些以每个单独循环调用为中心的小矩阵集合起来,生成一个聚合热图,并计算几个浓缩分数。11)。这个APA评分在每幅图的顶部显示的是中心像素的比率和上游位点下游15~30 kb像素的平均值,以及下游位点上游15~30 kb像素的平均值。符号R在每个APA图的中心显示的是从Hi-C数据中提取的21×21矩阵中心元素与其余元素的比率。这个角特异性APA评分在每个APA图的每个角落显示的是中心元素与单个角落区域的平均值之比,定义为从上下游位点的边界元素中偏移10 kb。真正的循环(高度显着)的相互作用预计有更高的接触计数比相邻的垃圾箱,因此,较高的APA分数表明相应的循环是高度支持Hi-C数据。为便于可视化,apa考虑距离范围为150 kb-1 mb的循环。11.

由于FitHiChIP或hichiper循环的数目大大高于参考的hiccups或chia-PET循环,所以我们使用top-k用于APA分析的HiChIP循环(由更高的统计意义确定),其中k是由更严格的方法报告的循环数,它要么是打嗝,要么是CHIA-PET。另外,由于几个数据集的HICCUPS循环具有5和10 kb的混合分辨率调用,所以在处理APA图中的10 kb循环时,我们会在具有较小坐标的每一侧选择5 kb的bin。

重叠和排他性循环的APA评分

放任k在距离范围150 kb-1 Mb范围内的参考环数(HICCUPS或CHIA-PET)。然后我们选择顶部-k循环在相同距离范围内从FitHiChIP获得更高的统计显着性,并通过允许5kb的松弛来计算它们与循环参考集的重叠。然后,我们对重叠的循环和对一个或另一个方法独占的循环执行APA分析。

HiChIP和Hi-C循环调用之间的重叠

为了找出由FitHiChIP的不同设置或现有的方法从HiChIP数据中识别出的循环中的哪些部分,也是从Hi-C数据中识别出来的,我们对Hi-C数据采用了两种不同的重要调用方法。我们用打嗝3作为一种高特异性的严格方法(从数据集中下载的结果)5,19补充表所述3)。我们也应用FitHic7在GM 12878或K 562细胞株的Hi-C原位数据集上,以5kb的分辨率对其进行了分析。然后,我们使用这两组Hi-C循环来计算与HiChIP数据调用的循环的重叠。循环重叠是通过允许5 kb的松弛来计算的。

CTCF基元取向分析

为了找出FitHiChIP或竞争方法产生的GM 12878恒河素HiChIP循环的CTCF基序方向,我们使用ENCODE[encodeproject.org/test/ENCSR000DZN(文件ENCFF710VEH.bed)中提供的hg 19 CTCF峰。例行公事母题榨汁机工具43[https://github.com/aidenlab/juicer]应用于HiChIP循环的输入集。在两个相互作用的垃圾箱中只考虑具有ctcf基序信息的环(+或−),由此我们计算了具有收敛、发散和串联取向的ctcf基序对的循环的频率和百分比。

从Hi-C和芯片-seq模拟hichip数据

使用每个5kb基因组桶的覆盖值(床具覆盖)来自参考芯片-seq数据(补充表)1),我们通过非均匀采样Hi-C接触来模拟HiChIP映射,这样得到的行/列和与计算的芯片-seq覆盖值的向量相对应。让我们用V,并以5 kb分辨率表示gm 12878第1染色体的染色体内hi-c接触图。3作为一个对称的非负矩阵M0..我们的目标是M0成矩阵Mt中的行和列和(对应于单个垃圾箱的覆盖值)模拟了Vt迭代。中提供的迭代优化算法。44,45..首先,我们定义了以下符号:

  1. 1.

    M0[i, j]=输入的Hi-C染色体内矩阵的接触计数ij.


  2. 2.

    Mt[i, j]=箱间Hi-C染色体内矩阵输出的接触计数ij,在迭代时t.


  3. 3.

    V[i]=参考芯片-seq覆盖范围i这个垃圾桶。


  4. 4.

    Mt[i,]=箱的行和i关于矩阵Mt.


  5. 5.

    Mt[,j]=箱的列和j关于矩阵Mt.


该算法执行交替迭代、按行和按列对输入矩阵进行缩放。M:

  • 在逐行缩放的过程中,Mt[i,]=Mt1[i,]×V[i]iMt1[i,].

  • 在列向缩放中,Mt[,j]=Mt1[,j]×V[j]jMt1[,j].

这个算法已经被证明可以收敛到期望的覆盖分布。V44,45..在我们的实现中,如果迭代的次数是t达到500,或者连续迭代时矩阵之间的差之和小于一个预定义的阈值。ε..对于gm 12878和h3k27ac模拟的hichip数据集,我们得到了结果矩阵的行(列)覆盖向量之间的>0.995相关。Mt和芯片-seq覆盖向量。V..最后,在Mt然后进一步缩放,使接触数之和等于gm 12878 coherin或h3k27ac(合并的副本;在补充表中提到)的实际染色体内hichip接触矩阵(用于染色体1)。1)。然后,应用具有峰值到全部前景的FitHiChIP(L)和20 kb到2 Mb的基因组距离,使用缩放的接触矩阵进行循环调用。

为了在模拟的hichip矩阵中实现随机化,我们在V在迭代优化之前。我们执行五种不同的随机洗牌V生成五幅模拟地图。在报告模拟结果的同时,我们给出了这五张洗牌地图的平均值。

模拟的HiChIP数据集的循环调用与其他循环调用的重叠类似于实际的HiChIP数据。简单地说,在20 kb到2 Mb的距离范围内的循环被考虑在每一侧,并且对于分析中涉及的每一个单独的集合,用一个5kb的松弛来计算重叠。

HiChIP回路的微分分析

在本工作中,GM 12878 H3K27ac和K 562 H3K27ac的两个复制体和3个重复的H3K27ac数据。19用来展示我们的微分分析管道。首先,Edger26,27使用函数估计盘精确测试默认参数应用于所有峰值到全部轨迹对的联合集合,其中至少有一个重复(20M对)具有非零接触计数。进一步利用FDR 5%和绝对倍数变化>2对Edger的结果进行过滤,得到所有的显着性差异。我们称之为差动接触浓缩。然后,根据底层芯片-seq信号(Encode)中特定于信元类型的不同,将这些差异调用进一步划分为五个不同的组。31)每一端。这是通过使用GM 12878芯片覆盖值与K 562 H3K27ac芯片覆盖值之间的差异对每个5kb的bin(总共619,150个回收箱)进行分类实现的。这种分类包括使用默认参数的Edger和对缩放覆盖值的5%的FDR,以及两个信号之间的差异。因此,每个桶被分配给以下三种类型中的任何一种:

  1. 1.

    HD(高差):两类芯片覆盖范围的显着性差异(Edger)。


  2. 2.

    ND(无差异):GM 12878与K 562芯片覆盖率差<25%的无差异垃圾箱。


  3. 3.

    LD(低差):所有剩余的垃圾箱,根据定义,是无差别的,但有25%的≥芯片覆盖率差异。


利用这三个类别,建立了五个不同的位点对级类别,用于差分呼叫:(1)Nd-Nd,(2)LD-Nd,(3)LD-LD,(4)HD-LD/ND,(5)HD-HD。

为了进一步提高差异呼叫的特异性,对于上述每一种类别,只提取至少一种细胞类型的至少一个复制中与统计意义循环(使用FDR为1%的FitHiChIP(S)重叠的差异接触富集,这称为微分循环。这种与循环调用的重叠强制执行更高的严格性,因此大大减少了报告的差异的数量。对于GM 12878或K 562(即,至少一种细胞类型的至少一种复制而另一种类型都不具有显着性)的子集,这些微分循环被进一步过滤。

为了比较不同的微分循环对来自HiChIP数据的支持,将GM 12878和K 562 H3K27ac HiChIP数据合并后的HiChIP复制被用于创建APA图,用于仅用于(或在)每个小区类型的差异调用。绘制了底层芯片-seq覆盖值的差异分布,并与使用一个样本的平均绝对差<5%的零假设进行了比较。t测试(R函数)T.试验)与.p值阈值1e−6,为了突出显示三组不同的微分回路所考虑的差异。为了找出细胞特异性Hi-C接触计数与微分循环调用对应的差异,在对两个Hi-C矩阵进行缩放后,利用GM 12878(主+复制)和K 562(主)Hi-C数据集进行等和。用gm 12878除以K 562接触数的对数2倍变化,分别绘制三组各一样本。t测试的目的是检验每个分布的平均值是否等于零(p值阈值1e−6).


武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297