表基因组浏览器上循环调用的可视化
对于在本工作中分析的所有HiChIP数据,下面是具有所有相关循环调用的单个细胞系的会话ID(HiChIP、Hi-C、CHIA-PET、PCHiC),可以在华盛顿大学的Epi基因组浏览器中加载[http://epigenomegateway.wustl.edu/browser/]。单击提供的浏览器链接后,用户应在标有“文本框”的文本框中输入其中一个会话ID。会话包ID(左下角),单击检索会话然后单击恢复把铁轨形象化。
GM 12878循环调用-会话ID:787c9250-65fa-11e9-9623-5f9c43c4cfff.
GM 12878 H3K27ac循环调用-会话ID:b491c3d0-65f7-11e9-b334-5ff263937318.
K 562 H3K27ac循环呼叫-会话ID:019e06b0-65f4-11e9-921c-577d3df57445.
幼稚CD4+T单元H3K27ac循环调用-会话ID:19d21050-65f9-11e9-A173-99425b87a4ba.
mESC循环调用-会话ID:7a47bff0-65fb-11e9-a36f-5fdb22c1eda3.
对GM 12878 H3K27ac HiChIP和K 562 H3K27ac HiChIP数据集三个重复的差异分析-会话ID:27845860-6573-11 e9-822 e-5 db126207a24.
参考研究中使用的HiChIP数据集
我们使用已公布的HiChIP数据集(补充表)1)四种细胞类型:GM 12878、K 562和幼稚CD4。+T细胞(参考基因组hg 19);小鼠胚胎干细胞(参考基因组MM9),有两种不同的蛋白或组蛋白标记(H3K27ac和恒河蛋白复合物,如RAD 21或SMC1A抗体所描述)。5,19..对于每个数据集,我们下载了validpairs.txt.gz用于单个复制的文件,在每个复制或将所有复制合并到单个文件之后,都会对数据进行分析。
芯片-seq数据
对于每个hichip数据集,我们从encode下载了匹配的(单元类型和抗体)芯片-seq数据(峰值和覆盖率)。31或一般事务主任(补充表)1).
FitHiChIP的统计意义估计
FitHichIP通过:(1)用单调样条拟合技术模拟接触概率随基因组距离的增大而衰减。7以及(2)在观察到的接触计数和相互作用桶的偏置值之间进行回归。
等占用率距离衰减模型的目的是估计接触概率。p一对基因座之间l1和l2基因组距离d = dl1l2由函数f(d)。假设N表示所有可能的(相互作用或零计数)轨迹对的数目,以及C是他们之间接触的总数。我们首先通过增加基因组距离来对这些对进行排序,然后使用等占用率论整体接触的数量C(即所需范围内的有效读对数),以便每个M回收箱(默认为200)大约有CM联系人。对于每一个被索引为j(1≤)j ≤ M),让nj是属于该垃圾桶的轨迹对的数目,以便∑Mj=1nj=N和Sj表示这些数据的联系人计数之和。nj一对座位,例如∑Mj=1Sj=C..然后,每个Sj∼CM由于占用率相等,基因组距离排序中的一些领带断裂,以及每个位点对的平均接触数。j将是Sjnj..然后我们将这个平均值转换为先验接触概率, pj,每一个这样的垃圾桶j是pj=Sj/njC..更进一步,让Dj是所有用户的平均交互距离。nj垃圾箱内可能存在的一对基因座j..使用点(Dj, pj)j=1,…,M,FitHichIP适用于单变量样条7 f,对于给定的轨迹对(l1, l2)与基因组距离d,期望/先验接触概率可以从样条拟合得到pl1l2=f(d=dl1l2).
背景模型的选择对于峰值到全部的前景(循环报告,如果它们至少有一个峰值在一侧;默认设置FitHiChIP),FitHiChIP使用两组可能的轨迹对之中的一组作为背景,以执行相等的占用率绑定和样条拟合。第一组使用每个垃圾箱内所有可能的峰值到全部轨迹对(L表示松散)。j,来定义值pj和Dj..第二组只对每个桶使用峰值到峰值循环(S表示严格)。j因此,提供了更严格的背景和更高的背景概率。pj(补充图。2),导致更保守的置信度估计和较低的重要循环数。
无偏差回归的统计显着性估计*如果不采用偏倚回归,则让p是特定轨迹对的先验接触概率(l1, l2)从样条拟合处向上看f..那么,精确观察的概率k此轨迹对之间的接触是通过二项分布计算的,如7:
Prob(X=k)=(Ck)pk(1−p)C−k.
(1)
这个p观测值k之间的接触次数(l1, l2)是观察的累积概率k或者他们之间更多的接触:
P(X≥k)=∑i=kCProb(X=i)
(2)
最后,我们修正了结果p使用Benjamin amini-Hochberg程序进行多次测试的值32计算q价值。如果一个轨迹对具有q值≤a给定FDR阈值,如0.01(用于当前研究;默认值为FitHiChIP)。
基于偏差回归的统计显着性估计:为了纠正可能与技术偏差有关的基因组不同区域的覆盖率差异,以及这些偏差可能与不同基因组距离方案的预期接触次数有关的差异,我们对每个个体的平均占用率进行了偏倚回归。j(1≤)j ≤ M)使用下列方法之一计算偏差值:
1.
覆盖偏差*为固定大小的基因组桶定义bj(例如,5kb分辨率)作为其HiChIP覆盖范围与所有具有相同峰值状态的非零覆盖值(桶重叠芯片-seq峰值和不单独处理的)的平均覆盖范围的比率。
2.
冰偏压使用矩阵平衡法(如迭代校正(ICE)计算每个垃圾箱33,在hc-pro管道中重新实现。34,它以相同的方式对待所有的基因组,而不管它们是否重叠一个一维峰(即富集)。
对于每个相等的占用箱j有nj轨迹对与平均相互作用距离Dj,我们定义如下术语:
1.
观测接触计数矢量Kj={k1,k2,…,knj},
2.
偏差向量(覆盖范围或ICE)值Bj1第一个(较小的基因组距离)相互作用位点={b1,1,b1,2,…,b1,nj},
3.
偏置值向量Bj2第二相互作用轨迹={b2,1,b2,2,…,b2,nj}.
使用上述定义,FitHiChIP定义了以下偏差回归模型R每个垃圾箱j:
log(Kj)=R(log(Bj1),log(Bj2)).
(3)
我们使用R包质量实现的线性回归模型,使AIC(Akaike信息准则)最小化。35还有其他选择。因此,上述回归变成:
log(Kj)=βj0+βj1logg(Bj1)+βj2log(Bj2),
(4)
哪里βj0,1,2表示回归系数βj0对应于截取项。
在计算上述所有相同占用箱的回归后j(1≤)j ≤ M),相对于每个桶的平均交互作用距离值的回归系数,Dj,用光滑样条拟合。类似于不使用偏置值时用于接触概率的样条,这些样条fβ0, fβ1,和fβ2它们都显示出随着基因组距离的增加而减少的趋势,从而消除了明确模拟与基因组距离有关的接触概率变化的需要(补充图)。2).
利用这些样条拟合从回归模型中学到的参数,然后计算期望的接触数。c′l1l2在轨迹对之间(l1, l2)与基因组距离d和偏差值(b1, b2)如:
log(c′l1l2)=fβ0(d)+fβ1(d)log(b1)+fβ2(d),log(b2).
(5)
如果C“表示所考虑的所有座位对的预期接触数之和,预期接触概率为(l1, l2)变成p′l1l2 = c′l1l2/C′..我们用这个概率p“类似于FitHic7正如情商中所描述的。(1)和(2)以上,在二项分布中计算统计显着性估计。在本研究中,除非另有说明,我们报告了在20 kb至2 Mb的距离范围内的峰到所有相互作用,并使用偏置校正模型。
相邻环路的合并滤波器
假设FitHiChIP或其他方法报告的一个重要循环由一对相互作用的固定大小(此处为5kb)的有序回收箱表示(x, y)哪里x < y..两圈(x1, y1)和(x2, y2)是邻接如果它们的组成箱是相邻的或相等的,即x1 − x2≤1和y1 − y2如果我们使用一个2D接触矩阵来表示所有可能的垃圾箱对,并且表示两个垃圾箱之间有一个重要的循环。x和y作为位置上的非零项(x, y),找到一组相互相邻的循环的问题归结为使用8-连通性规则寻找图的非平凡连通分量。36..我们使用了Python包网络37找出这样的成分/簇相邻的统计意义的循环。对于每个这样的组件,我们提取一个可能代表直接交互的循环子集(剩下的循环可能是旁观者),以提高循环调用的特殊性,主要用于具有大量相邻循环调用的区域。一种简单的方法是,每个连接的组件报告一个具有最小值的循环。p价值(表示为敏办法)。然而,当多个独立和直接的循环落入同一个组件中时,这种方法有一个明显的缺点,即消除有意义的交互。因此,我们采用了迭代合并选择子集的方法S从一组循环K(|S<\x{e76f}K在连接组件内。在每次迭代中,我们选择当前最重要的循环。l内K(基于统计显着性值、接触计数或任何其他循环评分方法),并将此循环包含在集合中。S当且仅当l不属于W = B × B(就回收箱而言)已经存在的任何循环的邻域S..我们使用恢复图测试多个值B(2,5,10)并选择在特异性方面表现最好的数字(补充图)。7)。除非另有说明,我们使用W当合并滤波器应用于FitHiChIP和现有方法的结果时,=2×2。
运行hichiper(0.7.5版)
不包括文件的hc-pro管道的基本输出目录RAWDAD_ALL ValidPair,作为对打嗝者的输入。当使用具有参考芯片-seq峰值的hichiper时,我们使用以下选项:-min-dist 20000-max-dist 2000000-背景校正-跳过-扩散环-跳过-重帧-跳过-qc-mak-ucc..当我们使用HICHIPER的峰值调用时,我们设置了山峰:每一个,自我选项在配置文件中,并使用以下选项:-min-dist 20000-max-dist 2000000-跳过-扩散环-mak-ucsc-保持-temp-文件在执行过程中。由于hichiper的输出循环没有固定大小的回收箱,为了与我们的方法进行公平的比较,我们将hichiper的每个交互桶的中点映射到重叠的bin(5或2.5kb取决于考虑的bin大小)。对于5kb的回收箱,因为大多数的打嗝环都在大小小于5kb的回收箱之间,这个过程会导致重复的循环调用,然后我们将其消除。请注意,这一转换减少了总次数的打嗝,并考虑到它的低特异性捕获参考集的循环(所有这些也是在固定大小的垃圾箱),减少很可能是帮助的特殊性问题,没有损失的敏感性。作为默认配置,hichiper只报告至少两个PET计数(最后一列)的循环。14..我们还使用一个更严格的过滤器,至少12个PET计数,以比较的目的,应审查者的要求。
合并相邻的打嗝环
我们测试我们的合并过滤器的效用,以减少一组报告的循环,对结果的打嗝。这个对应的方法由打嗝者 + M..根据PET计数的减少对HICHHIPER的循环进行分类,并采用2×2个回收箱的窗口,类似于FitHiChIP的结果。
运行地图
对于给定单元类型的单个副本(.Quickq.gz读取),我们使用以下参数执行带有参考芯片-seq峰值的映射(与用于执行FitHiChIP和hichiper的峰值相同):垃圾箱尺寸 = 5000;罗斯福 = 过滤器文件 = “无”;生成 = 0;mapq = 长度截止 = 1000;螺纹 = 4;PERCHR = “真”..此外,对于循环调用,我们使用以下选项-联调范围2000000要求循环达到2毫巴距离,这是目前所有方法研究中使用的一个阈值。在为单个副本执行映射之后,我们将它们各自的对齐目录提供给映射,以便从组合副本生成循环。
使用映射和来自映射源数据的hichiper循环调用
对于gm 12878的coherin和h3k27ac hichip数据,我们下载了由map提供的循环调用。16在其原始数据档案(补充数据S1-ZIP)下。由于这些循环使用1 Mb的距离阈值调用,并且仅用于常染色体,因此我们过滤了FitHiChIP循环调用和参考数据集进行类似的比较。
由HiChIP数据推断一维峰
我们测试了以下四组读取的不同组合:(1)悬空端(DE);(2)自循环(SC);(3)再连接(RE);(4)CIS短程(<1kb)(<1kb)。V)读取(重复删除后)38..对于每一组读取,我们使用MACS 2。15具有以下参数:-Q0.01-147(默认为HICH HIPPER14)推断相应的一组峰。
Hichip 1d峰值调用与芯片-seq峰值的比较
我们用FitHiChIP的不同读入组或具有特定背景校正或没有特定背景校正的hichiper,通过计算它们与从匹配的芯片-seq数据推断的峰值的重叠来评估输出峰值集。我们通过允许1kb的空闲来计算峰值调用之间的重叠(在hichiper中使用)。14)。我们还计算了5kb回收箱水平上的重叠,以评估不同的峰值呼叫在将5kb垃圾箱标记为峰值或非峰值垃圾箱时可能产生的影响。
一对循环之间的重叠
除非另有规定,我们已经在两个循环集上使用了一个5kb的松弛/扩展(+或−每侧一个bin)来计算一对循环之间的重叠。我们在映射hichiper和chia-PET循环到5 kb bin(或者在与2.5kb FitHiChIP循环进行比较时,使用2.5kb)来应用这种松弛;它们在每一侧都有很大的重叠,因为这些方法通常在每端报告小于5kb大小的循环调用。对于HICCUPS,它报告了5和10 kb的分辨率循环,不管分辨率如何,我们都应用5kb的空闲。请注意,这在恢复图中给HICCUPS带来了些许好处,因为它的10 kb分辨率循环将在每一端填充到20 kb的总循环中,而所有具有5kb回收箱的其他方法都将在每一端有15 kb区域进行重叠计算。当使用非精确重叠(5kb松弛)报告不同循环调用集之间的重叠百分比时,我们分别报告每个集合的重叠和排他性循环。为了比较FitHiChIP的2.5 kb循环调用和5 kb循环调用,我们不使用任何松弛,并要求2.5 kb调用的两个循环锚都严格包含在5 kb循环调用的锚内,从而将两者视为重叠。
原位HI-C打嗝环的恢复
K 562和GM 12878原位Hi-C数据的HICCUPS循环3GSE 63525(文件GSE 63525_K 562_looplist.txt.gz和GSE 63525_GM 12878_PRIMARI+Replcups_Loplist.txt.gz)。我们只保留基因组距离在20 kb至2 Mb之间的HICCUPS环,并询问FitHiChIP或其他方法预测的循环数目增加(减少的严格性)时,它们中的哪些部分被恢复。我们计算重叠(成功恢复)与5kb的松弛,如上所述。
HiChIP打嗝环的恢复
我们得到在已发表的HiChIP数据集(补充表)上计算的HICCUPS循环。3)5,19..除了使用HiChIP数据上的hiccups调用进行比较外,由于hiccups调用的高度特异性,我们还使用它们作为参考集,并在比较上述其他方法或实验时计算这些调用的恢复。当用作参考集时,我们只保留基因组距离在20 kb至2 Mb之间的HICCUPS HiChIP循环,并且与至少一边由参考芯片-seq数据分配的峰值bin重叠。
CHIA-PET环的回收
我们从之前的两项研究(补充表)中得到了CHIA-PET循环调用。4)20,39..在以5 kb的分辨率进行绑定和去除重复后,我们用基因组距离和峰值重叠滤波器计算CHIA-PET环的回收率,如上述HiChIP信号环所描述的那样。
打嗝与CHIA-PET共循环的恢复
我们得到了一组参考的hiccups循环(参考文献中提供的HiChIPhiccups循环)之间的公共循环。5,19或者是在REG中提供的原位Hi-C打嗝环。3)和一套参考的CHIA-PET循环。20,39以5 kb的松弛为限。共环以5 kb的分辨率被绑定。这些循环的恢复分析是用相似的基因组距离和峰重叠滤波器进行的。
PCHiC回路的恢复
与上面描述的其他数据类型类似,我们还使用PCHiC循环调用来评估现有方法。我们获得了phic循环对纯cd4的调用。+T小组(补充表格)5)40用芝加哥计算25..我们保持循环的芝加哥分数为≥5,并在20 kb至2MB的距离范围内。由于PCHiC环至少在一端包含启动子段,因此我们只使用FitHiChIP或hichiper的启动子专用环(其至少一端位于参考TSS站点的5kb以内的环)来计算参考PCHiC循环的恢复。
FitHiChIP在PCHiC数据集中的应用
为了验证FitHiChIP对PCHiC数据的适用性,我们在GM 12878细胞系上下载了PCHiC数据集。25(Geo:GSE 81503)数据集由三个生物副本组成,分别有一个、三个和两个技术副本。将这些副本的.Quickq.gz文件合并在一起,然后通过hC-Pro管道(版本2.9.0)进行处理。34,它使Bowtie 2的读取对齐。41(2.3.3.1版)关于参考基因组hg 19,分配给欣DIII限制片段,过滤器的方向38,并使用Picard进行去重复操作。42..FitHiChIP将这些有效的读取对与PCHic数组的诱饵设计文件一起用作类似于芝加哥的峰值调用。25.
作为比较,我们从同一个GEO存储库中下载此GM 12878 PCHiC数据集的芝加哥显着循环(得分为≥5),并询问来自FitHiChIP的PCHiC循环调用还是通过hiccups从GM 12878现场HI-C数据中调用的芝加哥更好的恢复循环。
聚集峰分析
我们对GM 12878和K 562细胞使用Hi-C接触图(5 Kb)。3被ICE标准化的33对HiChIP数据进行循环调用的APA分析,或对Hi-C、CHIA-PET和PCHiC等其他实验的调用进行APA分析。对于每一个被称为循环,APA提取所有位点对50 kb上下的归一化Hi-C接触计数,对应于21×21维的矩阵,分辨率为5kb。然后,它将这些以每个单独循环调用为中心的小矩阵集合起来,生成一个聚合热图,并计算几个浓缩分数。11)。这个APA评分在每幅图的顶部显示的是中心像素的比率和上游位点下游15~30 kb像素的平均值,以及下游位点上游15~30 kb像素的平均值。符号R在每个APA图的中心显示的是从Hi-C数据中提取的21×21矩阵中心元素与其余元素的比率。这个角特异性APA评分在每个APA图的每个角落显示的是中心元素与单个角落区域的平均值之比,定义为从上下游位点的边界元素中偏移10 kb。真正的循环(高度显着)的相互作用预计有更高的接触计数比相邻的垃圾箱,因此,较高的APA分数表明相应的循环是高度支持Hi-C数据。为便于可视化,apa考虑距离范围为150 kb-1 mb的循环。11.
由于FitHiChIP或hichiper循环的数目大大高于参考的hiccups或chia-PET循环,所以我们使用top-k用于APA分析的HiChIP循环(由更高的统计意义确定),其中k是由更严格的方法报告的循环数,它要么是打嗝,要么是CHIA-PET。另外,由于几个数据集的HICCUPS循环具有5和10 kb的混合分辨率调用,所以在处理APA图中的10 kb循环时,我们会在具有较小坐标的每一侧选择5 kb的bin。
重叠和排他性循环的APA评分
放任k在距离范围150 kb-1 Mb范围内的参考环数(HICCUPS或CHIA-PET)。然后我们选择顶部-k循环在相同距离范围内从FitHiChIP获得更高的统计显着性,并通过允许5kb的松弛来计算它们与循环参考集的重叠。然后,我们对重叠的循环和对一个或另一个方法独占的循环执行APA分析。
HiChIP和Hi-C循环调用之间的重叠
为了找出由FitHiChIP的不同设置或现有的方法从HiChIP数据中识别出的循环中的哪些部分,也是从Hi-C数据中识别出来的,我们对Hi-C数据采用了两种不同的重要调用方法。我们用打嗝3作为一种高特异性的严格方法(从数据集中下载的结果)5,19补充表所述3)。我们也应用FitHic7在GM 12878或K 562细胞株的Hi-C原位数据集上,以5kb的分辨率对其进行了分析。然后,我们使用这两组Hi-C循环来计算与HiChIP数据调用的循环的重叠。循环重叠是通过允许5 kb的松弛来计算的。
CTCF基元取向分析
为了找出FitHiChIP或竞争方法产生的GM 12878恒河素HiChIP循环的CTCF基序方向,我们使用ENCODE[encodeproject.org/test/ENCSR000DZN(文件ENCFF710VEH.bed)中提供的hg 19 CTCF峰。例行公事母题榨汁机工具43[https://github.com/aidenlab/juicer]应用于HiChIP循环的输入集。在两个相互作用的垃圾箱中只考虑具有ctcf基序信息的环(+或−),由此我们计算了具有收敛、发散和串联取向的ctcf基序对的循环的频率和百分比。
从Hi-C和芯片-seq模拟hichip数据
使用每个5kb基因组桶的覆盖值(床具覆盖)来自参考芯片-seq数据(补充表)1),我们通过非均匀采样Hi-C接触来模拟HiChIP映射,这样得到的行/列和与计算的芯片-seq覆盖值的向量相对应。让我们用V,并以5 kb分辨率表示gm 12878第1染色体的染色体内hi-c接触图。3作为一个对称的非负矩阵M0..我们的目标是M0成矩阵Mt中的行和列和(对应于单个垃圾箱的覆盖值)模拟了V后t迭代。中提供的迭代优化算法。44,45..首先,我们定义了以下符号:
1.
M0[i, j]=输入的Hi-C染色体内矩阵的接触计数i和j.
2.
Mt[i, j]=箱间Hi-C染色体内矩阵输出的接触计数i和j,在迭代时t.
3.
V[i]=参考芯片-seq覆盖范围i这个垃圾桶。
4.
Mt[i,]=箱的行和i关于矩阵Mt.
5.
Mt[,j]=箱的列和j关于矩阵Mt.
该算法执行交替迭代、按行和按列对输入矩阵进行缩放。M:
在逐行缩放的过程中,Mt[i,]=Mt−1[i,]×V[i]∑∀iMt−1[i,].
在列向缩放中,Mt[,j]=Mt−1[,j]×V[j]∑∀jMt−1[,j].
这个算法已经被证明可以收敛到期望的覆盖分布。V44,45..在我们的实现中,如果迭代的次数是t达到500,或者连续迭代时矩阵之间的差之和小于一个预定义的阈值。ε..对于gm 12878和h3k27ac模拟的hichip数据集,我们得到了结果矩阵的行(列)覆盖向量之间的>0.995相关。Mt和芯片-seq覆盖向量。V..最后,在Mt然后进一步缩放,使接触数之和等于gm 12878 coherin或h3k27ac(合并的副本;在补充表中提到)的实际染色体内hichip接触矩阵(用于染色体1)。1)。然后,应用具有峰值到全部前景的FitHiChIP(L)和20 kb到2 Mb的基因组距离,使用缩放的接触矩阵进行循环调用。
为了在模拟的hichip矩阵中实现随机化,我们在V在迭代优化之前。我们执行五种不同的随机洗牌V生成五幅模拟地图。在报告模拟结果的同时,我们给出了这五张洗牌地图的平均值。
模拟的HiChIP数据集的循环调用与其他循环调用的重叠类似于实际的HiChIP数据。简单地说,在20 kb到2 Mb的距离范围内的循环被考虑在每一侧,并且对于分析中涉及的每一个单独的集合,用一个5kb的松弛来计算重叠。
HiChIP回路的微分分析
在本工作中,GM 12878 H3K27ac和K 562 H3K27ac的两个复制体和3个重复的H3K27ac数据。19用来展示我们的微分分析管道。首先,Edger26,27使用函数估计盘和精确测试默认参数应用于所有峰值到全部轨迹对的联合集合,其中至少有一个重复(20M对)具有非零接触计数。进一步利用FDR 5%和绝对倍数变化>2对Edger的结果进行过滤,得到所有的显着性差异。我们称之为差动接触浓缩。然后,根据底层芯片-seq信号(Encode)中特定于信元类型的不同,将这些差异调用进一步划分为五个不同的组。31)每一端。这是通过使用GM 12878芯片覆盖值与K 562 H3K27ac芯片覆盖值之间的差异对每个5kb的bin(总共619,150个回收箱)进行分类实现的。这种分类包括使用默认参数的Edger和对缩放覆盖值的5%的FDR,以及两个信号之间的差异。因此,每个桶被分配给以下三种类型中的任何一种:
1.
HD(高差):两类芯片覆盖范围的显着性差异(Edger)。
2.
ND(无差异):GM 12878与K 562芯片覆盖率差<25%的无差异垃圾箱。
3.
LD(低差):所有剩余的垃圾箱,根据定义,是无差别的,但有25%的≥芯片覆盖率差异。
利用这三个类别,建立了五个不同的位点对级类别,用于差分呼叫:(1)Nd-Nd,(2)LD-Nd,(3)LD-LD,(4)HD-LD/ND,(5)HD-HD。
为了进一步提高差异呼叫的特异性,对于上述每一种类别,只提取至少一种细胞类型的至少一个复制中与统计意义循环(使用FDR为1%的FitHiChIP(S)重叠的差异接触富集,这称为微分循环。这种与循环调用的重叠强制执行更高的严格性,因此大大减少了报告的差异的数量。对于GM 12878或K 562(即,至少一种细胞类型的至少一种复制而另一种类型都不具有显着性)的子集,这些微分循环被进一步过滤。
为了比较不同的微分循环对来自HiChIP数据的支持,将GM 12878和K 562 H3K27ac HiChIP数据合并后的HiChIP复制被用于创建APA图,用于仅用于(或在)每个小区类型的差异调用。绘制了底层芯片-seq覆盖值的差异分布,并与使用一个样本的平均绝对差<5%的零假设进行了比较。t测试(R函数)T.试验)与.p值阈值1e−6,为了突出显示三组不同的微分回路所考虑的差异。为了找出细胞特异性Hi-C接触计数与微分循环调用对应的差异,在对两个Hi-C矩阵进行缩放后,利用GM 12878(主+复制)和K 562(主)Hi-C数据集进行等和。用gm 12878除以K 562接触数的对数2倍变化,分别绘制三组各一样本。t测试的目的是检验每个分布的平均值是否等于零(p值阈值1e−6).