您好,请问有什么可以帮到您的。 点击这里给我发消息
武汉新启迪生物科技有限公司
新启迪-您的生物科研好伙伴!
本企业通过iso9001质量体系认证

细菌细胞的混合培养可实现经济的DNA大规模存储

 二维码
发表时间:2020-08-03 16:04作者:武汉新启迪生物Xinqidibio来源:www.qidibio.com

细菌细胞的混合培养可实现经济的DNA大规模存储

DNA成为海量数据存储的一种新型潜在材料,为廉价地解决大数据存储问题提供了可能性。较大的寡核苷酸池显示了在试管中进行大规模数据存储的巨大潜力,同时,活细胞在信息复制中具有很高的保真度。在这里,我们显示了带有大的寡核苷酸池的细菌细胞的混合培养物,该池汇集在高拷贝数的质粒中,被作为稳定的材料用于大规模数据存储。通过深入的生物信息学分析探索了基本原理。尽管同源装配显示出序列背景依赖性偏差,但是混合培养物中的大寡核苷酸库在多个连续传代中是恒定的。最终,将超过2万个Kbps的不同寡核苷酸(编码445 KB数字数据)存储在单元中,

介绍

作为携带基因组信息的生物材料,DNA已显示出在其核苷酸序列中长期高密度信息存储的巨大潜力。高吞吐量的基于芯片合成的写入和基于下一代测序的读取技术的能力不断增强,极大地推动了合成核酸介导的档案存储的发展。简而言之,信息可以合成为DNA寡核苷酸分子,然后通过测序读出。迄今为止,一些系统已经被开发用于合成寡池存储大量的存档数据12经典电子通信和计算算法,如喷泉和Reed-Solomon码已被应用于数字二进制信息到四个字母核苷酸序列和纠错谈话34受目前高通量寡核苷酸合成技术的限制,长度在100到200 nt左右的寡核苷酸是在试管中存储信息的主要材料。但是,寡核苷酸的大小非常适合主要的商业测序平台,例如Illumina 5,通过这种方法可以从一个寡核苷酸末端的单次读取中获得50至200个核苷酸的序列。此外,基于芯片的DNA合成是最便宜的可用技术,比传统的基于列的寡核苷酸合成便宜至少一两个数量级。到目前为止,具有合成寡核苷酸池作为存储介质的体外系统的容量已大大扩展,最多可存储200 MB的信息4

与试管相反,微生物细胞能够执行具有许多高级功能的合成DNA材料,用于存档信息存储。与无细胞体外系统相比,活细胞的基因组维持机制可确保DNA分子以高保真度复制,从而可望获得更高的稳定性和更长的保存期。而且,DNA的复制速率比一般的体外复制方法(例如PCR)高几个数量级。这些先进的功能使活细胞成为低成本复制和分发信息的诱人材料。编码档案数据合成的DNA片段已被成功插入到各种生物体,包括基因组的大肠杆菌67枯草芽孢杆菌8和酵母9分子工具被开发工程师各种DNA维护和基因组修饰系统,包括逆转录1011,重组酶1213和CRISPR-CAS 1415,用于存档数据直接写入到基因组中以高度受控的方式。此外,还设计了环状质粒来携带信息,微生物细胞中某些质粒的高拷贝数可以促进DNA物质的回收。

体外和体内DNA存储方法在很大程度上是作为相互独立的系统开发的。体外系统依赖于非常大的数字短寡核苷酸,达到高达10 10不同股线16从微芯片合成,这些寡核苷酸是通过一个直接的读读出的工作流程,其包括PCR扩增和测序NGS 1718相比之下,从技术上讲,细胞能够存储更大的DNA片段,研究人员使用大肠杆菌保存了19年初从人类基因组克隆的数百个千碱基对的DNA片段。但是,受当前技术能力的限制,通常超过一千个核苷酸的大DNA片段的合成是非常耗时且昂贵的过程20尽管整个细菌染色体德完全从头合成2122,它是改变劳动密集型精心设计寡单位和一般需要很长的时间,甚至数月,将其纳入大片段23而且,有效地转化具有大DNA片段的细胞是相对复杂的。到目前为止,仅以相对较小的规模测试了体内DNA的存储,不超过几千个核苷酸24,远远小于体外系统。考虑到存储容量,大的寡核苷酸池在易于扩大规模和合成成本方面具有优势。然而,DNA在细胞内部的存储在长期稳定DNA维持和极低的复制成本方面具有明显的优势2

在这里,我们证明了带有大量寡核苷酸池的细菌细胞混合培养物是用于稳定信息存储的经济且可持续的材料,能够从高通量芯片合成中存储长度跨越数百个核苷酸的DNA寡核苷酸。BASIC代码系统是以前在我们实验室中开发的一种DNA介导的分布式信息存储系统,用于将数字二进制信息转换为核苷酸基序列,在软件级别的编码冗余度为1.56%,可以忍受少数寡核苷酸的物理缺失。通过突破极限,储存了由509和11520个不同的寡核苷酸组成的寡核苷酸池,在细菌细胞的混合培养物中产生了最大的报告种群。为了覆盖非常少的寡头种群,我们以多余的方式组装它们,然后将它们在混合培养物中储存在固体平板或液体培养基中。此外,使用专门开发的深度生物信息学分析工具探索了数据存储单元制造的基本原理。结果表明,寡核苷酸同源装配对序列上下文具有相对较高的偏差,并且寡核苷酸拷贝数分布随着装配中片段数目的增加而越来越不对称。然而,在组装和转化后,我们发现大量的寡核苷酸在混合培养中保持稳定。结果表明,寡核苷酸同源装配对序列上下文具有相对较高的偏差,并且寡核苷酸拷贝数分布随着装配中片段数目的增加而越来越不对称。然而,在组装和转化后,我们发现大量的寡核苷酸在混合培养中保持稳定。结果表明,寡核苷酸同源装配对序列上下文具有相对较高的偏差,并且寡核苷酸拷贝数分布随着装配中片段数目的增加而越来越不对称。然而,在组装和转化后,我们发现大量的寡核苷酸在混合培养中保持稳定。大肠杆菌细胞甚至经过多次传代,并保持了数字数据的质量,可以完美地进行信息解码。最后,可以证明,这种基于细菌细胞混合培养的简单材料以快速,经济的方式实现了以445 KB的数字文件在总共2304 Kbps的合成DNA中的体内存储。据我们所知,这是迄今为止报道的活细胞中规模最大的档案数据存储,这为以经济有效的方式同时利用活细胞的体外合成能力和生物能力来进行生物数据存储铺平了道路。对于大规模开发实用的冷数据存储至关重要。

结果

混合细胞培养中的DNA数据存储

迄今为止,包含大量不同寡核苷酸序列的寡聚池被用作在主要的体内DNA存储方法中存储档案数据的材料。我们旨在将体外寡聚池介导的数据存储和体内细胞系统的优势与以前未报道的设计策略相结合,以改善用于数据存储的DNA材料。如图1所示   ,归档数据的二进制序列被编码为核苷酸碱基序列,并使用为分布式DNA寡核苷酸池开发的BASIC代码(补充注释1将其分成几百个核苷酸长的寡核苷酸链。   信息存储25在这种编码系统中,1.56%的相对较低的编码冗余足以承受整个寡核苷酸的物理损失或丢失。因此,只要可以检索到98.44%以上的设计寡核苷酸,就可以对信息进行完美的解码。此外,可以通过预先设计的编码算法纠正具有碱基突变或插入/缺失等突变的寡核苷酸链25在序列编码之后,使用新兴的基于高通量芯片的合成方法对寡核苷酸进行物理合成。当前,只有很少的商业产品可用于高通量寡核苷酸合成,并且寡核苷酸池的质量因每个制造商甚至每个批次而异。如许多先前的研究报道,寡核苷酸池中分子拷贝数的不均匀性在使用DNA作为数据存储材料时引起了严重的问题26为了将寡核苷酸储存在活细胞中,应使用基于同源性的克隆将它们组装成高拷贝数的质粒载体,而无需任何特定序列,然后将大量质粒转移到已建立的大肠杆菌中工程菌株要作为混合培养物储存。因此,寡核苷酸池可以简单地转换为基于活细胞的材料进行数据存储。

图1:用于大规模数据存储的细菌细胞混合培养的图示。
图1

首先,使用BASIC编码系统将二进制数字信息翻译成核苷酸序列,然后通过基于芯片的高通量合成将其合成为大的短寡核苷酸库。将寡核苷酸池组装成环状质粒,然后引入细菌细胞中以稳定地存储数据。可以从细胞的混合培养物中检索出寡核苷酸池,以便在需要时进行信息解码。

混合培养是代谢工程和定向进化的一种既定方法,可用于在活细胞中生成多样性很大的DNA库。然而,数据存储要求细胞稳定地大量稳定地携带这些数字DNA序列而不会丢失,并且仍然缺乏对携带大量寡核苷酸的混合培养物的稳定性的系统分析。因此,设计了包括同源组装,转化和混合培养的多步过程来构建基于活细胞的DNA存储库。为了提高同源性克隆效率,使用NUPACK设计同源性臂来减少二级结构和交叉识别(补充图1图   227通过两侧均一的衔接子通过PCR扩增将同源臂与寡核苷酸融合(图   2a)。在寡核苷酸单元中(补充图   3a),在11520个库中的128个核苷酸的主要序列编码了数字信息,而相应的地址信息和RS代码分别写在位于信息承载序列两侧的16和8 nts序列中。为了识别每个测序的寡核苷酸的方向,将“ A”和“ AA”标签插入地址和RS代码序列中的固定位置。包括地址,数字信息和RS代码的序列一起表示为有效负载。接头I和II以及PCR扩增引物均在两个末端外设计。有效载荷携带的序列是使用具有特定标准的BASIC代码算法设计的(补充图   3b),包括35%至65%的GC含量,并避免均聚物序列,Not I核酸内切酶识别序列“ GCGGCCGC”和扩增引物的最后6个核苷酸,以最大程度地减少PCR中的错误引物。使用一般的启动子预测算法28对设计的序列进行了进一步分析,以避免推定的细菌启动子在扩增的结构中,在两个末端设计了两个Not I切割位点,通过它们可以从载体中直接切割出原始的寡核苷酸序列。设计了冗余组件,以增加每个载体上的外源DNA负载。总共设计了6个同源臂序列,用于将多个片段基于同源性组装成单个载体质粒(补充图   4))。融合有不同同源臂组合的寡核苷酸可以组装在一起。因此,在单个载体质粒中,可以组装片段的1F,3F和5F,每个片段可以覆盖完整的寡聚体。因此,多片段装配原则上可以大大增加寡核苷酸装配到载体质粒中的机会。组装后,将环状DNA引入大肠杆菌 DH10β细胞进行混合培养,然后可以从分离的质粒DNA中回收大量寡核苷酸。

图2:用于混合细胞培养的509寡核苷酸池的冗余装配。
图2

图1是组装包含509个不同寡核苷酸的DNA池的工作流程示意图。通过PCR扩增将寡核苷酸与同源臂融合,然后添加Not I切割位点以用于寡核苷酸回收。使用现成的同源性组装将多个插入片段,1F插入片段,3F用于三个插入片段,5F用于五个插入片段,每个片段可能包含509个寡核苷酸,将它们组装成1909 bps的载体质粒主链试剂。最后,将组装的质粒引入大肠杆菌细胞中,以在固体平板或液体培养基中进行混合培养。b在1F,3F和5F组装的固体培养基表面上计数菌落数。C在固体平板或液体培养基中,从混合培养物中检索到的寡核苷酸库中发生字母错误,碱基易位或插入缺失(包括碱基插入或缺失),并以计数错误碱基数相对于总测序碱基的百分比进行定量;灰色条表示变电站错误,黑条表示indel错误。d最小必需的测序读取深度,可以从固体平板或液体介质中的1F,3F和5F装配样品中完美检索所有509个寡核苷酸。误差线表示SD,其中n  = 3。

携带冗余组装的大型寡核苷酸池的细胞混合培养

首先,我们测试了一个包含509个不同寡核苷酸的池,该池是大型芯片合成池的一部分。已知的是,细胞失去从群体中某些序列由于在混合培养物中的生长速度有些克隆的缺点2930考虑到池中携带少数寡核苷酸的细胞可能会丢失,因此将电转化细胞培养在固体培养基表面,这应使所有携带组装质粒的细胞具有相等的机会形成菌落。从总共0.08 pmol寡核苷酸片段和0.16 pmol载体的1F组装中得到的菌落数几乎是3F(0.8 pmol寡核苷酸片段和0.16 pmol载体的组装)和5F(0.8 pmol寡核苷酸片段和0.16 pmol的组装物)的菌落数。向量)在固体介质表面(图 2b和补充图。 57)。在组装效率和容量之间需要权衡,冗余组装可以提高每个向量的加载能力,但会大大降低组装效率。分别从1F,3F和5F的计数菌落数中总共计算出每个设计的寡核苷酸122.4、158.6和268个拷贝。质粒分离后,将寡核苷酸池为directedly切出使用位点特异性核酸内切酶我(补充图   8 - 10),并通过标准NGS进行排序。计算包括替换或插入缺失的错误,并且观察到所有组装样品的替换频率均高于插入缺失的频率(图   2c,补充说明   6)。重要的是,错误率与以前的研究一致。还观察到,具有单字母错误(取代或插入/缺失)的测序读取比其他类型的错误(补充图11,补充说明   6要频繁得多   ,这与我们之前的研究也一致4对于所有组装样品,寡核苷酸在测序读数中均被100%鉴定,但是1F组装记录的测序读数的最低最小必需覆盖率最低,因此可以鉴定出完美的100%寡核苷酸(图   2d和补充图   12)。 。使用固体培养物成功回收寡核苷酸后,还测试了液体培养基中的混合培养物(补充图   13)。从5ml液体混合细胞培养物中分离质粒DNA并测序。最小必需覆盖甚至比固体表面上的1F组件还要低(图   2d)。此外,对回收池中每个寡核苷酸的频率进行了定量,并且对于具有非常接近的基尼系数的所有装配体样品观察到了相似的频率分布(补充图   1415)。这些结果证明了509种不同寡核苷酸的DNA库被稳定地保存在混合培养物中。

接下来,测试了包含11520个不同寡核苷酸的DNA库,该寡核苷酸的长度为200个核苷酸,是第一个库的20倍以上。大约445 KB的数字文件被编码,包括图像,文字文本和各种类型的文件(补充图   3c)。观察到,与固体培养物相比,液体培养基中的混合培养物对测序读段的最低必要覆盖率较低。另外,亚培养对于低成本长期储存是必需的。因此,组装了包含11520个寡核苷酸的DNA库,以测试这种非常大的细胞群体的继代培养(图   3a)。)。总共将混合培养物连续传代5次,并从大型液体培养物中分离出携带数字信息的质粒,然后在Not I消化后回收大量的寡核苷酸(补充图   16)。有,即使在1之间的误差率无显着差异ST和5 1F或3F组件样品的传代培养(表   1)。与先前的结果一致,替换的频率仍然高于插入缺失的频率。与原始主池相比,错误率处于相同的数量级。它证明了活细胞内DNA扩增的高保真度。在NGS测序读数中,通过深层生物信息学序列分析,某些序列被鉴定为来自宿主细胞基因组的污染,但污染含量非常低,不到总测序读数的0.2%。这种污染可能来自质粒分离步骤,因为DH10β基因组上还有20个Not I切割位点。但是,根据寡核苷酸末端设计的衔接子序列,很容易将这些污染物与真正的数字寡核苷酸序列区分开(补充图。 3a)。由于数字DNA序列存储在质粒上,因此在分离过程中使用现有的商用生物试剂去除宿主细胞基因组污染仍然相对容易。与将数字信息直接存储在细菌染色体上的方法相比,这可能是另一个优势。

图3:携带11520个寡核苷酸冗余组件的细胞的混合培养,用于大规模数据存储。
图3

图1是带有11520个寡核苷酸的集合池的细胞示意图,用于连续的多次传代培养。从1收集的细胞ST和5 通道进行寡检索和信息解码。b针对每个测序量化11520个寡聚的频率从1读取ST(蓝点)和5 所述一个片段(1F)组件样品(红点)的通道。Ç低聚丢包率在不同的测序深度1的(不同量NGS测序读取)定量ST(蓝点)和5 所述一个片段(1F)组件样品(红点)的通道。d从一个插入片段片段组件(1F,蓝点)和三个插入片段片段组件(3F,红点)的第一培养通道中读取的在测序中定量的11,520个寡核苷酸的频率。e 计算得出的寡核苷酸池中寡核苷酸频率分布的基尼系数。1个ST一个片段组件的通道被计算为具有0.41的基尼(蓝线)和1个ST具有0.87基尼的三个片段的通道组件(红线)。

表1中的字母的错误率在1的测序的寡核苷酸进行定量ST和5 的一个插入片段(1F)或三个插入片段(3F)组件的传代培养传代。

有趣的是,携带插入的编码数字信息的DNA序列的组装质粒的群体保持相对稳定。池中的每个寡核苷酸的频率很大程度上1之间没有改变第一和5 的1F或3F组件样品的通道(图   3B和补充图   17,补充说明   4)。此外,辍学率随着深度测序而降低(图   3c和补充图   18)。因此,生物信息学分析证明了连续传代后回收的寡核苷酸池的稳定性。值得注意的是,大肠杆菌的混合培养携带这种人口众多寡核苷酸细胞保持内容,具有在1 0.41和0.48基尼系数ST和5 分别的通道1F的组件样品,(补充表   2)。相反,在3F组装样品中,含量均匀度有较大偏差(图   3d)。与1F装配体相比,3F装配体中约有21%的寡核苷酸富集,占总测序读数的96.2%,而其余79%的寡核苷酸被大量消耗,仅占测序读数的3.8%。 ,对应极高的基尼系数0.87(图   3e)。这些结果反映了序列复杂性对随机组装过程的影响,在该过程中,由于大型寡核苷酸池的高序列复杂性,3F组装更容易受到影响。与1F装配相比,DNA装配事件的数量是3F装配的两倍,并导致最终装配的DNA群体有更多偏差。然而,1 和5 的3F组件样品的通道均具有相似的吉尼系数和低聚频率相对一致。稳定的寡核苷酸频率分布,即使跨越多个传代,也表明活细胞的混合培养物可以用作数据存储的材料。

活细胞中的大规模DNA数据存储

我们通过简单的多步骤过程成功建立了一种在活细胞中存储DNA数据的方法,通过该方法,包含大量寡核苷酸的DNA库可以快速转移到活细胞中进行数据存储(图   4a)。此外,深入的生物信息学分析探索了这种数字存储单元制造过程的基本原理。装配被发现是一个有偏见的过程,其效率随着设计的冗余序列集中装配碎片数量的增加而降低。对于11520 DNA序列库,与1F装配样本相比,3F中计数的菌落要少得多,并且每个设计寡核苷酸的平均拷贝数经计算为1F为9.42,而3F装配样本仅为0.91。因此,花了更长的时间为1 与第一个1F装配单元(8.4小时)的OD 600相比,3F装配单元(11小时)的OD 600为1.2。尽管每个片段的平均分子拷贝超过10 6个,但在组装和转化步骤后,每个寡核苷酸的成功组装拷贝数只有几十到数百。但是,混合培养物以相对稳定的方式扩增了种群,而没有改变寡核苷酸的频率分布,因此可以从分批培养物中回收每个寡核苷酸的平均拷贝数超过10 7对于1F继代培养样品,可以回收到足够的寡核苷酸(约10 3每种寡聚物),用于完善的信息解码,带有尖顶饰0.9和1.4%相应的漏失率为1的副本第一和5 通道,这均低于1.56%的解码下限。然而,更多的寡聚物从3F组件样品损失,具有26.5和32.8%各自退出率为1 和5 通道。通过PCR扩增回收的寡核苷酸池获得了相似的回收率(补充表   3))。通过将1F组件中丢失的寡核苷酸映射到芯片合成的原始主池的频率分布中,发现在10x的测序覆盖范围内从主池丢失的寡核苷酸与1F的寡核苷酸不重叠,并且许多寡核苷酸从1F丢失的数据被映射到主池中的高频(图   4b)。此外,在1个富集的寡聚ST 3F的通道也被映射到主池的频率分布,这组寡核苷酸的覆盖很宽的区域,映射到与高和低覆盖寡核苷酸(补充图   19) 。在10聚体的DNA序列模式分析,前10%的高频10聚体图案在1占10聚体图案计数的42.1%ST3F组件样品的第一次通过,而1F组件样品的第一次通过为26.5%,导致减少了16.4%(补充图   20)。富集的寡核苷酸序列之间的10-mer频率分布明显不同(补充图   21)。这些结果也支持这样的想法,即装配是取决于序列上下文的有偏过程,而不是原始主库中的寡核苷酸浓度。但是,在制造活细胞材料后,混合培养物保留了用于大规模活细胞数据存储的数字DNA的稳定性。

图4:活细胞中的大规模DNA数据存储。
图4

a用于生产混合培养活细胞数据存储材料的工作流程。将具有每个寡核苷酸平均拷贝数为10 6至10 7的组装寡核苷酸库进行组装,然后引入大肠杆菌细胞中。获得每个寡核苷酸的平均菌落数为10 1至10 2,然后可以在混合培养物中大规模扩增细胞群,以进一步进行质粒检索和信息解码。b一次丢失的寡核苷酸为0.9%单片段装配的通过(红线)和原始主库(蓝线)的10倍深度测序读数中丢失0.56%的寡核苷酸,被映射到原始主库的寡核苷酸频率分布(灰色线)。c与先前报道的在活细胞中存储DNA的主要系统形成对比,其中包括Yachie在2007年的0.25 kbps,2017年Shipman的14.56 bps和Sun在2019年的2.448 kbps,以及509个寡核苷酸池和97.728 kbps的DNA总量。将11520个寡核苷酸池的2304 Kbps存储在大肠杆菌细胞的混合培养物中,成本低于每单位0.001 $,混合细胞的存储材料可在24小时内生产。

讨论区

DNA被认为具有作为海量数据存储高级材料的巨大潜力,这是人类社会在不久的将来将面临的一个严重问题。除了储存密度外,包括储存寿命和低复制成本在内的关键特征还高度依赖活细胞内部的生物系统。到目前为止,数据存储能力主要是通过使用大型寡核苷酸池证明的,通过先进的基于芯片的合成方法可产生多达1300万个DNA寡核苷酸4虽然一些分子工具,如CRISPR和特殊重组酶,已经适应了信息写入到基因组,容量还是非常远离体外系统,不大于20 kbps的最新31从理论上讲,一个完整的单个DNA片段是用于数据存储的理想材料,它模仿了基因组在自然界中存储信息的方式,但是当前的DNA写入技术并不是为合成长DNA链而设计的。尽管已经从化学合成的寡核苷酸32重建了整个细菌基因组,但是大DNA片段的合成非常费时费力。超过10 kbps的一个DNA片段的费用约为0.2 $ / NT在各大商业公司3334,通常要花几个月的时间才能完成复杂序列失败的高风险。考虑到应用规模,在开发出合适的合成技术之前,要使大的DNA片段匹配实际的数据存储需求是非常困难的。与此相反,寡核苷酸池几百个核苷酸的长度的,可以在低成本合成低于0.001 $ / NT 33,比大片段DNA合成要低几个数量级。此外,在短短几个工作日内即可同时生产超过一百万条不同的股,而随着合成规模的扩大,成本不断下降。因此,带有大的寡核苷酸池的细菌细胞的混合培养物可能是一种强大的DNA存储材料,兼具寡聚池和活细胞的优势,可以进行数据存储。在与主要先前报告的活细胞DNA存储系统相比93135,在该研究中获得的总2304 Kbps的DNA储存数据,包括文本,图像文件和计算机程序代码的最大存储容量,在活细胞(图   4c和补充说明 7)。与在染色体上存储长DNA片段相比,可以在合成寡聚体后24小时内以总制造成本(低于每碱基0.001 $的成本)制造混合培养物存储材料(补充说明   3)。另外,大的DNA片段对细胞生长施加更大的负担。在混合细胞培养中,每个细胞仅携带一个信息DNA的小片段,其序列也已通过生物信息学工具进行分析,以避免潜在的细菌启动子序列28稳定的传代也表明这些人工数字序列不会对宿主细胞产生太大干扰,带有毒性序列的寡核苷酸也不会干扰其他细胞,这是这种混合培养策略的另一个好处。因此,鉴于这种非常人为的目的,即数字信息存储,没有必要遵循自然界中记录基因组信息的方式。

混合文化是一种已成功应用于许多领域的策略。在代谢工程中,不同类型的微生物细胞被用于相互代谢益处一起培养3637,但人口的大小相对较小。在活细胞中产生用于定向进化研究的特定的生物学功能筛选编码巨大基因组多样性较大的DNA库3839尽管已经在活细胞中创建了一个大型的DNA库以产生非常大的表型多样性,但是稳定地携带这些大量的DNA结构并不是必需的。通常,很难平衡不同细胞之间的生长速率。在目前的工作中,即使在大寡核苷酸池的一个插入片段组装中,也至少存在11520个基因型,并且在多个片段的冗余组装中将有大量的基因型,这是迄今为止报道的最大的混合培养物。正如统计分析所表明的,由于大寡核苷酸池中的高序列复杂性,组装过程存在偏差,但是可以通过更特异性的同源臂设计和更有效的体外DNA同源组装方法来改善这一过程。此外,DNA折纸组装的热过程可以被利用以提高组装效率。然而,即使经过多次传代,也获得了相对稳定的混合培养。在混合培养的连续多次传代中,寡核苷酸的拷贝数分布保持稳定,基尼系数的值非常相似(图2)。 3c和补充图。 1522 - 23,补充表   2)。这种稳定性有几个可能的原因。存储数字信息的人为目的允许设计避免具有特定生物功能的敏感序列模式的序列,例如,多核苷酸(polyA等)和特定的核酸内切酶识别序列(补充说明   2)。生物信息学分析表明,存在设计的寡核苷酸和整个之间没有序列相似性的大肠杆菌 DH10β基因组中,以10电子值-6(补充说明   5)。已经证明,数字DNA序列对宿主细胞的生长或载体质粒的复制均没有很大的影响。另外,将数字序列存储在质粒上减少了来自基因组的信息污染。因此,这种简单的方法与任何用于数据存储的寡核苷酸池高度兼容,并且基于我们在此展示的大于10 4的寡核苷酸存储容量,可以轻松地以并行方式实现放大

当制造用于数据存储的活细胞材料时,组装和转换成为确定寡核苷酸种群实际大小的关键步骤。深入的生物信息学分析表明,装配过程是基于序列上下文而产生偏差的,而转换是一个相对随机且效率低下的过程。因此,寡核苷酸的数量减少了近两个数量级。在组装和转化过程中引入的偏差高度依赖于所用的生物试剂,应重新设计同源性组装方法,以提高其组装大分子种群寡聚体的效率。此外,发现混合培养过程中的脱落率与主寡聚池的脱落曲线显示出良好的相关性, 24)。因此,仍有很大的空间来提高混合细胞培养物存储数据的能力。原始芯片合成的DNA池中寡核苷酸拷贝数的不均匀性是很明显的,这对于体外DNA储存方法也是一个严重的问题26具有高拷贝数的寡核苷酸在组装过程中被整合的可能性更高。如所证明的,从培养细胞中回收的寡核苷酸池高度不平衡。修改寡核苷酸池的寡核苷酸拷贝数以使其更均匀,可以改善有偏差的组装过程。寡核苷酸拷贝数的不均匀导致寡核苷酸在组装和细胞培养过程中脱落。最近,已经开发出一种使用专门设计的底漆混合物40平衡寡核苷酸混合物的方法。但是,在将其应用于DNA池进行存储之前,仍然需要更多的开发。因此,可以开发更多的合成工具来改善芯片合成的寡核苷酸库和外源DNA转化,并平衡大型混合培养。总之,来自芯片合成的DNA寡核苷酸池(包含一万多条链)被快速转移到活细胞中进行数据存储。所得的大肠杆菌细胞混合培养物是用于存储大量编码数字数据的DNA序列的稳定材料。据我们所知,到目前为止,我们在活细胞中实现了最大的数据存储。

方法

菌株和培养条件

具有电感受态能力的大肠杆菌 DH10β用于克隆,并购自Biomed Co.,Ltd.(中国北京)。氨苄西林的抗生素使用量为100 mg / mL。除非另有说明,否则将细胞在Luria-Bertani(LB)肉汤中以220 rpm摇动培养,或者在LB琼脂平板上于37°C培养。

图书馆建设

为了组装509个序列,合成了寡核苷酸库,冻干的库由192个nt的11,776个寡核苷酸(由Twist Bioscience合成)组成,每个寡核苷酸中包括152nt的有效载荷。将池重悬于1x TE缓冲液中,终浓度为2 ng /μL。其中一个文件509寡核苷酸侧翼为预混合引物F02 / R02的结合位点。使用Q5®高保真DNA聚合酶(NEB#M0491)和引物F01-F04 / R01-F04(10 ng寡核苷酸,2.5μL每种引物混合物(100 mM),0.5μLQ5高保真DNA聚合酶,在50μL反应中加入4μL2.5 mM dNTP)。热循环条件如下:在98℃下5分钟;在室温下5分钟。10个周期:98°C下10 s,56°C下30 s,72°C下30 s,然后在72°C下延长5分钟。然后使用Plus DNA Clean / Extraction Kit(GMbiolab Co,Ltd.2 O.该库被认为是主池并在2%琼脂糖凝胶,以验证正确的大小运行。为了装配11520个序列,合成的DNA库由200个核苷酸的11520个寡核苷酸组成(由Twist Bioscience合成),其中包括155个核苷酸的有效负载,两侧是引物F1 / R1的结合位点(补充图   3)。将冻干的合并液在1x TE缓冲液中再水化,并使用上述方案扩增文件。

引物同源臂设计的计算策略

引物包括三个部分,一个是用于吉布森装配的同源臂(同源臂),另一个是核酸内切酶识别位点的Not I,最后一个是地址序列。实施了引物设计算法,以编纂使用PCR生产装配片段的规则。引物同源臂是使用NUPACK(http://www.nupack.org)设计的。鉴定出满足以下规则的用于同源臂设计的引物组:(1)同源臂长度25nt;(2)鸟嘌呤-胞嘧啶(GC)含量为40-60%;(3)各同源臂之间无相互作用。通过所有上述测试的选定引物作为正确对提供,可产生定义大小的乘积(补充图   1)。2)。

组装实验

对于主链制备,将pUC19质粒用作PCR的模板。使用最大DNA聚合酶(Takara#R045Q)和引物组PCR-vactor-F / R进行PCR。热循环扩增了30个循环,包括在98°C变性15 s,在55°C退火5 s和在72°C引物延伸20 s。然后使用Plus DNA Clean / Extraction Kit(GMbiolab Co,Ltd.#DP034P)通过凝胶切割纯化PCR产物,并在30μLddH 2 O中洗脱

对于509寡核苷酸池装配片段的制备,我们从如上所述的主池开始。使用Q5®高保真DNA聚合酶和相应的引物(不同序列在补充表1中显示),用不同的同源臂制备片段   模板使用来自主库的0.2 ng寡核苷酸输入进行50μLPCR反应。初始变性在98°C下进行5分钟。随后进行20个PCR循环,包括在98°C变性30 s,在56°C退火30 s和在72°C引物延伸20 s。最后,将溶液在72°C下孵育5分钟以终止PCR反应。然后使用Plus DNA Clean / Extraction Kit(Gmbiolab,#DP034P)纯化文库,并在30μLddH 2中洗脱O.最终库在上述相同条件下运行。然后根据用户手册使用GibsonAssembly®预混料-NEB,#E2611。

对于11520寡核苷酸池装配片段的制备,我们从如上所述的主池开始。使用2xEasyTaq®PCR SuperMix(AS111,TRANS)和相应的引物(不同的序列在补充表1和补充图   4中显示用不同的同源臂制备片段   该模板使用了来自主库的20 ng寡核苷酸输入到50μLPCR反应中。初始变性在94°C下进行2分钟。然后进行10个PCR循环,包括在94°C变性30 s,在53°C退火30 s和在72°C引物延伸20 s。最后,将溶液在72°C下孵育5分钟以终止PCR反应。然后纯化文库并在100μLddH 2中洗脱O.根据用户手册使用NEBuilder®HiFi DNA组装克隆试剂盒(NEB,#E5520)。

根据片段的长度和重量,计算出每个片段的浓度以实现最佳组装,我们使用以下公式:

pmols=(weightinng)×1000/(basepairs×650daltons).
(1)

基于此计算,根据以下公式确定每个寡核苷酸的分子数和拷贝数:

molesdsDNA(mol)=massofdsDNA(g)/((lengthofdsDNA(bp)×607.4)+157.9g/mol;
(2)
DNAcopynumber=molesofdsDNA×6.022e23molecules/mol.
(3)

我们发现组装片段和Gibson组装实验的主干之间有很好的一致性。因此,对于509个寡核苷酸池组装实验,使用10 11个拷贝数的载体和10 8个拷贝数的插入片段进行了优化的克隆对于11,520个寡核苷酸池组装实验,使用10 10个拷贝数的载体和10 10个拷贝数的插入片段进行了优化的克隆将样品分别在热循环仪中于50°C孵育60分钟。孵育后,将样品储存在冰上或-20°C的条件下进行后续转化。

DNA在活细胞中的储存

为了准备509寡核苷酸池装配的片段,我们从如上所述的主池开始。使用Q5®高保真DNA聚合酶和相应的引物,用不同的同源臂制备片段。然后,根据制造商的说明使用GibsonAssembly®预混液(NEB,#E2611)。为了准备11520寡核苷酸池装配的片段,我们从如上所述的主池开始。使用2xEasyTaq®PCR SuperMix(AS111,TRANS)和相应的引物,用不同的同源臂制备片段。根据制造商的说明使用NEBuilder®HiFi DNA组装克隆试剂盒(NEB,#E5520)。

转型与文化

在1毫米间隙的比色杯中,在1.8 kV,200Ω,25 Mf的条件下进行电穿孔,将细胞在37°C的新鲜SOB培养基中回收1 h。对于509组装实验,将每个样品(5μL)添加到DH10β电感受态细胞(50μL)中进行电穿孔反应。

回收后,将500μL细胞以适当的选择条件(Amp)铺在选择培养基平板上,并通过ImageJ计数菌落。对于11520组装实验,将每个样品(2μL,总计20μL)添加到DH10β电感受态细胞(50μL)中进行电穿孔反应。回收后,将500μL细胞以适当的选择条件(Amp)铺在选择培养基平板上,并通过ImageJ计数菌落。通过以下公式计算转化率:

Transformationefficiency(cfu/μg)=coloniesonplate/plasmidDNAspreadonplate
(4)
Transformationrate=Transformationefficiency/1010(cfu/μg)
(5)

*注:10 10 cfu /μg是DH10β电换能器细胞的理论转化效率。

对于509个寡核苷酸池组装实验,将另外500μL细胞接种在5 mL Luria肉汤(LB)培养基和适当的抗生素中,并过夜生长[37°C,每分钟220转(RPM)],以获得种子培养物。对于11520寡核苷酸库组装实验,将5 mL回收的细胞接种在45 mL Luria肉汤(LB)培养基和适当的抗生素中,并过夜培养以获得种子培养物。然后将种子培养物在50 mL预热的LB和适当的抗生素中依次稀释(1:10),然后OD 600达到1.2。将该连续的过程重复5次(补充图   12)。

数据恢复

液体和平板培养后,使用质粒小量制备试剂盒(TIANGEN,#DP103)提取质粒文库。然后,QuickCut™ I(Takara,#1623)用于碎片回收。使用Plus DNA Clean / Extraction Kit凝胶回收正确的片段后,对509个寡核苷酸池(1F,3F和5F)和11520寡核苷酸池(1F和3F的第1代和第5代)的样品进行了测序。直。为了获得更完整的信息,我们使用Q5®高保真DNA聚合酶和引物对F02 / R02对构建的质粒进行了PCR,以扩增11,520个寡核苷酸库(1F和3F的1和5代)。热循环方案为:(1)98°C 5分钟,(2)98°C 30 s,(3)54°C 30 s,(4)72°C 10 s,然后重复步骤2 – 5次4次,然后在72°C下最终伸长5分钟。使用Plus DNA Clean / Extraction Kit(GMbiolab Co,Ltd.#DP034P)纯化产物并测序。

统计和可重复性

对至少3个分离的样品进行了各种大小的DNA寡核苷酸库实验。直方图是使用Origin软件生成的。图中的定量数据表示为三个生物学重复样品的平均值和标准偏差。

报告摘要

与本文链接的《自然研究报告摘要》中提供了有关研究设计的更多信息  

资料可用性

支持本文结论的数据包含在本文及其其他文件中。此外,原始序列FASTQ文件和设计的序列文件可以通过(http://pan.tju.edu.cn:80/#/link/FBECCB92999B055C2C261818A1B386F192,代码:9ztM和http://pan.tju.edu获得.cn:80 /#/ link / 3739C996782A37FB98440298DEBF29DA,代码:YQ0a)。在补充数据1中提供了图中所示的基础图的源数据  

代码可用性

可从此链接(https://biorxiv.org/cgi/content/short/2020.02.09.940411v1获得用于Linux和Windows以及生物信息学分析程序的编码和解码的BASIC代码




武汉新启迪生物科技有限公司联系邮箱:
service@qidibio.com  techsupport@qidibio.com  
武汉新启迪生物科技有限公司咨询客服:周一至周五8:30-17:30
联系我们
服务保障                        支付方式
武汉新启迪生物科技有限公司联系电话:
027-87610298
027-87610297