多重核酸合成的组合物和方法
1.相关申请
2.本技术要求2013年3月15日提交的美国临时专利申请第61/792,245号的权益和优先权,其通过引用全文纳入本文。
3.关于序列表
4.本说明书包括所附序列表,其包括创建于2014年3月13日,名为"127662-014001_st25.txt"、大小为2.628字节的文件,其内容通过引用全文纳入本文。
发明领域
5.本发明的方法和组合物涉及核酸组装,并且具体地涉及高保真、多重核酸组装反应。
6.背景
7.重组和合成核酸在研究、工业、农业和医学中有许多应用。可以使用重组和合成核酸来表达和获得大量的多肽,包含酶、抗体、生长因子、受体和其它可用于多种医学、工业或农业目的的多肽。也可以使用重组和合成核酸来产生遗传修饰的生物体,包含修饰的细菌、酵母、哺乳动物、植物和其它生物体。遗传修饰的生物体可以用于研究(例如,疾病的动物模型、理解生物过程的工具等)、工业(例如,作为蛋白表达的宿主生物体、用于产生工业产物的生物反应器、环境补救的工具、分离或修饰具有工业应用的天然化合物等)、农业(例如,具有增加的产率或增加的对疾病或环境压力的抗性的经修饰作物)和用于其它应用。重组和合成核酸也可以用作治疗组合物(例如,用于修饰基因表达、用于基因治疗等)或用作诊断工具(例如,病症的探针等)。
8.已经开发了多种技术用于修饰存在的核酸(例如,天然存在的核酸)来产生重组核酸。例如,可以使用核酸扩增、诱变、核酸酶消化、连接、克隆和其它技术的多种组合来产生许多不同的重组核酸。经常使用化学合成的多核苷酸作为用于核酸扩增、诱变和克隆的引物或衔接子。
9.也发展了用于从头核酸组装的技术,其中制备(例如,化学合成)和组装核酸来产生较长的感兴趣的靶核酸。例如,已经开发了不同的多重组装技术用于将寡核苷酸组装成能用于研究、工业、农业和/或医学的较大的合成核酸。因此,需要高保真、低成本的合成多核苷酸的方法。
10.具体地,当前大量申请重点关注在化学合成多核苷酸,包括来自直接基因组序列数据的合成克隆合成法、大基因库合成法和全合成基因组合成法。多核苷酸合成领域的主要目的是快速廉价地合成大量多核苷酸。多核苷酸合成成本的主要部分是进行多核苷酸合成反应的试剂成本。为了降低该成本,反应可以小体积进行,例如在微流体中进行。
技术实现要素:
11.本发明的方面涉及产生至少一种靶核酸的方法。在本发明的一些方面,所述方法允许在单一反应体积中合成多种不同靶分子。
12.在一个方面,提供生成具有预定序列的至少一种靶核酸的方法。所述方法包括(a)提供具有第一多个突出端的多个双链锚定寡核苷酸;(b)提供具有第二多个突出端的多个双链构建寡核苷酸,其中所述第二多个突出端设计为与所述第一多个突出端互补;(c)杂交并连接所述锚定寡核苷酸和所述构建寡核苷酸;和d)任选重复步骤(a)-(c),从而产生所述至少一种靶核酸。在一些实施方式中,所述第一多个突出端设计为彼此之间相对相互正交。所述第二多个突出端也可设计为彼此之间相对相互正交。在某些实施方式中,所述锚定寡核苷酸或至少多种锚定寡核苷酸连接至支持物。所述支持物可为固体,例如珠。茎环多核苷酸可替代支持物。所述锚定寡核苷酸可固定于相同支持物或各所述锚定寡核苷酸固定于不同支持物。在一些实施方式中,步骤(a)-(d)在单一反应体积中进行。
13.在另一方面,生成具有预定序列的至少一种靶核酸的方法可包括:(a)连接具有第一多个突出端的第一多个双链寡核苷酸和具有第二多个突出端的第二多个双链寡核苷酸,其中所述第一多个突出端设计为与所述第二多个突出端互补,从而生成第一组多核酸;b)连接具有第三多个突出端的第三多个双链寡核苷酸和具有第四多个突出端的第四多个双链寡核苷酸,其中所述第三多个突出端设计为与所述第四多个突出端互补,从而生成第二组多核酸;和(c)连接所述第一组多核酸和所述第二组多核酸,其中所述第一组多核酸和第二组多核酸设计为具有互补突出端,从而形成至少一种靶核酸。在一些实施方式中,所述第一、二、三、四多个突出端各设计为彼此之间相对相互正交。所述方法还可包括任选重复步骤(a)-(c)。
14.在其他方面,生成具有预定序列的至少一种靶核酸的方法包括:将第一多个双链寡核苷酸和第二多个双链寡核苷酸连接于所述第二多个双链寡核苷酸的5’末端,并将第二多个双链寡核苷酸和第三多个双链寡核苷酸连接于所述第二多个双链寡核苷酸的3’末端,其中所述第一多个双链寡核苷酸具有第一多个3'突出端,所述第二多个双链寡核苷酸具有第一多个5'突出端和第二多个3'突出端,且所述第三多个双链寡核苷酸具有第二多个5'突出端,其中所述第一多个3'突出端设计为与所述第一多个5'突出端互补,并且所述第二多个3'突出端设计为与第二多个5'突出端互补;从而形成至少一种靶核酸。在一些实施方式中,所述第一和第二多个5'和3'突出端各设计为彼此之间相对相互正交。所述方法还可包括任选重复连接步骤。
15.在另一方面,提供生产具有多个突出端的多个双链寡核苷酸的方法。所述方法可包括:(a)熔解第一多个钝末端双链寡核苷酸和第二多个钝末端双链寡核苷酸,形成多个单链寡核苷酸;和(b)使所述多个单链寡核苷酸重新退火,形成具有多个突出端的多个双链寡核苷酸,其中所述多个突出端设计为彼此基本相互正交。在某些实施方式中,所述第一和第二多个钝末端双链寡核苷酸在熔解前进行错误校正或错误减少。
16.在一些方面,所述方法包括提供包含单链5'突出端的至少多个结合支持物的双链寡核苷酸。所述多个寡核苷酸可具有预定序列。在一些实施方式中,所述单链突出端在其3’末端包含与第一多个双链构建寡核苷酸的3’末端序列区域互补的序列区域。在一些实施方式中,所述方法包括提供包含单链5'突出端的至少多个结合支持物的双链寡核苷酸,其中所述多个寡核苷酸具有预定序列,其中所述单链突出端在其3’末端包含与第一多个双链构建寡核苷酸的3’末端序列区域互补的序列区域。在一些实施方式中,所述方法包括生成含单链3’突出端的至少第一多个双链构建寡核苷酸,所述单链3’突出端与多个结合支持物的
寡核苷酸互补。在一些实施方式中,所述方法包括使所述至少第一多个构建寡核苷酸杂交至所述多个结合支持物的寡核苷酸。在一些实施方式中,所述方法连接所述第一多个构建寡核苷酸,并任选重复步骤b-d,从而生成至少靶核酸。在一些实施方式中,所述连接步骤在连接酶存在下进行。
17.在一些实施方式中,在提供步骤中,所述至少多个结合支持物的双链寡核苷酸包含多个不同单链5’突出端,各5’突出端与多个不同靶核酸互补。所述突出端可为3-20核苷酸长。
18.在一些实施方式中,所述多个结合支持物的双链寡核苷酸固定于单一支持物,例如珠。在一些实施方式中,所述多个靶核酸可在单一支持物上合成。在其他实施方式中,各多个结合支持物的双链寡核苷酸固定于不同支持物,从而可合成多个靶核酸,其中各靶核酸固定于不同支持物,例如珠。在各种实施方式中,合成步骤在单一反应体积中进行。
19.在一些实施方式中,包含单链突出端的多个双链构建寡核苷酸通过扩增结合支持物的模板寡核苷酸来生成,各结合支持物的模板寡核苷酸具有3’侧接序列和5’侧接序列,各侧接序列具有引物结合位点和限制性酶识别位点。所述侧接序列可用iis型限制性酶切下。在一些实施方式中,包含单链突出端的多个双链构建寡核苷酸通过杂交部分互补的寡核苷酸来生成。在一些实施方式中,所述双链构建寡核苷酸可进行改组,并用例如错配结合蛋白来减少错误。
20.在一些实施方式中,所述双链构建寡核苷酸包含n多种构建寡核苷酸,其中所述n多种构建寡核苷酸跨越靶核酸的整个序列且不含缺口。
21.根据本发明的一些方面,所述方法涉及生产具有预定序列的至少一种靶核酸,包括以下步骤:提供含3’突出端的n种多个双链寡核苷酸,其中所述第一多个寡核苷酸在其3’末端包含与第二寡核苷酸3’末端序列区域互补的序列区域,其中多个寡核苷酸n在其3’末端包含与多个寡核苷酸(n-1)的序列区域互补的序列区域。所述多个构建寡核苷酸可通过其独特突出端成对杂交并组装。所述构建寡核苷酸的组装对可用例如连接酶连接。所述步骤可重复以分级组装所述至少一种靶核酸。在一些实施方式中,所述靶核酸的合成在单一反应体积中进行。
22.根据本发明一些方面,生产具有预定序列的至少一种靶核酸的方法包括提供含3'单链突出端的至少多个茎环寡核苷酸,其中所述单链3'突出端与第一多个双链构建寡核苷酸的3'末端的序列区域互补。可提供含单链3'突出端的第一多个双链构建寡核苷酸,所述单链3'突出端与茎环寡核苷酸互补。所述至少第一多个构建寡核苷酸可杂交至茎环寡核苷酸并连接。合成步骤可重复,从而生成所述至少一种靶核酸。在一些实施方式中,所有步骤在单一反应体积中进行。在一些实施方式中,所述突出端为3-20核苷酸长。在一些实施方式中,所述茎环寡核苷酸至少100bp长。
23.在各种实施方式中,提供在单一合成反应体积中合成多种多核苷酸的方法和组合物。该方法有时称为多重多核苷酸合成(mps)。详细描述三类mps:i)系列mps,ii)分级mps和iii)平行mps。
附图说明
24.图1a-1c显示系列多重多核苷酸合成的非限制性示例方法,显示具有突出端的寡
核苷酸双链体的系列添加。图1a显示含具有独特3’突出端的结合支持物或锚定寡核苷酸双链体的珠支持物。图1b显示通过添加补偿寡核苷酸双链体合成较长构建体。图1c显示通过连续添加补偿双链体或二聚体(i,ii,iii,iv)合成子组件或全长构建体。
25.图2a-2c显示含突出端的补偿双链寡核苷酸制备的非限制性示例方法。图2a显示第一、第二、第三等补偿二聚体(offset dimer)的各核酸(如基因)的上方链(单撇号[']标记)的生成。图2b显示生成所述补偿二聚体的下方链(双撇号[
″
]标记)的相似反应组。图2c显示来自反应孔的上方链和下方链的配对组合,对应于各基因第一、第二、第三等补偿二聚体(所述第一补偿二聚体的上方链和下方链孔混合入第一补偿二聚体孔,所述第二补偿二聚体的上方链和下方链孔混合入第二补偿二聚体孔,等)。
[0026]
图3显示系列多重多核苷酸合成的非限制性示例方法,显示支持物(珠)上的具突出端的寡核苷酸双链体的第一系列添加,每个支持物具有多种锚定类型。
[0027]
图4显示系列多重多核苷酸合成的非限制性示例方法,显示支持物(珠)上的具突出端的寡核苷酸双链体的第二系列添加,每个支持物具有多种锚定类型。
[0028]
图5显示系列多重多核苷酸合成的非限制性示例方法,显示使用通用锚的支持物(珠)上的具突出端的寡核苷酸双链体的第一系列添加。
[0029]
图6显示系列多重多核苷酸合成的非限制性示例方法,显示使用通用锚的支持物(珠)上的具突出端的寡核苷酸双链体的第二系列添加。
[0030]
图7a-7c显示使用茎环多核苷酸替代珠支持物的系列多重多核苷酸合成的非限制性方法。图7a显示具有独特3’突出端的茎环多核苷酸。图7b显示通过向所述茎环多核苷酸添加补偿寡核苷酸双链体来合成较长构建体。图7c显示通过连续添加补偿双链体或二聚体(i,ii,iii,iv)合成子组件或全长构建体。
[0031]
图8显示系列多重多核苷酸合成的非限制性示例方法,显示具突出端的寡核苷酸双链体的第一添加,每珠具有一种多核苷酸锚定方式。
[0032]
图9显示分级多重多核苷酸合成的非限制性示例方法,显示具突出端的寡核苷酸双链体的第二添加,每珠具有一种多核苷酸锚定方式。
[0033]
图10a显示就多重多核苷酸合成而言形成补偿二聚体的非限制性示例方法。
[0034]
图10b显示就多重多核苷酸合成而言补偿二聚体的非限制性示例序列。
[0035]
图11显示分级多重多核苷酸合成的非限制性示例方法。
[0036]
图12显示平行多重多核苷酸合成的非限制性示例方法。
[0037]
图13a-13b显示平行多重多核苷酸合成内终止反应的非限制性示例方法。图13a是3个补偿二聚体a、b和c的示意图,具有丰富的补偿二聚体b,其设计为杂交并连接至最终产物abc。图13b是3个补偿二聚体a、b和c的示意图,若补偿二聚体b丰富,终止反应产生ab和bc。
[0038]
图14显示平行多重多核苷酸合成的非限制性示例方法,使用具有突出端的寡核苷酸双链体的成形浓度概况以减少反应终止。
[0039]
图15显示平行多重多核苷酸合成的非限制性示例方法,使用系连接酶(tethered ligase)以减少反应的终止。
[0040]
图15显示平行多重多核苷酸合成的非限制性示例方法,显示对具有突出端的寡核苷酸双链体的基于珠的滴定的应用,从而减少反应的终止。
[0041]
发明详述
[0042]
本发明的方面可用来高效组装大量的核酸片段,和/或减少产生大核酸产物所需步骤的数量,同时降低组装错误率。本发明的方面可纳入核酸组装过程来提高组装保真度、通量和/或效率,降低成本,和/或缩短组装时间。在一些实施方式中,本发明的方面可以自动化和/或在高通量组装环境下进行来促进平行产生许多不同的靶核酸产物。
[0043]
本文提供的技术方面对增加核酸合成和组装反应的精确性、产率、通量、和/或成本效益有用。本文使用的术语“核酸”、“多核苷酸”、“寡核苷酸”可互换使用,并且指核苷酸的天然产生或合成的聚合物形式。本发明所述寡核苷酸和核酸分子可以从天然产生的核苷酸形成,例如形成脱氧核糖核酸(dna)或核糖核酸(rna)分子。或者,该天然产生的寡核苷酸可以包含改变其性质的结构修饰,例如肽核酸(pna)或锁核酸(lna)。有天然产生碱基或人工碱基的寡核苷酸和核酸分子的固相合成为本领域熟知。应理解这些术语包含从核苷酸类似物中生成的rna或dna的等同物、类似物和应用于要描述的实施方式时的单链或双链多核苷酸。本发明中可用的核苷酸包含例如天然产生的核苷酸(例如核糖核苷酸或脱氧核糖核苷酸),或者核苷酸的天然或合成修饰、或者人工碱基。本文使用的术语单体指小分子组成员,其是并且能结合在一起以形成低聚物、聚合物或由两个或更多成员构成的化合物。聚合物中所述单体的特定顺序在本文中称为聚合物的“序列”。所述单体组包含但不限于例如常见l-氨基酸组、d-氨基酸组、合成和/或天然氨基酸组、核苷酸组及戊糖和己糖组。本发明所述方面主要涉及制备寡核苷酸,也可容易地用于制备其他聚合物例如肽或多肽、多糖、磷脂、异聚物、聚酯、聚碳酸酯、聚脲、聚酰胺、聚乙烯亚胺、聚芳撑硫、聚硅氧烷、聚酰亚胺、聚乙酸酯或任何其他聚合物。
[0044]
本文使用的术语“预测定序列”或“预定序列”可互换使用,指在所述聚合物合成或组装前已知并选择的聚合物的序列。具体地,本文所述本发明的各方面主要涉及核酸分子的制备,在核酸分子合成或组装前已知且已选择核酸的序列。在本文所提供技术的一些实施方式中,固定的寡核苷酸或多核苷酸被用作材料来源。在各种实施方式中,本文所述方法使用寡核苷酸,其序列基于待合成的最终多核苷酸构建体的序列确定。在一个实施方式中,寡核苷酸是短核酸分子。例如,寡核苷酸的长度可以是10至约300个核苷酸、20至约400个核苷酸、30至约500个核苷酸、40至约600个核苷酸,或超过约600个核苷酸。然而,可以使用更短或更长的寡核苷酸。寡核苷酸可设计成具有不同长度。在一些实施方式中,多核苷酸构建体序列可以分成更短序列组,该序列能使用本文所述方法平行合成并组装成单个或多个所需多核苷酸构建体。在一些实施方式中,所述组装过程可以包含数种平行和/或顺序反应步骤,其中多个不同核酸或寡核苷酸被合成或固定、引物延伸、并且合并以组装(如通过本文所述延伸或连接)生成更长核酸产物,从而用于进一步组装、克隆或其他应用。
[0045]
在一些实施方式中,本文提供的方法和设备使用固定在表面或基底上的寡核苷酸(如结合于支持物的寡核苷酸)。结合支持物的寡核苷酸包括例如与构建寡核苷酸互补的寡核苷酸、锚定寡核苷酸和/或间隔子寡核苷酸。本文使用的术语“支持物”、“底物”和“表面”可互换使用,并且指聚合物例如核酸在上面合成或固定的多孔或非多孔溶剂不溶性材料。本文使用的“多孔”是指所述材料包含有基本一致直径(例如nm范围内)的孔。多孔材料包括纸、合成过滤器等。在这种多孔材料中,所述反应可以在孔中进行。所述支持物能具有很多形状中的任何一种,例如销型、条、板、平盘、杆状、弯曲、圆柱形结构、颗粒(包含珠、纳米颗
粒)等。所述支持物可有可变宽度。所述支持物可以是亲水性的,或可以制成亲水性的,并且包含无机粉末(如二氧化硅、硫酸镁和氧化铝)、天然聚合材料(特别是纤维素材料和纤维素衍生材料,例如包含纤维的纸(如滤纸、色谱纸等))、合成或改性天然产生的聚合物(如硝酸纤维素、乙酸纤维素、聚(氯乙烯)、聚丙烯酰胺、交联的葡聚糖、琼脂糖、聚丙烯酸酯、聚乙烯、聚丙烯、聚(4-甲基丁烯)、聚苯乙烯、聚甲基丙烯酸酯、聚(对苯二甲酸乙二酯)、尼龙、聚(丁酸乙烯酯)、聚偏二氟乙烯(pvdf)膜、玻璃、可控孔度玻璃、磁性可控孔度玻璃、陶瓷、金属等),或者单独使用或与其他材料联用。在一些实施方式中,在阵列形式中合成寡核苷酸。例如,在常见支持物上原位合成单链寡核苷酸,其中在基底上的单独或离散的部位(或点)上合成各寡核苷酸。在一个实施方式中,单链寡核苷酸结合到所述支持物或特征部位的表面上。本文所用的术语“阵列”是指用于存储、扩增和释放寡核苷酸或互补寡核苷酸用于进一步反应的离散特征的排列。在优选实施方式中,所述支持物或阵列是可寻址的:所述支持物包含在所述支持物上特定预定位置(即地址摂)上的两个或更多离散的可寻址部位。因此,阵列上的各寡核苷酸分子位于所述支持物上已知和确定的位置。各寡核苷酸序列能从所述支持物上其位点来确定。所述阵列可以包含特征部位之间的区域。特征部位之间可以在其表面载有任何寡核苷酸,并且可对应惰性空间。
[0046]
在一些实施方式中,寡核苷酸在表面或阵列的离散特征部位上连接、点样、固定、表面结合、支持或合成。
[0047]
本发明的一些方面涉及多核苷酸组装过程,其中,合成的寡核苷酸经设计并且用作引物延伸反应、合成互补寡核苷酸的模板,并用于组装多核苷酸成为更长多核苷酸构建物。在一些实施方式中,该方法包含在链延伸反应中使用第一多个单链寡核苷酸作为模板合成多个寡核苷酸或多核苷酸。如前所述,可以首先在表面的多个离散特征部位上或在多个支持物(如珠)上合成寡核苷酸,或可将寡核苷酸置于支持物的多个特征部位上或多个支持物上。支持物可以包含至少100、至少1,000、至少104、至少105、至少106、至少107、至少108个特征。在一些实施方式中,所述寡核苷酸共价连接至所述支持物。在一些实施方式中,所述多个寡核苷酸固定在固体表面上。
[0048]
在一些实施方式中,所述结合支持物的寡核苷酸可通过其端5'末端连接。在其他实施方式中,所述结合支持物的寡核苷酸通过其3’末端连接。在一些实施方式中,所述结合支持物的寡核苷酸可以通过核苷酸序列(如简并结合序列)、接头或间隔子(如光可切割的连接或化学接头)固定在支持物上。应该理解3’末端是指所述5’末端的下游序列,5’末端是指所述3’末端的上游序列。例如,寡核苷酸可通过不涉及杂交的间隔子、核苷酸序列或连接子固定在支持物上。然后所述结合支持物的寡核苷酸的3’末端表示接头或间隔子的上游序列。
[0049]
在某些实施方式中,寡核苷酸可以设计成具有与要组装的不同预测定靶标多核苷酸序列部分相同或互补的序列。因此,在一些实施方式中,每条寡核苷酸可以具有与双链靶核酸的两条链之一的部分相同或互补的序列。本文使用的术语"互补"指两个核苷酸之间精确配对的能力。例如,如果在核酸给定位点的核苷酸能与另一核酸的核苷酸形成氢键,则认为两个核酸分子在该位点彼此互补。两条单链核酸间的互补性可以是“部分的”,其中仅有一些核苷酸结合,或者当单链分子间存在完全互补性时为完全互补。术语“正交”表示所述序列不同、不具干扰性或不互补。
[0050]
在一些实施方式中,设计多个构建寡核苷酸,例如多个构建寡核苷酸各在其5’末端具有与另一个构建寡核苷酸5’末端的序列区域互补的序列区域,和在其3’末端具有与不同构建寡核苷酸3’末端的序列区域互补的序列区域。本文使用的“构建”寡核苷酸指用于多核苷酸组装的多个单链寡核苷酸或单链寡核苷酸群之一。多个构建寡核苷酸包含所述靶多核苷酸的正义和反义链的寡核苷酸。构建寡核苷酸可有任何长度,所述长度设计为适合重叠或互补序列。构建寡核苷酸可具有相同大小或不同大小。在优选实施方式中,所述构建寡核苷酸跨越靶多核苷酸的整个序列且无缺口。在另一个实施方式中,所述构建寡核苷酸部分重叠,使得在互相杂交时产生构建寡核苷酸之间的缺口。优选地,构建寡核苷酸的库或群包含具有重叠序列的构建寡核苷酸,从而构建寡核苷酸可在合适的杂交条件下互相杂交。应该理解各内部构建寡核苷酸与两个不同的构建寡核苷酸杂交,而所述构建寡核苷酸在其5’和/或3’末端会各自与不同(或相同)的内部寡核苷酸杂交。重叠构建寡核苷酸的杂交和连接会因此产生有3’和/或5’突出端的靶多核苷酸。在一些实施方式中,所得靶多核苷酸可在其5’或/和3’末端包含钝末端。在一些实施方式中,如果所述靶多核苷酸从n种构建寡核苷酸组装,设计1
–
n多种不同的结合于支持物的单链寡核苷酸,例如第一多个构建寡核苷酸在其3’末端包含与锚定寡核苷酸3’末端序列区域互补的序列区域,并且其中n种多个构建寡核苷酸在其3’末端包含与(n-1)构建寡核苷酸的3’末端序列区域互补的序列区域。在一些实施方式中,所述第一多个寡核苷酸的5’末端与结合支持物的锚定单链寡核苷酸的5’末端互补。
[0051]
本文使用的所述“锚定寡核苷酸”指设计成与靶多核苷酸的至少部分互补的寡核苷酸,且其可固定在所述支持物上。在示例实施方式中,所述锚定可通过其5’末端固定在所述支持物上。
[0052]
本文所用术语“二聚体”指寡核苷酸双链体或双链寡核苷酸分子。术语“补偿二聚体(offset dimer)”指具有3'或5'突出端(即非钝末端)的寡核苷酸。在一些实施方式中,锚定和/或构建寡核苷酸可为双链并具有3'和/或5'突出端。
[0053]
应该理解不同的寡核苷酸可以设计成有重叠序列区域的不同长度。重叠序列区域可以是相同的(即对应核酸片段的相同链)或互补的(即对应核酸片段的互补链)。重叠序列可以具有任何合适的长度。重叠序列可以长约5
–
约500个核苷酸(如长约10
–
100、约10-75、约10-50、约20、约25、约30、约35、约40、约45、约50、约100、约200、约300、约400、约500个核苷酸等)。然而,可以使用更短、更长或中间的重叠长度。应该理解用于组装反应的不同输入核酸之间的重叠(5'或3'区域)可以有不同长度。在一些实施方式中,锚定结合支持物的(或固定的)寡核苷酸包含具有重叠区域的序列区域以帮助预定核酸序列的组装。在优选实施方式中,锚定寡核苷酸包含具有互补区域的序列区域,所述互补区域用于与不同寡核苷酸或与多核苷酸杂交(例如子组装产物)。所述互补区域指在固定模板寡核苷酸(如模板寡核苷酸)3’末端或5’末端的序列区域。在一些实施方式中,所述互补区域位于所述锚定寡核苷酸的3’末端。互补区域指能与第二寡核苷酸或多核苷酸5’末端或3’末端杂交的第一寡核苷酸或多核苷酸的3’末端或5’区域。
[0054]
在一些实施方式中,使用基于连接酶的组装技术来组装核酸,其中设计所述寡核苷酸以提供靶多核苷酸构建物的全长正义链(或正链)和反义链(或负链)。正义和反义寡核苷酸杂交后,各链上的寡核苷酸经过连接,从而形成靶多核苷酸构建体或子组装产物。参考
文献是美国专利号5,942,609,其全文纳入本文。基于连接酶的组装技术可以涉及一种或多种合适的连接酶,所述酶能催化临近3'和5'核酸末端的共价连接(如在互补模板核酸上退火的核酸的5'磷酸和3'羟基,从而所述3'末端紧邻5'末端)。因此,如果第一和第二核酸在模板核酸上互相临近退火,连接酶可以催化第一核酸的5'磷酸和第二核酸的3'羟基之间的连接反应。连接酶可以获自重组或天然来源。连接酶可以是热稳定的连接酶。在一些实施方式中,可以使用来自嗜热生物的热稳定连接酶。热稳定dna连接酶的例子包括但不限于:tth dna连接酶(来自嗜热栖热菌(thermus thermophilus),可来自例如欧基公司(eurogentec)和genecraft公司);pfu dna连接酶(来自激烈火球菌(pyrococcus furiosus)的超嗜热连接酶);taq连接酶(来自水生栖热菌(thermus aquaticus)),(来自epicenter生物技术公司)任何其他合适的热稳定连接酶,或其任意组合。在一些实施方式中,可以使用一种或多种较低温度的连接酶(如t4 dna连接酶)。更低温度的连接酶可以用于可能在更高温度下不稳定的更短突出端(如约3、约4、约5、或约6个碱基的突出端)。非酶促技术,例如化学连接,可用于连接核酸。
[0055]
多重多核苷酸合成
[0056]
当前对化学合成多核苷酸的广泛应用有很大兴趣。该应用包括从基因组序列数据对合成克隆进行直接合成、大基因库的合成和全合成基因组的合成。多核苷酸合成领域的主要目标之一是快速廉价地合成大量多核苷酸。应理解多核苷酸合成成本的主要部分是进行多核苷酸合成反应的试剂成本。为了降低成本,反应可在较小体积中进行。例如,反应可在微流体中进行。或者如本文一些方面所述,在多重多核苷酸合成中,多个不同多核苷酸可在单一合成反应体积内合成。
[0057]
用于产生具有预定序列的多个核酸的多重核酸组装反应的某些实施方式参照图1-16来说明。应理解本文所述的合成和组装方法(包含,例如,寡核苷酸合成、分步组装、多重核酸组装、核酸片段的等级组装或其任意组合)可以任意合适的模式实施,包含在反应试管中、在多孔平板中、在表面上、在柱中、在微流体装置(例如,微流体管)中、毛细管中等。
[0058]
在多重组装反应(例如,多重的酶介导反应、多重化学组装反应或其组合)中可以从多个不同起始核酸(例如,寡核苷酸)组装成预定的核酸片段。通过对多重寡核苷酸组装反应的某些实施方式的以下描述显示了多重核酸组装反应的某些方面。应该理解寡核苷酸环境下组装反应的描述并不意在构成限制。可以使用从一个或多个不同来源(例如,合成或天然多核苷酸、核酸扩增产物、核酸降解产物、寡核苷酸等)得到的起始核酸来实施本文所述的组装反应。起始核酸可以被称为组装核酸(例如,组装寡核苷酸)。如本文所用,组装核酸具有的序列设计为待纳入组装过程所产生核酸产物中的序列。然而,应该理解在双链核酸环境下组装反应的描述并不意在构成限制。在一些实施方式中,在图中所示和本文所述的起始核酸的一个或多个可以单链核酸提供。因此,应理解当图和说明表示粘性末端双链核酸的组装时,考虑一个或多个单链核酸的存在。
[0059]
在各个实施方式中,靶核酸首先可被分成两个或更多重叠的核酸片段(子组装片段)。每个核酸片段然后被再分为两个或更多的重叠的更小核酸片段。在一些实施方式中,所述靶核酸可通过下述方法组装;递归组装或分级组装、系列组装或平行组装。
[0060]
可以使用任意合适的技术来合成寡核苷酸。例如,可以在柱或其它支持物(例如,芯片)上合成寡核苷酸。基于芯片的合成技术的例子包含自combimatrix、安捷伦
(agilent)、艾菲美特(affymetrix)或其它来源可得的合成装置或方法中使用的技术。合成寡核苷酸可以是任意合适的大小,例如10-1000个核苷酸长(10-200、200-500、500-1000个核苷酸长或其任意组合)。组装反应可以包含多个寡核苷酸,每个寡核苷酸的长度可以各自独立为10-300个核苷酸(例如,20-250、30-200、50-150、50-100或任意中间数的核苷酸)。然而,在某些实施方式中可以使用一个或多个较短或较长的寡核苷酸。
[0061]
如本文所用,寡核苷酸可以是包括至少两个共价结合的核苷酸残基的核酸分子。在一些实施方式中,寡核苷酸长度可以是10-1000个核苷酸。例如,寡核苷酸长度可以是10-500个核苷酸,或500-1000个核苷酸。在一些实施方式中,寡核苷酸长度可以是约20-约300个核苷酸(例如,约30-250、40-220、50-200、60-180,或约65或约150个核苷酸)、约100-约200、约200-约300个核苷酸、约300-约400、或约400-约500个核苷酸。然而,可以使用更短或更长的寡核苷酸。寡核苷酸可以是单链核酸。然而,在一些实施方式中,可以如本文所述使用双链寡核苷酸。在某些实施方式中,寡核苷酸可以是化学合成的,如以下详述。在一些实施方式中,可以在使用前扩增输入的核酸(例如,合成寡核苷酸)。所得的产物可以是双链的。
[0062]
在某些实施方式中,每条寡核苷酸可以设计成具有与待组装的预定靶核酸的序列的不同部分相同的序列。因此,在一些实施方式中,每条寡核苷酸可以具有与双链靶核酸的两条链之一的部分相同的序列。为清楚起见,双链核酸的两条互补链在本文中被称为正链(p)和负链(n)。这种名称并不意在暗示链是编码序列的正义链和反义链。它们仅仅是指核酸(例如,靶核酸,中间体核酸片段等)的两条互补链,无关核酸的序列或功能。因此,在一些实施方式中,p链可以是编码序列的正义链,而在其它实施方式中,p链可以是编码序列的反义链。应理解本文提及的互补核酸或互补核酸区域是指具有互相反向互补使得它们能够以天然dna典型的反向平行方式杂交的核酸或其区域。
[0063]
按照本发明的一个方面,靶核酸可以是p链、n链或包括p链和n链的双链核酸。应理解不同的寡核苷酸可以被设计为具有不同的长度。在一些实施方式中,一种或多种不同的寡核苷酸可以具有重叠的序列区域(例如,重叠的5'区域和/或重叠的3'区域)。重叠序列区域可以是相同的(即对应核酸片段的相同链)或互补的(即对应核酸片段的互补链)。多种或多个寡核苷酸可以包含一个或多个有重叠相同序列区域的寡核苷酸对、一个或多个有重叠互补序列区域的寡核苷酸对或其组合。重叠序列可以具有任何合适的长度。例如,重叠序列可以包括在组装反应中使用的一个或多个核酸的全长。重叠序列可以是约2-约50(例如,3-20、3-10、3-8、或4、5、6、7、8、9个等核苷酸长)。然而,可以使用更短、更长或中间的重叠长度。应该理解用于组装反应的不同输入核酸之间的重叠可以有不同长度和/或序列。例如,重叠序列可以与另一个序列差异至少1个核苷酸、2个核苷酸、3个核苷酸或更多。假定重叠序列间彼此差异x个核苷酸,那么多至(4
x
1)段的不同输入核酸可以在一个反应中组装在一起。
[0064]
在一个设计为产生预定核酸片段的多重寡核苷酸组装反应中,在反应中不同寡核苷酸的合并序列可以在正链、负链、两条链或正链的部分和负链的部分的结合上跨越完整核酸片段的序列。多个不同的寡核苷酸可以对应待组装核酸片段的完整序列提供正链序列、负链序列或正链和负链序列的组合。在一个实施方式中,多个寡核苷酸可以包含具有与核酸片段正链序列的一个或多个部分相同的序列的一个或多个寡核苷酸,以及具有与核酸
片段负链序列的一个或多个部分相同的序列的一个或多个寡核苷酸。一对或多对不同的寡核苷酸可以包含与本文所述的预定核酸片段序列的重叠部分相同的序列(例如,来自核酸片段相同链或核酸片段互补链的重叠序列部分)。在一些实施方式中,多个寡核苷酸包含所含序列联合跨越预定核酸片段的完整正链序列的寡核苷酸组和所含序列联合跨越预定核酸片段的完整负链序列的寡核苷酸组。然而,在某些实施方式中,多个寡核苷酸可以包含一个或多个所含序列与核酸片段的一条链(正链或负链)上的序列部分相同的寡核苷酸,但是不包含所含序列与这些序列部分互补的寡核苷酸。在一个实施方式中,多个寡核苷酸仅包含所含序列与预定核酸片段的正链序列的部分相同的寡核苷酸。在一个实施方式中,多个寡核苷酸仅包含所含序列与预定核酸片段的负链序列的部分相同的寡核苷酸。这些寡核苷酸可以通过依次连接或在基于延伸的反应(例如,如果向反应中加入具有3'区域与多个寡核苷酸其中之一互补的寡核苷酸)中组装。
[0065]
在一个方面,核酸片段可以在连接酶介导的组装反应中组装自在一轮或多轮连接酶介导的连接中合并并连接的多个寡核苷酸。基于连接酶的组装技术可以涉及一种或多种合适的连接酶,所述酶能催化临近3'和5'核酸末端的共价连接(如在互补模板核酸上退火的核酸的5'磷酸和3'羟基,从而所述3'末端紧邻5'末端)。因此,如果第一和第二核酸彼此相邻地在模板核酸上退火,连接酶可以催化所述第一核酸的5'磷酸和第二核酸的3'羟基之间的连接反应。
[0066]
应理解多重多核苷酸组装反应可在单一体积例如孔中进行,或可在局部单独微体积中进行。在一些实施方式中,所述延伸和/或组装反应在微滴中进行(见pct申请pct/us2009/55267和pct申请pct/us2010/055298,各通过引用全文纳入本文)。
[0067]
生成多重补偿双链体
[0068]
本发明一些方面涉及用于采用粘性末端组装的二聚体补偿双链体(本文也称为补偿二聚体)的生成。图2显示多重补偿双链体(或二聚体)制备的示例方法。图2详细显示补偿二聚体构建嵌段(双链突出端寡核苷酸)的多重制备。例如,如图2所示,可进行3n反应。在示例性实施方式中,对于2kb聚体,可使用n=20和60个反应孔。参考图2a,第一、第二、第三等补偿二聚体的各核酸(如基因)的上方链(单撇号[']标记)可通过扩增结合支持物的模板寡核苷酸(如来自芯片)来生成,从而各基因的第一补偿二聚体有单一反应,各基因的第二补偿二聚体有第二反应等。上方链的数量可放大至n,其中n是组成最终核酸结构的片段的数量(例如对于2kb聚体的100bp片段,n可为20)。在一些实施方式中,结合支持物的所述模板寡核苷酸可设计为具有5'和3'扩增序列,例如通用扩增标签。可进行错误矫正并可移除通用扩增标签。参考图2b,可进行所述补偿二聚体的下方链(双撇号[
″
]标记)的相似反应组。此时,可进行错误矫正并可移除通用扩增标签。例如,扩增标签可使用iis型限制性酶移除。参考图2c,来自反应孔的上方链和下方链以配对形式混合,所述孔对应于各基因的第一、第二、第三等补偿二聚体(所述第一补偿二聚体的上方链和下方链孔混合入第一补偿二聚体孔,所述第二补偿二聚体的上方链和下方链孔混合入第二补偿二聚体孔,等)。然后可使所得产物熔解并再退火以形成对应补偿二聚体。
[0069]
应理解单个待组装的片段的浓度的变化可能造成不完整中间构建体的组装。例如,在使用寡核苷酸a、b、c、d、e、f组装靶核酸序列(abcdef)中,每个寡核苷酸具有合适的粘性突出末端,如果个体片段的浓度不是等摩尔的(例如,如果a、b和c的浓度高于d、e和f的浓
度),可能形成终止物质(如ab和bc)产生未连接的中间产物的混合物。为了避免形成不完整的中间构建体,可以从个体片段的至少两个池(例如,池1:a、c、e和池2:b、d、f)组装靶核酸。在一些实施方式中,两个池中的每个包含多个核酸片段,第一池的每个核酸片段具有与第二池中的核酸片段的末端互补的末端。在一些实施方式中,可以通过将寡核苷酸群分为至少两个池并且在每个反应池中单独扩增寡核苷酸来形成至少两个池。在其他实施方式中,可以通过从第一寡核苷酸阵列释放(例如,通过洗脱、切割或扩增)寡核苷酸到第一池中并且通过释放第二寡核苷酸阵列的寡核苷酸到第二池中来形成至少两个池。在另一个实施方式中,可以如本文所述通过使用至少两组不同的扩增标签扩增寡核苷酸序列来形成至少两个不同的池。例如,可以稀释包含寡核苷酸b、d和f的第二池使得在第二池中存在的寡核苷酸b、d和f的摩尔浓度低于在第一池中存在的寡核苷酸a、c和e的摩尔浓度。例如,在第二池中的寡核苷酸的摩尔浓度可以低至第一反应池中寡核苷酸的摩尔浓度约1/2、1/10、1/20、1/50、1/100或更低。在混合和连接两个池之后,所得的产物包含具有预定序列的靶核酸并且可以与第一池的过量寡核苷酸分离。在某些实施方式中,需要形成具有不同摩尔浓度的寡核苷酸二聚体的池。例如,可以使用至少两个不同的池进行靶核酸序列abcdefgh的组装,第一池包含寡核苷酸a、b、e、f而第二池包含寡核苷酸c、d、g、h。可以稀释第二池使得寡核苷酸c、d、g、h的摩尔浓度低于寡核苷酸a、b、e、f的摩尔浓度(例如,1/10或1/100)。具有合适粘性突出末端的寡核苷酸可以在第一池中连接形成中间产物ab和ef并在第二池中形成中间产物cd和gh。由于c、d、g、h的摩尔浓度低于a、b、e、f的摩尔浓度,cd和gh的摩尔浓度低于ab和ef的摩尔浓度。在连接条件下混合中间产物ab、cd、ef、gh之后,可以从过量的二聚体ab和ef中分离出包含具有预定序列的靶核酸的所得产物。
[0070]
系列多重多核苷酸合成(系列mps)
[0071]
在一些实施方式中,所用珠上具有多个双链锚定寡核苷酸,所述多个双链锚定寡核苷酸具有对应于n种不同所需多核苷酸(如多核苷酸a、b、c、d
……
n)的连接突出端,其上随后添加有后续构建体寡核苷酸组,其设计为与所述锚定寡核苷酸杂交和连接。所述构建体寡核苷酸可包括具有突出端的双链寡核苷酸,并可在分离池中制备。例如,第一池可含所有第一构建体寡核苷酸{a1,b1,c1,d1...n1},且第二池可含所有第二构建体寡核苷酸{a2,b2,c2,d2,...n2}等
……
对应于所需n种不同多核苷酸。所述寡核苷酸可设计为,a1杂交多核苷酸a的锚定寡核苷酸,形成无缺口的可连接接合,并且与所有其他寡核苷酸锚定正交。同样,a2设计为与a1杂交,形成无缺口的可连接接合,并且与溶液中所有其他寡核苷酸锚定正交。
[0072]
为了在单一反应体积中合成多个多核苷酸,可进行系列添加和清洗的组。在一些实施方式中,所有第一双链具突出端的第一构建体寡核苷酸{al,bl,ci,d1,...n1}加入锚定物{ao,b0,co,do,...no}中,杂交并清洗后形成{a0a1,b0b1,c0c1,d0d1,...n0n1}。接下来加入第二双链具突出端的构建体寡核苷酸{a2,b2,c2,d2...n2},杂交、连接并清洗形成{a0a1a2,b0b1b2,c0c1c2,d0d1d2,...n0n1n2}。可重复该过程直到形成所需长度的n种多核苷酸的组。
[0073]
示例性的n可为100多核苷酸,各多核苷酸长度为1000个核苷酸碱基对(1kbp)。在示例性实施方式中,各具突出端的多核苷酸长度可为100bp。在该实施方式中,为了构建长度为1kbp的所需n种多核苷酸,需要寡核苷酸{al,bl,ci,d1...n1}至{a10,b10,c10,
d10,...n10}的约10组系列添加。在该实施例中,杂交接合的总数为100个不同多核苷酸*10个寡核苷酸/多核苷酸=1000。每反应体积合成的核苷酸碱基对的总数为:100个多核苷酸*1000bp=100000bp。在典型基因合成中,组装反应10微板反应体积可用于组装单一1000bp基因。在多重多核苷酸组装的该示例中,相同反应体积(10μl)可用于组装100*1000bp,得到每1000bp基因的有效反应体积100nl。在一些实施方式中,产生突出端的方法得到具有不同类型突出端的分子。例如,一些分子可将第一链作为突出端,而其他链可将其他反向互补链作为突出端。为了使构建寡核苷酸的双链突出端不发生杂交,其需要具有等于杂交接合总数至少两倍的编码间隔(例如2000)。在一些实施方式中,突出端的编码间隔应大于每反应体积合成的核苷酸碱基对的总数(如100000)。这两个示例对应的最小双链突出端长度不小于:log4(2*n*m)(例如对于n=100和m=10的6碱基突出端,其中m是每多核苷酸的寡核苷酸数量);或优选地,log4(n*l),其中l是多核苷酸长度(例如对于n=100和l=1000bp的9碱基突出端),这是因为l通常远大于m。
[0074]
在另一示例性实施方式中,n=1000且l=1000bp包含每孔1000多核苷酸和每孔1百万合成的bp。本领域目前微量滴定板加工可在约1μl体积中进行。在多重多核苷酸组装的本示例中,1000*1000bp可在该单一反应体积中组装,其对应于约1nl反应体积/每1000bp构建物。
[0075]
为了得到个体多核苷酸,可制备对应于感兴趣多核苷酸的引物对并用于扩增感兴趣多核苷酸。或者,可将对应于n种体多核苷酸的分离侧接的扩增标签纳入各n各种体多核苷酸中,并且来自可再利用文库的引物对可用于扩增所需的多核苷酸。
[0076]
在系列mps的其他变化中,珠上的锚定寡核苷酸可全部具有含通用锚的相同突出端连接序列。在该示例中,第一构建体寡核苷酸组({al,bl,ci,d1,...n1})各可具有设计为连接该通用锚的一端。第一构建体寡核苷酸组连接后,可随后添加构建体寡核苷酸。那些寡核苷酸的设计可与上述系列mps过程的相同。
[0077]
图1显示利用具有突出端的寡核苷酸双链体的系列添加在基底或固体支持物(如珠)上生产具有预定序列的多核苷酸的示例性方法。参考图1a,显示各含具有独特3’突出端的结合支持物或锚定寡核苷酸双链体的珠支持物。在一些实施方式中,各珠载有对应于待合成的n种不同所需多核苷酸(如多核苷酸a、b、c、d
……
n)的不同锚定寡核苷酸。在一些实施方式中,所述突出端长度为约5-20或更多碱基。在一些实施方式中,所述固定的双链体可通过具有3'序列的寡核苷酸的杂交生成,所述3'序列与固定的锚定寡核苷酸的5'末端序列互补,从而生成具有独特游离3'突出端(本文还称为辊)的锚定双链体。在一些实施方式中,所述锚寡核苷酸可通过其5’末端固定在所述珠支持物上。参考图1b,在下一步骤中,添加额外补偿(即突出端)寡核苷酸双链体以允许合成更长的构建体。参考图1c,连续添加补偿双链体或二聚体(i,ii,iii,iv)允许合成子组件或全长构建体。在一些实施方式中,所述多个固定双链体可经连接。例如,可用连接酶在各添加步骤进行连接。在各添加步骤之间可引入清洗步骤。或者,连接酶可同时加入。在一些实施方式中,可向各珠上的锚定辊结合基团数引入丰富的补偿双链体。在一些实施方式中,可利用珠表面的基因特异性扩增从各珠收获所述最终构建体。例如,可加入与待合成的靶多核苷酸特异的引物,从而扩增靶多核苷酸。
[0078]
参考图3-4,显示多重基因合成的示例方法。图3中,就构建物中的各基因制备具有突出端(补偿)锚定辊的固体支持物(如珠)(例如各珠上100种不同的锚定辊类型)。所述珠
可位于单一孔中。在一些实施方式中,所述方法可包括m步多重合成。在一些实施方式中,第一步中,随后将设计用于杂交所述具突出端的锚定辊的第一组补偿二聚体{al,bl,ci,d1..n1}混合入孔内,可使所述补偿二聚体退火并连接至其合适的锚定辊。然后清洗所述珠。然后可重复该循环(参见图4)。在m步多重合成的第二步中,现将设计用于杂交第一组补偿二聚体的第二组补偿二聚体混合入孔内,可使所述补偿二聚体退火并连接其合适的第一补偿二聚体。然后清洗所述珠。可连续进行该循环m次直到完成多重多核苷酸组装。
[0079]
在另一实施方式中(参考图5-6),珠可用单一类型的具突出端补偿锚定辊覆盖。补偿寡核苷酸二聚体{al,bl,ci,d1..n1}可设计用于锚定至常见通用锚定辊(图6中标为ua)。在一些实施方式中,可使用具突出端的长(如》200bp)双链多核苷酸替代珠,所述突出端对应于所述常见锚定序列。在一些实施方式中,可使用茎环锚定寡核苷酸(图7)。在一些实施方式中,可使所述长双链多核苷酸锚与短双链寡核苷酸分离来替代清洗步骤。例如,可通过尺寸选择例如滤器、凝胶或固相可逆固定(spri)珠来使所述长双链多核苷酸锚与短双链寡核苷酸分离。
[0080]
在一些实施方式中,所述3'突出端可用核酸发夹结构或茎环寡核苷酸生成。所述茎环结构可以通过设计在其单链序列中有互补序列的寡核苷酸来形成,由此所述单链自体折叠返回以形成双链茎和单链环。在一些实施方式中,该双链茎结构域可具有至少约10个碱基对,所述单链环具有至少3个、至少5个、至少10个、至少20个、至少50个核苷酸。所述茎可包括具突出端的双链区域,即所述茎是部分双链体。在一些实施方式中,所述茎可包含3'突出端。在示例实施方式中,所述茎环寡核苷酸的3'突出端长度与待加入的补偿双链体的3'单链突出端互补。
[0081]
图8和9显示使用每珠单一多核苷酸片段的示例性多重基因合成。参考图8,针对构建物中各基因的珠(例如1000种不同基因的1000中不同珠类型)可置于单一孔内。然后可将第一组补偿二聚体混合进入所述孔,允许其与其合适珠辊退火并连接。然后所述珠可经清洗,完成m步多重合成中的第一步。参考图9,现在可将第二组补偿二聚体混合进入所述孔,允许其与其合适第一补偿二聚体退火并连接。然后所述珠可经清洗,完成m步多重合成中的第二步。可连续进行该循环m次直到完成多重基因组装。
[0082]
图10a的示意图代表核酸的熔解和再退火以形成末端具有正确序列的mps补偿二聚体,其彼此杂交以形成较长多寡核苷酸。图10b显示用于形成mps补偿二聚体示例序列,a'l-a"1(seq id no 1,seq id no 2),b'l-b"1(seq id no 3,seq id no 4),a'2-a"2(seq id no 5,seq id no 6)和b'2-b"2(seq id no 7,seq id no 8)。
[0083]
分级多重多核苷酸合成
[0084]
应理解增加所需多核苷酸构建效率的方法是减少构建过程中的步骤数量。在一些实施方式中,所述多核苷酸使用分级构建方法来合成,其中从构建阵列数轮转移后,多个锚阵列可以本身用作下面步骤的构建阵列。
[0085]
在一些实施方式中,为了减少顺序mps中所需的加工步骤总数,可使用称为分级mps的过程,其中寡核苷酸可成对且分级地组装。作为构建n种不同多核苷酸(各由8种寡核苷酸组成)的示例,可进行下述3组分级反应:
[0086]
1]第一组(4)平行反应:
[0087]
{al,bl,ci,d1...n1} {a2,b2,c2,d2...n2}
[0088]
{a3,b3,c3,d3...n3} {a4,b4,c4,d4...n4}
[0089]
{a5,b5,c5,d5...n5} {a6,b6,c6,d6...n6}
[0090]
{a7,b7,c7,d7...n7} {a8,b8,c8,d8...n8}
[0091]
2]第二组(2)平行反应:
[0092]
{a1a2,b1b2,c1c2,d1d2...n1n2} {a3a4,b3b4,c3c4,d3d4...n3n4}
[0093]
{a5a6,b5b6,c5c6,d5d6...n5n6} {a7a8,b7b8,c7c8,d7d8...n7n8}
[0094]
3]第三反应:
[0095]
{al a2a3a4,b1b2b3b4,c1c2c3c4,d1d2 d3d4...n1n2 n3n4}
[0096]
{a5a6a7a8,b5b6b7b8,c5c6c7c8,d5d6d7d8...n5n6n7n8}
[0097]
上述反应可产生n种多核苷酸,各为8寡核苷酸长。通常,分级反应的数量等于log2[m],其中m是每个多核苷酸中的寡核苷酸数量。
[0098]
与顺序mps相同,各杂交/连接反应一次仅涉及一种连接。虽然分级mps构建不包括清洗步骤,应理解只要跨连接的重叠足够相异或未连接材料浓度足够低,则正确的组装占优势。分级方法具有减少操作数量和缩短总加工时间的优势。
[0099]
系列和分级mps均可适用于长构建体(如》1kb),因为就各构建体而言各步骤仅涉及一种连接。
[0100]
图11是分级mps的示意图,其中第一多重反应中,第一补偿二聚体与第二补偿二聚体杂交并连接,且第三补偿二聚体与第四补偿二聚体杂交并连接,从而:
[0101]
{al,bl,ci,d1...n1} {a2,b2,c2,d2...n2}
→
{a1a2,b1b2,c1c2,d1d2...n1n2}{a3,b3,c3,d3...n3} {a4,b4,c4,d4...n4}
→
{a3a4,b3b4,c3c4,d3d4...n3n4}
[0102]
第二多重反应中,上述反应的两种产物杂交并连接以产生最终产物,从而:
[0103]
{a1a2,b1b2,c1c2,d1d2...n1n2} {a3a4,b3b4,c3c4,d3d4...n3n4}
→
[0104]
{a1a2a3a4,b1b2b3b4,c1c2c3c4,d1d2 d3d4...n1n2n3n4}
[0105]
在上述示例中总计3n种接合。这些接合可设计为至少在各分级阶段正交,从而脱离靶杂交和连接的可能性保持较低。
[0106]
平行多重多核苷酸合成
[0107]
在一些实施方式中,本文称为平行mps,可制备具有充足编码间隔的双链突出端寡核苷酸,从而许多接合可独特地汇集在一起并连接,而发生错误连接导致脱离靶向连接的可能性很小。在示例实施方式中,平行mps可用于组装10种寡核苷酸的20种构建体,各为200种接合。
[0108]
本领域技术人员应理解平行mps的一个益处是仅需单一反应。最终构建物大小可能受到终止反应和“束缚态(trapped state)”的限制,其中可形成成对中间产物例如a1a2和a2a3。这可防止形成产物a1a2a3。为了克服该问题,提供对构建寡核苷酸浓度进行滴定的方式。
[0109]
图12是平行mps的示意图,其中单一多重反应中,第一、第二、第三和第四补偿二聚体进行杂交,产生最终产物,从而:
[0110]
{a1,b1,c1,d1...n1} {a2,b2,c2,d2...n2} {a3,b3,c3,d3...n3} {a4,b4,c4,d4...n4}
→
{a1 a2a3a4,b1b2b3b4,c1c2c3c4,d1d2d3d4...n1n2n3n4}
[0111]
如上示例所示,总计3n种接合。这些3n种接合可设计为彼此全局正交,从而靶杂交
和连接脱离的可能性保持较低。
[0112]
图13显示多补偿二聚体组装的终止反应的可能性。图13a是3个补偿二聚体a、b和c的示意图,其设计为杂交并连接至最终产物abc。若补偿二聚体b丰富,则可能出现束缚态或终止反应,其中形成产物ab和bc,妨碍了所需产物abc的形成(图13b)。
[0113]
图14的示意图代表多补偿二聚体组装中终止反应的第一示例解决方案,其使用特定的凹型补偿二聚体浓度分布(就内部二聚体而言浓度较低)。该分布可减少终止产物的形成。
[0114]
图15的示意图代表多补偿二聚体组装中终止反应的第二示例解决方案,其使用系连接酶,从而溶液中不形成终止产物。而是只有补偿二聚体可在珠表面顺序连接。该方法仍构成平行mps,因为给定多核苷酸的所有补偿二聚体可平行引入溶液。
[0115]
图16的示意图代表多补偿二聚体组装中终止反应问题的第三示例解决方案,其使用珠来捕获定量的各补偿二聚体,从而滴定测量各补偿二聚体的数量并使形成终止产物的可能性最小化。
[0116]
序列分析以及片段设计和选择
[0117]
本发明一些方面包含在靶核酸序列内基于区域的鉴定,分析靶核酸的序列并且设计组装策略,鉴定的区域可用于产生合适的粘性末端(例如,单链突出端)。可以使用这些区域来限定可以被组装(例如,在一个反应中)来产生靶核酸的核酸片段的末端。然后核酸片段可得以提供或制备(例如,在多重组装反应中)。可以选择核酸片段,使得它们具有相对均一的大小以易于处理(例如,通过纯化)。
[0118]
按照一些实施方式,可以计算机辅助方式设计和/或分析核酸序列来产生一组经解析的双链或单链寡核苷酸。如本文所用,术语“经解析的”表示靶核酸的序列已有描绘,例如以计算机辅助的方式,使得能鉴定一系列相邻的寡核苷酸序列。相邻的寡核苷酸或核酸片段优选由合适数量的核苷酸重叠来促进按照本发明的方法的组装。可以单独合成寡核苷酸序列并且用本发明的方法组装。
[0119]
在一些实施方式中,可以分析靶核酸序列来鉴定在靶核酸的一条链上含有至少一个不同核苷酸的多个区域。
[0120]
可以使用这些区域来产生粘性末端。应理解粘性末端的长度可足以提供特异性。例如,粘性末端可以足够长以具有足够不同的序列(例如,至少1-碱基差异)来防止或减少相似粘性末端之间的错配。然而,粘性末端的长度可能并不足以稳定相似粘性序列之间的错配。在一些实施方式中,可以使用约3-约10个碱基的长度。然而,对于用于产生粘性突出端的区域,可以选择任意合适的长度。特异性的重要性可以取决于同时组装的不同片段的数量。另外,为避免使错配区域稳定所需要的合适长度可能取决于用于退火不同粘性末端的条件。
[0121]
在一些实施方式中,可以选择交替的区域,如果它们相隔的距离限定的片段具有组装设计的合适长度。在一些实施方式中,可以由约100-约500个碱基分隔交替的区域。在一些实施方式中,所述交替的区域可由约100碱基、约200碱基、约300碱基或约500碱基分隔。然而,可以选择任意合适的更短或更长的距离。例如,可以由约200-约1000个碱基来分隔粘性区域。在一些实施方式中,所述交替的区域可由约300碱基、约400碱基、约600碱基、约700碱基、、约800碱基、约900碱基、约1000碱基分隔。应理解可以得到交替区域的不同模
式,这取决于几个因素(例如,取决于靶核酸的序列、粘性末端的选择长度和需要的片段长度)。在一些实施方式中,如果数个选项可选,可以选择区域来最大化不同粘性末端之间的序列差异。
[0122]
粘性区域的选择限定了将被组装产生靶核酸的片段。因此,根据靶核酸,片段可以为约100-约500个碱基对长、约200-约1000个碱基长,或更短或更长。在一些实施方式中,所述片段大小可为约100碱基、200碱基、300碱基、400碱基、500碱基、600碱基、700碱基、800碱基、900碱基、1000碱基。可以使用任意合适的技术产生或得到片段。在一些实施方式中,可以组装(例如,在多重双链组装反应中)每个片段使得其由可用于产生粘性单链区域的双链区域侧接。
[0123]
在一些实施方式中,提供用于根据靶核酸的序列信息允许靶多核苷酸组装的方法。在一些实施方式中,可以使用计算机软件来解析靶序列(例如,a
1-an),将其分为一组特定长度的重叠寡核苷酸(a
1,a2,a3,
…an
)。可以从芯片或微阵列上合成寡核苷酸a
1,a2,a3,
…an
。
[0124]
支持物
[0125]
本文使用的术语“支持物”和“基底”可互换使用,并且是指多孔或非孔的溶剂不溶性材料,在其上合成或固定聚合物例如核酸。本文使用的多孔摂是指所述材料包含有基本一致直径(例如nm范围内)的孔。多孔材料可以包含但不限于,纸张、合成过滤器等。在这种多孔材料中,所述反应可以在孔中进行。所述支持物能有很多形状中的任意一种,例如销、条、板、盘、杆、弯曲、圆柱形结构、颗粒(包含珠、纳米颗粒)等。所述支持物可有可变宽度。
[0126]
支持物可以是亲水性的或能够呈现出亲水性的。所述支持物可以包含无机粉末如二氧化硅、硫酸镁、和氧化铝;天然聚合材料,特别是纤维素材料和纤维素衍生材料,例如包含纤维的纸,如滤纸、色谱纸等;合成或改性天然产生的聚合物,如硝酸纤维素、乙酸纤维素、聚(氯乙烯)、聚丙烯酰胺、交联葡聚糖、琼脂糖、聚丙烯酸酯、聚乙烯、聚丙烯、聚(4-甲基丁烯)、聚苯乙烯、聚甲基丙烯酸酯、聚(对苯二甲酸乙二酯)、尼龙、聚(丁酸乙烯酯)、聚偏二氟乙烯(pvdf)膜、玻璃、可控孔度玻璃、磁性可控孔度玻璃、陶瓷、金属等;这些材料或单独使用或与其他材料联用。
[0127]
在一些实施方式中,在阵列形式上合成寡核苷酸。例如,在常见支持物上原位合成单链寡核苷酸,其中在基底上的单独或离散的特征(或点)上合成各寡核苷酸。在优选实施方式中,单链寡核苷酸结合到所述支持物或特征的表面上。本文所用的术语“阵列”是指用于进一步反应存储、定向(routing)、扩增和释放寡核苷酸或互补寡核苷酸的离散特征的排列。在优选实施方式中,所述支持物或阵列是可寻址的:所述支持物包含在所述支持物上特定预定位置(即“地址”)上的两个或更多离散的可寻址特征。因此,阵列上的各寡核苷酸分子位于所述支持物上已知和确定的位置。各寡核苷酸序列能从所述支持物上其位点来确定。另外,可寻址的支持物或阵列能够直接控制单独分离的体积如液滴。可以选择限定特征的大小来使得在所述部位上形成微体积的液滴,每个液滴保持互相分离。如本文所述,多个特征通常(但不必需)由部位间的间隔分离从而确保两个相邻部位之间的液滴不会融合。特征间通常在其表面上不携带任何寡核苷酸,并且对应惰性空间。在一些实施方式中,特征间和特征通常在其亲水性或疏水性性质上不同。在一些实施方式中,特征间和特征可以包含本文所述的改性剂。
[0128]
阵列可以被构建、定制或购自供应商(例如,combimatrix、安捷伦公司(agilent)、
艾菲美特公司(affymetrix)、nimblegen产品)。寡核苷酸被连接、点样、固定、表面结合、支持或合成在表面或阵列的离散特征上。寡核苷酸可以共价连接到表面或在表面上沉积。各种构建方法为本领域熟知,如无掩膜阵列合成器、利用掩膜的光导向法、流动通道方法、点样法(spotting method)等。
[0129]
在另一个实施方式中,多个寡核苷酸可以合成或固定(如连接)在多个支持物(如珠)上。一个示例是描述于例如美国专利号5,770,358、5,639,603和5,541,061的基于珠的合成方法。为了在珠上合成分子例如寡核苷酸,大量的珠悬浮于容器中的合适运载体(如水)中。所述珠具有任选的间隔子分子,所述分子有供复合的活性位点,任选地是保护基团。在合成的各步骤中,所述珠分到多个容器中来偶联。新生寡核苷酸链脱保护后,不同单体溶液加入到各容器中,从而在给定容器内的所有珠上,发生相同的核苷酸加成反应。然后,所述珠用过量试剂洗涤,并入单个容器中,混合并重新分到另一组多个容器以准备下一轮合成。应注意到由于在开始利用了大量珠,相似地在容器内随机分布了大量珠,在多轮随机加入碱基后,各自在其表面具有合成的独特寡核苷酸序列。个体珠可标记有对其上的双链寡核苷酸而言独特的序列,以允许应用过程中的鉴定。
[0130]
在另一个实施方式中,可以在纳米颗粒上连接或合成多个寡核苷酸。纳米颗粒包括但不限于金属(例如,金、银、铜和铂)、半导体(例如,cdse、cds和用zns涂覆的cds)和磁性(例如,铁磁体)胶体材料。将寡核苷酸连接到纳米颗粒的方法在本领域中已知。在另一个实施方式中,纳米颗粒连接到基底上。含有或不含固定的寡核苷酸的纳米颗粒可以连接到基底上,如grabar等,analyt.chem.,67,73-743(1995);bethell等,j.electroanal.chem.,409,137(1996);bar等,langmuir,12,1172(1996);colvin等,j.am.chem.soc.,114,5221(1992)中所述。裸纳米颗粒可以首先连接到基底上并且寡核苷酸可以连接到固定的纳米颗粒上。
[0131]
预合成的寡核苷酸和/或多核苷酸序列可连接至支持物或用下述方法原位合成:本领域已知的光定向法、流体通道和定点法、喷墨法、销型方法(pin-based method)和珠型方法。在一些实施方式中,预合成的寡核苷酸连接到支持物上或使用点样方法合成,其中单体溶液通过从区域到区域移动的分配器(如喷墨)逐滴置入。在一些实施方式中,使用例如机械波驱动的分配器将寡核苷酸点样在支持物上。
[0132]
单链突出端
[0133]
在某些实施方式中,相邻核酸片段之间的重叠互补区域设计(或选择)成有足够的差异来促进(例如,热力学上有利)核酸片段的唯一排列(例如,选定或设计的片段排列)。令人惊讶地,在合适的连接条件下,少至一个核苷酸的差异在完美匹配(100%互补粘性末端)和错配(低于100%的互补粘性末端)之间产生足够的区分力。如此,4-碱基突出端允许高至(4^4 1)=257个不同片段的高特异性和高保真连接。
[0134]
应理解可以使用不同长度的重叠区域。
[0135]
在一些实施方式中,当组装较大数量的核酸片段时,可以使用较长的粘性末端。较长的粘性末端可以提供更多的灵活性来设计或选择充分区别的序列来区分正确粘性末端退火(例如,涉及设计互相退火结合的粘性末端)和错误粘性末端退火(例如,在非互补粘性末端之间)。
[0136]
为了实现这样的高保真组装,可以使用一个或多个合适的连接酶。
[0137]
连接酶可以获自重组或天然来源。在一些实施方式中,可以使用t3 dna连接酶、t4 dna连接酶、t7 dna连接酶和/或大肠杆菌dna连接酶。这些连接酶可以在相对低的温度下(例如,室温)使用并且特别用于相对短的突出端(例如,约3、约4、约5或约6个碱基的突出端)。在某些连接反应(例如,室温下30分钟的孵育)中,对于多重方式的连接,t7 dna连接酶可以比其它连接酶更高效。也可以使用热稳定的连接酶,如tth dna连接酶、pfu dna连接酶、taq连接酶、任意其它合适的热稳定的连接酶或其任意组合中的一个或多个。
[0138]
在一些实施方式中,可以在不同核酸片段间设计或选择两对或更多对互补粘性末端使其具有相同或相似的序列来促进产物的组装,所述产物含有相对随机排列(和/或数量)的具有相似或相同粘性末端的片段。这可以用于产生具有某些内部序列区域的不同序列排列和/或不同拷贝数量的核酸产物的库。
[0139]
应注意为了确保连接特异性,突出端可以被选择或设计为对每个连接位点唯一,即被设计为在组装产物中相邻的两个片段的每对互补突出端应该是唯一的并且与任何其它对互补突出端的差异至少1个核苷酸。
[0140]
也可以使用其它用于产生粘性末端的方法。例如,可以使用基于聚合酶的方法(例如,t4 dna聚合酶)来合成需要的粘性末端。无论用何种方法产生特异性突出端(例如,用于设计在组装核酸产物中相邻的核酸的互补突出端),可以设计和/或产生不同长度的突出端。在一些实施方式中,可以使用长单链突出端(3'或5')来促进特异性和/或高效组装。例如,3'或5'单链突出端可以长于8个碱基长,例如长8-14、14-20、20-25、25-50、50-100、100-500个或更多碱基。
[0141]
高保真组装
[0142]
按照本发明的方面,可以在单个过程中组装多个核酸片段,其中在促进片段的共价组装的条件下将多个片段混合在一起来产生特异性的较长核酸。按照本发明的方面,可以使用连接酶在体外共价组装多个核酸片段。在一些实施方式中,可以组装5个或更多(例如,10个或更多、15个或更多、15-20、20-25、25-30、30-35、35-40、40-45、45-50、50个或更多等)不同的核酸片段。然而,应理解可以使用合适的组装技术组装任意数量的核酸(例如,2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个等)。组装的每个核酸片段可以是约100个核苷酸-约1000个核苷酸长(例如,约200、约300、约400、约500、约600、约700、约800、约900)。然而,可以使用组装技术(例如,鸟枪组装进入质粒载体)组装更长(例如,约2500个或更多核苷酸长、约5000个或更多核苷酸长、约7500个或更多核苷酸长、约10000个或更多核苷酸长等)或更短的核酸片段。应理解每个核酸片段的大小独立于加入组装的其它核酸片段的大小。然而,在一些实施方式中,每个核酸片段可以是大约相同的大小或长度(例如,约100个核苷酸长-约400个核苷酸长)。例如,寡核苷酸的长度可以是中值长度在约100个核苷酸长和约400个核苷酸长之间,并且变化范围为约 /-1个核苷酸、 /-4个核苷酸、 /-10个核苷酸。应理解双链核酸片段的长度可以由碱基对的数量来表示。如本文所用,当称为“x”个核苷酸长的核酸片段用于双链核酸片段的内容中时对应于“x”个碱基对的长度。在一些实施方式中,在一个反应中组装的一个或多个核酸(例如,1-5、5-10、10-15、15-20个等)可以是密码子优化的和/或非天然存在的。在一些实施方式中,在一个反应中组装的所有核酸都是密码子优化的和/或非天然存在的。
[0143]
在本发明的一些方面中,组装的核酸片段被设计为具有重叠互补序列。在一些实
施方式中,核酸片段是具有3'和/或5'单链突出端的双链核酸片段。这些突出端可以是能与不同核酸片段上的互补粘性末端退火结合的粘性末端。按照本发明的方面,在两个核酸片段上的互补序列(和特定互补粘性末端)的存在促进了它们的共价组装。在一些实施方式中,组装了具有不同重叠互补单链粘性末端的多个核酸片段并且通过在每个片段上的粘性末端的特性确定它们在组装的核酸产物中的顺序。例如,可以设计核酸片段使得第一核酸具有与第二核酸的第一个粘性末端互补的第一粘性末端以及与第三核酸的第一个粘性末端互补的第二粘性末端。第二核酸的第二个粘性末端可以与第四核酸的第一个粘性末端互补。第三核酸的第二个粘性末端可以与第五核酸的第一个粘性末端互补。以此类推至最后的核酸。按照本发明的一些方面,可以使用该技术来产生含有以预定线性顺序(例如,第一、第二、第三、第四,最后)组装的核酸片段的线性排列。
[0144]
在某些实施方式中,相邻核酸片段之间的重叠互补区域设计(或选择)为有足够的差异以促进(例如,热力学上有利)核酸片段的独特排列(例如,选定或设计的片段排列)。令人惊讶地,在合适的连接条件下,少至一个核苷酸的差异在完美匹配(100%互补粘性末端)和错配(低于100%的互补粘性末端)之间产生足够的区分力。如此,4-碱基突出端允许高至(4^4 1)=257个不同片段的高特异性和高保真连接。
[0145]
应理解可以使用不同长度的重叠区域。
[0146]
在一些实施方式中,当组装较大数量的核酸片段时,可以使用较长的粘性末端。较长的粘性末端可以提供更多的灵活性来设计或选择充分区别的序列来区分正确粘性末端退火(例如,涉及设计互相退火结合的粘性末端)和错误粘性末端退火(例如,在非互补粘性末端之间)。
[0147]
为了实现这样的高保真组装,可以使用一个或多个合适的连接酶。
[0148]
连接酶可以获自重组或天然来源。在一些实施方式中,可以使用t3 dna连接酶、t4 dna连接酶、t7 dna连接酶和/或大肠杆菌dna连接酶。这些连接酶可以在相对低的温度下(例如,室温)使用并且特别用于相对短的突出端(例如,约3、约4、约5或约6个碱基的突出端)。在某些连接反应(例如,室温下30分钟的孵育)中,对于多重方式的连接,t7 dna连接酶可以比其它连接酶更高效。也可以使用热稳定的连接酶,如tth dna连接酶、pfu dna连接酶、taq连接酶、任意其它合适的热稳定的连接酶或其任意组合中的一个或多个。
[0149]
在一些实施方式中,可以在不同核酸片段间设计或选择两对或更多对互补粘性末端使其具有相同或相似的序列来促进含有相对随机排列(和/或数量)的具有相似或相同粘性末端的片段的产物的组装。这可以用于产生具有某些内部序列区域的不同序列排列和/或不同拷贝数量的核酸产物的库。
[0150]
在一些实施方式中,混合核酸片段并且用连接酶孵育。应理解在促进粘性末端的特异性退火的条件下的孵育可以增加组装(例如,正确组装)频率。在一些实施方式中,设计具有相似熔解温度(例如,互相差5℃以内)的不同粘性末端,使得在相同的条件下促进所有片段的正确退火。不同温度可以促进正确退火,所述温度取决于所用粘性末端长度。在一些实施方式中,可以使用约4-约30个核苷酸长度的粘性末端(例如,约5、约10、约15、约20、约25或约30个核苷酸长度)。孵育温度可以为约20℃-约50℃(包含,例如室温)。然而,可以使用更高或更低的温度。孵育的长度可以基于混合在一起的不同核酸的数量(和因此不同突出端的数量)、突出端的长度、突出端的复杂度来优化。孵育时间也可以取决于退火温度和
混合物中是否存在其它试剂。例如,可以加入核酸结合蛋白和/或重组酶(例如,reca,例如热稳定的reca蛋白)。
[0151]
所得的核酸复合物可以在一对靶序列特异性引物的存在下经过聚合酶链反应,来扩增并且选择正确的连接产物(例如,靶核酸)。或者,所得的核酸复合物可以被连接入合适的载体中并转化到宿主细胞中用于进一步菌落筛选。
[0152]
错误减少
[0153]
设计为具有特定序列的寡核苷酸的制品可包含具有所设计序列的寡核苷酸分子以及含有错误的寡核苷酸分子(例如,在至少一个位点上不同于所设计序列)。序列错误可能包含一个或多个核苷酸缺失、插入、取代(例如,颠换或转换)、倒位、重复或其两种或更多种的任意组合。错误可能在寡核苷酸合成期间产生。模板寡核苷酸可具有固有错误,因其通常为化学合成(例如以1/100碱基的比例缺失和约1/400碱基的比例错配和插入)。假定平均错误率为1/300碱基且平均模板寡核苷酸大小为70碱基,相比参考序列(例如,感兴趣的基因的野生型序列)每4各模板寡核苷酸中有一个将含错误。例如,模板寡核苷酸所含错误可为错配、缺失或插入。在pcr合成中,错误保留在合成的寡核苷酸中。其他错误可能通过pcr反应引入。
[0154]
应理解不同合成技术可倾向于不同错误概况和频率。在一些实施方式中,根据使用的合成方案,错误率可能在每个碱基1/10-1/200个错误之间变化。然而,在一些实施方式中,可以实现较低的错误率。另外,错误的类型可能取决于使用的合成技术。例如,在一些实施方式中,基于芯片的寡核苷酸合成相比基于柱的合成技术可能产生相对更多的缺失。
[0155]
因此,需要错误矫正的方法进行高保真的寡核苷酸合成。在一些实施方式中,一个或多个寡核苷酸制品可以经过错误降低或错误过滤过程来去除含有错误的寡核苷酸(或降低其数量或频率)。可以使用该过程来增加寡核苷酸制品中无错误寡核苷酸的数量。进行错误降低或错误过滤的方法可以包含,例如与选择寡核苷酸杂交、与错配结合试剂或错配结合蛋白结合或其组合。
[0156]
在一些实施方式中,错误校正可以纳入合成过程末期,从而增加未偏离所需序列的合成寡核苷酸的相对群。在一些实施方式中,错误矫正包括在寡核苷酸扩增之后。在其他实施方式中,可合成正链和负链并且错误矫正包括在正链和负链退火之后。
[0157]
这种错误校正可包含直接测序和/或基于校正酶(correcting enzyme)的错误校正的应用,所述校正酶例如错误校正核酸酶(如cel i、celii)、基于muts或muts同源物结合或其他错配结合蛋白(参见,例如国际申请号pct/us2010/057405)的错误校正、本领域已知的其他错误校正方式,或其任何组合。在示例性实施方式中,cel i和/或celii可加入到液体培养基中的寡核苷酸双链体中。cel i是切割所有错配类型的错配特异性内切核酸酶,例如单核苷酸多态性、小插入或删除。内切核酸酶的加入引起错配位点或区域处双链寡核苷酸的切割。
[0158]
应理解合成的寡核苷酸常具有序列错误。因此,可选择或筛选寡核苷酸制品以移除含错误的分子,如下详述。含有错误的寡核苷酸可以是在两条链上都具有错误的同源双链体(即在两条链上都有不正确的互补核苷酸、缺失或添加)。
[0159]
在一些实施方式中,错配识别可用于控制寡核苷酸合成、基因组装和长多核苷酸构建期间生成的错误。在扩增结合支持物的核酸后,核酸双链体可先经过一轮或多轮熔解
和退火(本文还称为改组)。在一些实施方式中,可使用涉及变性和再退火双链核酸的技术来移除序列错误。在一些实施方式中,若含各单独错误的核酸以低于相同位置处的序列正确的核酸的频率存在于核酸群中,所述含互补错误的单链核酸不太可能再一起退火。而是,含错误的单链可与不含错误或含一种或多种不同错误的互补链再退火。因此,含错误的链可能最终以异源双链体分子的形式存在于再退火的反应产物中。无错误的核酸链可与含错误的链或其他无错误的链再退火。再退火的无错误链在所述再退火样品中形成同源双链体。因此,通过从再退火的寡核苷酸制备物中去除异源双链体分子,可减少含有错误的核酸的量或频率。可使用除去异源双链分子的任何适当方法,包括色谱、电泳、异源双链分子的选择性结合等。在一些实施方式中,可使用选择性(例如特异性)结合异源双链体核酸分子的错配结合蛋白。在一些实施方式中,该错配结合蛋白可用于溶液中或者固定在支持物上的双链寡核苷酸或多核苷酸上。
[0160]
例如,在使用引物(如通用扩增引物)的链延伸反应(如pcr)中,化学合成的寡核苷酸可用作模板链来生产互补链。所得产物可包括无错误的互补链(与无错模板链11互补)和易错扩增的互补链(与易错模板链12互补)。在熔解条件下(如固体支持物或芯片表面上的温度增加),互补链从模板链分离。改组后,可在易错模板链和无错互补链之间可形成异源双链体。然后异源双链体可被组分(例如surveyor
tm
内切核酸酶)识别并切割。后续将切割的易错双链体移除可得到无错芯片表面。
[0161]
在一些实施方式中,使用muts过滤方法(例如使用muts、muts同源物或其组合)除去含有错误的寡核苷酸。应理解可利用固相muts移除错误。在大肠杆菌中,似乎以二聚体形式起作用的muts蛋白作为错配识别因子发挥作用。在真核细胞中,已鉴定到至少三种muts同源(msh)蛋白,即msh2、msh3和msh6,且其形成异源二聚体。例如在酿酒酵母中,msh2-msh6复合物(也称作mutsα)识别碱基错配和单核苷酸插入/缺失环,而msh2-msh3复合物(也称作mutsβ)识别最多12-16个核苷酸的插入/缺失,但其起基本冗余的作用。错配结合蛋白可以获自重组或天然来源。错配结合蛋白可为热稳定型。在一些实施方式中,可以使用来自嗜热微生物的热稳定错配结合蛋白。热稳定dna错配结合蛋白的示例包括但不限于:tth muts(来自嗜热栖热菌(thermus thermophilus))、taq muts(来自水生栖热菌(thermus aquaticus))、apy muts(来自嗜火液菌(aquifex pyrophilus))、tma muts(来自海栖热袍菌(thermotoga maritima))、其同源物、任何其他合适的muts或其中两种或多种的任意组合。
[0162]
已证明获自不同物种的muts可对特定的错配或对不同的错配具有不同的亲和性。在一些实施方式中,可使用对不同错配具有不同亲和性的不同muts的组合。
[0163]
在一些实施方式中,可使用使用一种或多种修复蛋白的酶复合物。修复蛋白的示例包括但不限于:用于错配识别的muts、用于在目标链上导入缺口的muth和用于介导muth和muts之间相互作用的mutl、其同源物或其任意组合。在一些实施方式中,错配结合蛋白复合物是muthls酶复合物。
[0164]
在一些实施方式中,滑动夹(sliding clamp)技术可用于富集无错误的双链寡核苷酸。在一些实施方式中,muts或其同源物可与dna夹蛋白(dna clamp protein)相互作用。dna夹蛋白的示例包括但不限于由dnan基因编码的细菌滑动夹蛋白dnan,其以同源二聚体的形式发挥作用。在一些实施方式中,muts蛋白(或其同源物)与夹蛋白之间的相互作用可
提高muts在结合错配中的有效性。
[0165]
在一些实施方式中,可使用来自s1蛋白家族的酶(例如celi,celii或其同源物,如resi,或其组合)去除含有错误的寡核苷酸。来自s1蛋白家族的酶可识别碱基错配、插入和缺失环。在一些实施方式中,通过仅有的一条或两条dna链,这类酶可优先结合霍利迪连结体,之后切除识别位点。在一些实施方式中,可以使用s1蛋白的热稳定等价物。。
[0166]
在一些实施方式中,含错误的寡核苷酸用结合错配碱基对的小分子、化学或无机材料移除。在错配位置,核苷酸碱基对是超螺旋的并可对化学修饰反应敏感。可在化学切割方法中使用诸如高锰酸、羟胺、赖氨酸和/或五胺钌的材料来分别修饰错配的胸腺嘧啶和胞嘧啶。随后使用哌啶处理所得修饰的dna以在脱碱基位点处引起切割。在一些实施方式中,切割特异性可用二价盐监控。
[0167]
应用
[0168]
本发明各方面可以用于涉及合成核酸的生成和/或使用的多种应用。如本文所述,本发明提供了具有提高的效率的组装合成核酸的方法。所得组装核酸可以体外扩增(如使用pcr、lcr,或任何合适的扩增技术),体内扩增(如通过克隆到合适的载体中),分离和/或纯化。组装的核酸(单独或克隆到载体中)可以转化入宿主细胞(如原核、真核、昆虫、哺乳动物或其他宿主细胞)。在一些实施方式中,所述宿主细胞可以用于增殖所述核酸。在某些实施方式中,所述核酸可以整合到所述宿主细胞的基因组中。在一些实施方式中,所述核酸可以取代细胞基因组上的对应核酸区域(如通过同源重组)。因此,核酸可以用于生成重组生物。在一些实施方式中,靶核酸可以是用于取代全部或部分宿主生物体的基因组的整个基因组或基因组大片段。重组生物也可以用于多种研究、工业、农业、和/或医学应用。
[0169]
许多本文所述的技术可以一起使用,在一个或多个点上应用合适的组装技术来产生长核酸分子。例如,可以使用基于连接酶的组装来组装低于100到超过10000个碱基对长度(例如,100聚体-500聚体、500聚体-1000聚体、1000聚体-5000聚体、5000聚体-10000聚体、25000聚体、50000聚体、75000聚体、100000聚体等)的寡核苷酸双链体和核酸片段。在示例性实施方式中,本文所述方法可以在组装生物(如病毒、细菌、酵母或其他原核或真核生物)的整个基因组(或其大片段,如约10%、20%、30%、40%、50%、60%、70%、80%、90%或更多)中使用,可选将特异性修饰整合到序列中一个或多个所需位置处。
[0170]
可以任意合适的形式(例如,在稳定的缓冲液中,冻干等)包装任意的核酸产物(例如,包含经扩增、克隆、纯化、分离等的核酸)用于存储和/或运输(例如,用于运输至分配中心或客户)。相似地,可以在合适的缓冲液中制备任意的宿主细胞(例如,用载体转化的或具有经修饰基因组的细胞)用于储存和/或运输(例如,用于分配至客户)。在一些实施方式中,可以冷冻细胞。然而,也可以使用其它稳定的细胞制品。
[0171]
宿主细胞可以在培养中生长和扩增。可以使用宿主细胞来表达一个或多个rna或感兴趣的多肽(例如,治疗用、工业用、农业用和/或医用蛋白)。表达的多肽可以是天然多肽或非天然多肽。可以分离或纯化多肽用于后续使用。
[0172]
因此,使用本发明的方法产生的核酸分子可以被纳入到载体中。载体可以是克隆载体或表达载体。在一些实施方式中,载体可以是病毒载体。病毒载体可以包含能够感染目标细胞的核酸序列。相似地,在一些实施方式中,可操作地连接至合适启动子系统的原核表达载体可以用于转化目标细胞。在其他实施方式中,可操作连接至合适启动子系统的真核
载体可以用于转染目标细胞或组织。
[0173]
本文所述的构建体的转录和/或翻译可以在体外(例如,使用不含细胞的系统)或体内(例如,在细胞中表达)进行。在一些实施方式中,可以制备细胞裂解液。在某些实施方式中,可以分离或纯化表达的rna或多肽。本发明的核酸也可以用于向表达的多肽或其片段添加检测和/或纯化标签。基于多肽的融合/标签的例子包含但不限于六组氨酸(his6)myc和ha,和其他有用的多肽,如gfp
5 gst、mbp、几丁质等。在一些实施方式中,多肽可以包含一个或多个非天然氨基酸残基。
[0174]
在一些实施方式中,可以针对由一个或多个合成核酸编码的多肽或其片段制备抗体。在某些实施方式中,合成核酸可以提供为文库用于研究和开发中的筛选(例如,鉴定潜在的治疗性蛋白或多肽,鉴定用于药物开发的潜在蛋白靶标等)。在一些实施方式中,合成核酸可用作治疗物(例如,用于基因治疗,或用于基因调控)。例如,可以向患者提供足量合成核酸以表达治疗量的蛋白。在其他实施方式中,可向患者给予足量合成核酸以调控(例如,下调)基因表达的量。
[0175]
应理解本文所述的不同运行或实施方式可以独立实施并且可以在美国或美国以外的不同地方实施。例如,接受靶核酸的订单、分析靶核酸序列、设计一个或多个起始核酸(例如,寡核苷酸)、合成起始核酸、纯化起始核酸、组装起始核酸、分离组装的核酸、确认组装的核酸的序列、处理组装的核酸(例如,扩增、克隆、插入宿主基因组等)中的每个行动和任意其它行动或这些行动中的任意部分可以在美国以内或美国以外的一个位置或不同地点单独实施。在一些实施方式中,组装过程可以包括在一个地点(在美国以内或美国以外)实施的多个行动和在一个或多个远程地点(在美国以内或美国以外)实施的多个行动的组合。
[0176]
自动化应用
[0177]
本文提供的方法和设备方面可以包含自动操作本文所述的一个或多个运行(act)。在一些实施方式中,扩增和/或组装反应中的一个或多个步骤可以使用一个或多个自动化样品处理装置(如一个或多个自动化液体或流体处理设备)来自动操作。自动化设备和方法可以用于递送反应试剂,包含下列中的一种或多种:起始核酸、缓冲液、酶(如一种或多种连接酶和/或聚合酶)、核苷酸、盐、和任何其他试剂如稳定剂。自动化设备和方法也可以用于控制反应条件。例如,自动化热循环仪可以用于控制可以使用的反应温度和任何反应循环。在一些实施方式中,扫描激光器可以被自动化以提供适于孵育多核苷酸的一个或多个反应温度或温度循环。相似地,经组装多核苷酸产物的后续分析可以自动进行。例如,测序可以使用测序设备和自动化测序方案自动进行。其他步骤(如扩增、克隆等)也可以使用一种或多种合适设备和相关方案自动进行。应该理解本文所述的一个或多个设备或设备组件可以组合在某一系统(如机器人系统)或微环境(如微流体反应室)中。组装反应混合物(如液体反应样品)可以从所述系统的一个组件向另一个组件转移,使用自动化设备和过程(如样品和/或样品容器的机械化操作和/或转移,包含自动化移液设备、微系统等)。所述系统和其任何组件可以通过控制系统来控制。
[0178]
由此,本文所提供设备的方法步骤和/或方面可以使用例如计算机系统(如计算机控制系统)自动进行。能实施本文所提供技术方面的计算机系统可以包含用于任何处理类型(如本文所述序列分析和/或自动化设备控制)的计算机。然而,应该理解某些处理步骤可
以通过作为所述组装系统一部分的一种或多种自动化设备来提供。在一些实施方式中,计算机系统可包含两台或更多台计算机。例如,一台计算机可以通过网络连接第二台计算机。一台计算机可以进行序列分析。第二台计算机可以控制系统中的一个或多个自动化合成和组装设备。其他方面中,其他计算机可以包含在网络中以控制一个或多个分析或处理运行。各计算机可以包含内存和处理器。所述计算机可采用任何形式,因为本文提供的技术方面对在任何特定计算机平台上实施没有限制。相似地,所述网络能采用任何形式,包含专用网络或公共网络(如互联网)。显示设备能与一个或多个设备和计算机关联。替代或补充地,显示设备可以位于远程位点,并且连接用于显示根据本文提供的技术连接以显示分析输出。所述系统不同组件之间的连接可以通过有线、光纤、无线传送,卫星传送,任何其他合适的传送,或者上述两种或多个的任意组合。
[0179]
本文所提供技术的各个不同方面、实施方式、或运行能以多个方式独立自动进行和实施。例如,各个方面、实施方式或运行能使用硬件、软件或其组合独立实施。当以软件实施时,所述软件密码能在任何合适的处理器或处理器集合上执行,可在单独计算机中提供或分布在多个计算机上。应该理解完成上述功能的任何组件或组件集合能通常看作控制上面所讨论功能的一个或多个控制器。所述一个或多个控制器能以多种方式实施,例如有使用微码或软件程序控制的专用硬件或通用目的硬件(例如,一个或多个处理器)以完成上述功能。
[0180]
在这方面,应该理解本文所提供技术实施方式的一种实现中包含了编码有计算机程序(例如,多种指令)的至少一种计算机可读介质(例如,计算机内存、软盘、光盘、磁带等),当在处理器上运行时,完成本文所提供技术的一种或多种上述功能。所述计算机可读介质可运输,从而其上存储的程序能加载到任何计算机系统来源以运行本文所提供技术的一种或多种功能。另外,应该理解执行时,提及完成上面讨论功能的计算机程序不限于在主机上运行应用程序。相反,所述术语计算机程序在本文以一般意义使用,指任何类型的计算机编码(如软件或微码),能用于编程处理器以进行上面讨论的本文所提供的技术方面。
[0181]
应理解与处理器存储于计算机可读介质上的数个本文所提供技术的实施方式一致,所述计算机实施的处理在其执行过程中可以接收手动输入(如来自用户)。
[0182]
因此,本文所述组装设备或组件的整体系统水平控制可以通过系统控制器进行,所述系统控制器可以提供控制信号给:相关的核酸合成器、液体处理设备、热循环仪、测序设备、相关的机械化组件,以及其他合适系统来运行所需的输入/输出或其他控制功能。因此,所述系统控制器与任何设备控制器一起形成控制核酸组装系统运作的控制器。所述控制器可以包含通用目的数据处理系统和其他相关设备,所述通用目的数据处理系统可以是通用目的计算机或通用目的计算机的网络,所述其他相关设备包含通信设备、调制解调器、和/或其他回路或组件,以进行所需的输入/输出或其他功能。所述控制器也能(至少部分)作为单个特定目的集成电路(例如,asic)或asic阵来实施,各有用于整体、系统水平控制的主要或中央处理器部分,和专用的分离部分以在中央处理器部分控制下进行多种不同特定计算、功能和其他处理。所述控制器也能使用多种分离的专用程序集成或其他电子回路或设备实施,例如硬连线电子或逻辑回路如分立元件电路或可编程逻辑设备。所述控制器也能包含任何其他组件或设备,如用户输入/输出设备(监控器、显示器、打印机、键盘、用户点击设备、触摸屏、或其他用户界面等)、数据存储设备、驱动马达、连接、阀控制器、机械化设
备、真空和其他泵、压力传感器、检测器、电源供应、脉冲源、通信设备或其他电子电路或组件等。所述控制器也可以控制系统其他部分的运作,如自动化客户订单处理、质量控制、包装、运输、开票等,以进行本领域已知而本文没有详述的其他合适功能。
[0183]
本发明的各方面可以单独使用、联用或以前述实施方式未具体讨论的各种排列来使用,并且因此其应用并不限制于前面描述或附图说明所示组件的细节和排列。例如,一个实施方式的所述方面可与其他实施方式所述方面以任何方式组合。
[0184]
权利要求中修饰所指要素使用的顺序术语“第一”、“第二”、“第三”等本身并不暗指所指要素其一相对另一个的任何优先、居先或级别高低,或实行方法的多个运行的时间顺序,而是仅仅用作标记把有某一名称的所指要素与有相同名称的另一要素(但是就顺序术语使用而言)区分开以区别所指的多个要素。
[0185]
而且,本文所用的词语和术语是为了描述目的,而不是限制性的。本文使用“包含”、“包括”、或“具有”、“含有”、“涉及”及其变化意味着涵盖其后列出的项目及其等价物,以及额外的项目。
[0186]
等同形式
[0187]
本发明提供了用于高保真基因组装的新方法和设备等。尽管讨论了本发明的具体实施方式,但以上说明书仅为说明性而非限制性的。本领域的技术人员在阅读本说明书后将清楚了解本发明的许多变化。本发明的全部范围应该通过参考所附权利要求书连同其等同物的全部范围,以及说明书连同此类变化来决定。
[0188]
通过引用纳入
[0189]
针对国际专利申请公开号pct/us 12/052036的参考文件通过引用全文纳入本文。本文提到的所有发表物、专利和序列数据库条目在此通过引用全文纳入,就好像各个单独发表物或专利特定和单独地表明通过引用纳入。
转载请注明原文地址:https://tc.8miu.com/read-740.html