一种基于多残基间距离图约束的蛋白质结构预测方法

    专利查询2022-07-08  168



    1.本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于多残基间距离图约束的蛋白质结构预测方法。


    背景技术:

    2.蛋白质是生命的物质基础,是生命活动的主要承担者。蛋白质以氨基酸为基本单位构成生物大分子,氨基酸脱水缩合形成具有一定空间的多肽链,多肽链中残基的排列顺序也被称为蛋白质的一级结构。蛋白质的一级结构决定了蛋白质的二级、三级等高级结构,是理解蛋白质结构、作用机制以及其同源蛋白质生理功能的必要基础。蛋白质的特殊结构决定了其特殊的生物学功能,因此能否由氨基酸序列准确高效地测出蛋白质的三维结构显得尤为重要。蛋白质结构预测是指从蛋白质的氨基酸序列预测蛋白质三维结构的过程,蛋白质结构预测是生物信息学与理论化学所追求的重要目标之一,在药物研发和生物技术的设计中占有十分重要的地位。
    3.当前蛋白质三维结构研究方法包括两类,一类是生物湿实验测定技术,一类是基于计算机技术的结构预测技术。生物湿实验主要包括x射线衍射、核磁共振和最新的冷冻电镜技术。生物湿实验的方法存在耗时太长、实验成本过高等问题。随着计算机技术和已知序列数量的飞速增长,人们有希望能通过计算机来完成蛋白质结构的正确预测,因此基于蛋白质序列的预测方法有重要的现实意义,在蛋白质三维结构研究中开始变得越来越重要。基于蛋白质序列的预测方法可以分为同源建模法、折叠识别法和从头预测法。因为基于模板的建模方法受到已知蛋白质结构的数量和质量的限制,从头预测法越来越显示出其重要性。
    4.目前仍然只有很小的一部分已知蛋白质被解析出了相应的结构,为了促进蛋白质结构预测进展和对提高预测准确性的最新方法的研究和测量进度,1994年建立的名为community wide experiment on the critical assessment of techniques for protein structure prediction(casp)的两年一度的全球竞赛,已经成为评估技术的通用标准。
    5.2012年casp10以后,基于人工智能技术的残基接触/距离预测被引入,并展现出了其在结构预测研究中的重要作用。目前有很多研究工作都应用了残基间距离来作为预测的约束之一,比如南开大学的yang lab通过深度学习预测得到残基间的距离和方向并结合rosetta约束的能量最小化协议,以快速和准确地生成由这些约束引导的结构模型。中科院计算所卜东波团队开发了一个端到端的深度神经网络copulanet,可以直接从目标蛋白质的msa估计残基协同进化,从而直接估计出残基间距离。从casp比赛的距离预测方面的结果来看,虽然现在残基间距离的预测精度越来越高,但是仍然会存在很多预测不准确的情况并且当前蛋白质的能量函数仍然存在不精确的问题,根据能量函数得到的最优结构并不一定最接近于天然结构。
    6.因此,现有的蛋白质结构预测方法在预测效率和预测精确度方面存在不足,需要
    改进。


    技术实现要素:

    7.为了克服现有的蛋白质结构预测方法存在的预测效率和预测精度较低的问题,本发明基于rosetta和三个蛋白质残基距离预测服务器trrosetta服务器、raptorx服务器、loments服务器,引入多张残基间距离图来弥补单一距离图预测不精确所带来的噪音并构建基于残基间距离的评分函数来辅助预测蛋白质三维结构,提出一种基于多残基间距离图约束的蛋白质结构预测方法。
    8.本发明解决其技术问题所采用的技术方案是:
    9.一种基于多残基间距离图约束的蛋白质结构预测方法,所述方法包括以下步骤:
    10.1)输入目标蛋白质的序列信息;
    11.2)根据输入目标蛋白质的序列信息从robetta服务器(http://www.robetta.org/)获取片段库文件,其中包括3片段库文件和9片段库文件;
    12.3)根据输入目标蛋白质的序列信息从trrosetta服务器(https://yanglab.nankai.edu.cn/trrosetta/)、raptorx服务器(http://raptorx.uchicago.edu/)、lomets服务器(https://zhanglab.ccmb.med.umich.edu/lomets/)获得三个残基间距离文件distancefile,将三个distancefile文件里面的数据进行处理后生成三个distancemap文件,并分别命名为dis_trrosetta、dis_raptorx、dis_loments;
    13.4)根据dis_trrosetta、dis_raptorx、dis_loments三个distancemap文件构建评分函数dscore,公式如下:
    [0014][0015]d*
    =log(ε |i-j|)
    ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
    (1-2)
    [0016]
    其中,l表示蛋白质序列长度,i和j表示构象cn的第i个残基和第j个残基,表示trrosetta服务器、raptorx服务器、loments服务器预测距离的置信度,d
    ij
    表示构象cn的第i个残基和第j个残基的实际距离,表示构象cn的第i个残基和第j个残基在trrosetta服务器、raptorx服务器、loments服务器的预测距离,d
    *
    表示归一化标度,ε表示无穷小量,以避免d
    *
    为零;
    [0017]
    5)设置参数:种群大小np,第一代种群迭代次数g
    first
    ,第二代种群迭代次数g
    second
    ,聚类算法迭代次数为n,聚类簇数为k,温度因子β,置第一代种群迭代代数g
    first
    =0,置第二代种群迭代代数g
    second
    =0,置聚类算法迭代代数n=0,置步骤10)中迭代代数m=0;
    [0018]
    6)种群初始化:随机片段组装生成包含np个初始构象ci的初始种群,i={1,2,...,np};
    [0019]
    7)随机选择初始种群中的一个构象作为目标构象对每个执行以下操作生成测试构象更新种群,过程如下:
    [0020]
    7.1)从种群中随机选出三个互不相同的构象c
    r1
    、c
    r2
    、c
    r3
    ,且c
    r1
    、c
    r2
    、c
    r3
    与互不相同,从c
    r1
    、c
    r2
    、c
    r3
    中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
    [0021]
    7.2)对进行片段组装生成测试构象
    [0022]
    7.3)用rosetta score3能量函数分别计算和的能量记为和
    [0023]
    7.4)若则替换否则按照概率以蒙特卡洛准则接收构象
    [0024]
    8)g
    first
    =g
    first
    1,迭代运行步骤7),至g
    first
    》g
    first
    为止,生成一代种群;
    [0025]
    9)对一代种群进行聚类,选取代表构象构建二代种群,过程如下:
    [0026]
    9.1)在一代种群中随机选择k个构象作为初始的k个质心构象,{μ1,μ2,...,μk};
    [0027]
    9.2)遍历一代种群中的构象ci,i={1,2,...,np},引入一种蛋白质结构比较算法tm-align,其返回值是衡量结构相似性的tm-score,通过使用tm-align比较构象ci和k个质心构象,将构象ci放入与k个质心构象中相似度最高的质心构象所在的那个簇,tm-score计算公式如下:
    [0028][0029][0030]
    其中,l表示蛋白质序列长度,表示质心构象μk和一代种群中构象ci之间的第i对残基对之间的距离,d0是归一化距离的一个距离标度;
    [0031]
    9.3)对k个簇中的每个构象计算其dscore,将每个簇中dscore最低的构象更新为该簇的质心;
    [0032]
    9.4)n=n 1,迭代运行步骤9.2)~9.3)至质心位置不变或n》n为止;
    [0033]
    9.5)使用tm-align对k个簇中的每个构象与该簇质心构象进行比较,并将每个簇中的构象按与质心构象相似度进行排序,将相似度高的构象转移到二代种群中直至二代种群的种群规模达到half_np,half_np=np
    ×
    0.5;
    [0034]
    10)遍历二代种群中每一个构象作为目标构象对每个执行以下操作生成测试构象过程如下:
    [0035]
    10.1)利用rosetta score3能量函数计算二代种群中每个构象的能量,选择一个能量最低的构象c
    best
    ,再从种群中随机选择两个互不相同的构象c
    r1
    、c
    r2
    ,且c
    best
    、c
    r1
    、c
    r2

    互不相同,分别从c
    best
    、c
    r1
    、c
    r2
    中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
    [0036]
    10.2)对进行片段组装生成测试构象
    [0037]
    10.3)根据公式(3)计算和二代种群内每个构象的相似度并按相似度进行从高到低排序:
    [0038][0039]
    其中,l表示输入序列长度,i和j表示和二代种群中构象ck的第i个残基和第j个残基,和表示和二代种群中构象ck的第i个残基和第j个残基之间的实际距离;
    [0040]
    10.4)取二代种群中的一个构象作为目标构象计算基于预测的残基间距离的评分和q={1,2,...,mini_np},mini_np=np
    ×
    0.2;
    [0041]
    10.5)如果则替换否则按照概率以蒙特卡洛准则接收构象
    [0042]
    10.6)m=m 1,迭代运行步骤10.4)~10.5),至接收构象或m>mini_np为止;
    [0043]
    11)g
    second
    =g
    second
    1,迭代运行步骤9)~10),至g
    second
    >g
    second
    为止;
    [0044]
    12)输出score3能量与dscore之和最低的构象为最终结果。
    [0045]
    本发明的技术构思为:首先,由trrosetta、raptorx、lomets三个蛋白质残基间距离预测服务器获得三个残基间距离文件以构建三张残基间距离图从来构建基于残基间距离的评分函数;其次,循环rosetta第一、第二阶段以生成初始种群,然后在种群中选择目标构象并对其进行交叉变异以生成测试构象,并通过rosetta score3概率接收测试构象,以增加种群中构象多样性;然后,通过聚类找出符合标准的构象以缩小种群规模,增加算法效率;最后,根据三个残基间距离图构建的评分函数来更新种群中的构象,从而得到最接近天然构象的最优构象。本发明提供一种基于多残基间距离图约束的蛋白质结构预测方法。
    [0046]
    本发明的有益效果为:首先,通过结合不同服务器预测的残基间距离信息,可以降低只使用单一预测距离存在的准确性问题;其次,设计了基于残基间距离的评分函数辅助rosetta能量函数对构象进行更新,从而引导算法采样得到更接近天然构象的构象。
    附图说明
    [0047]
    图1是三张预测的残基间距离图。
    [0048]
    图2是基于多残基间距离图约束的蛋白质结构预测方法对蛋白质1elwa采样得到的构象分布图。
    [0049]
    图3是基于多残基间距离图约束的蛋白质结构预测方法对1elwa蛋白结构预测得
    到的三维结构。
    具体实施方式
    [0050]
    下面结合附图对本发明作进一步描述。
    [0051]
    参照图1~图3,一种基于多残基间距离图约束的蛋白质结构预测方法,所述方法包括以下步骤:
    [0052]
    1)输入目标蛋白质的序列信息;
    [0053]
    2)根据输入目标蛋白质的序列信息从robetta服务器(http://www.robetta.org/)获取片段库文件,其中包括3片段库文件和9片段库文件;
    [0054]
    3)根据输入目标蛋白质的序列信息从trrosetta服务器(https://yanglab.nankai.edu.cn/trrosetta/)、raptorx服务器(http://raptorx.uchicago.edu/)、lomets服务器(https://zhanglab.ccmb.med.umich.edu/lomets/)获得三个残基间距离文件distancefile,将三个distancefile文件里面的数据进行处理后生成三个distancemap文件,并分别命名为dis_trrosetta、dis_raptorx、dis_loments;
    [0055]
    4)根据dis_trrosetta、dis_raptorx、dis_loments三个distancemap文件构建评分函数dscore,公式如下:
    [0056][0057]d*
    =log(ε |i-j|)
    ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
    (1-2)
    [0058]
    其中,l表示蛋白质序列长度,i和j表示构象cn的第i个残基和第j个残基,表示trrosetta服务器、raptorx服务器、loments服务器预测距离的置信度,d
    ij
    表示构象cn的第i个残基和第j个残基的实际距离,表示构象cn的第i个残基和第j个残基在trrosetta服务器、raptorx服务器、loments服务器的预测距离,d
    *
    表示归一化标度,ε表示无穷小量,以避免d
    *
    为零;
    [0059]
    5)设置参数:种群大小np,第一代种群迭代次数g
    first
    ,第二代种群迭代次数g
    second
    ,聚类算法迭代次数为n,聚类簇数为k,温度因子β,置第一代种群迭代代数g
    first
    =0,置第二代种群迭代代数g
    second
    =0,置聚类算法迭代代数n=0,置步骤10)中迭代代数m=0;
    [0060]
    6)种群初始化:随机片段组装生成包含np个初始构象ci的初始种群,i={1,2,...,np};
    [0061]
    7)随机选择初始种群中的一个构象作为目标构象对每个执行以下操作生成测试构象更新种群,过程如下:
    [0062]
    7.1)从种群中随机选出三个互不相同的构象c
    r1
    、c
    r2
    、c
    r3
    ,且c
    r1
    、c
    r2
    、c
    r3
    与互
    不相同,从c
    r1
    、c
    r2
    、c
    r3
    中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
    [0063]
    7.2)对进行片段组装生成测试构象
    [0064]
    7.3)用rosetta score3能量函数分别计算和的能量记为和
    [0065]
    7.4)若则替换否则按照概率以蒙特卡洛准则接收构象
    [0066]
    8)g
    first
    =g
    first
    1,迭代运行步骤7),至g
    first
    》g
    first
    为止,生成一代种群;
    [0067]
    9)对一代种群进行聚类,选取代表构象构建二代种群,过程如下:
    [0068]
    9.1)在一代种群中随机选择k个构象作为初始的k个质心构象,{μ1,μ2,...,μk};
    [0069]
    9.2)遍历一代种群中的构象ci,i={1,2,...,np},引入一种蛋白质结构比较算法tm-align,其返回值是衡量结构相似性的tm-score,通过使用tm-align比较构象ci和k个质心构象,将构象ci放入与k个质心构象中相似度最高的质心构象所在的那个簇,tm-score计算公式如下:
    [0070][0071][0072]
    其中,l表示蛋白质序列长度,表示质心构象μk和一代种群中构象ci之间的第i对残基对之间的距离,d0是归一化距离的一个距离标度;
    [0073]
    9.3)对k个簇中的每个构象计算其dscore,将每个簇中dscore最低的构象更新为该簇的质心;
    [0074]
    9.4)n=n 1,迭代运行步骤9.2)~9.3)至质心位置不变或n》n为止;
    [0075]
    9.5)使用tm-align对k个簇中的每个构象与该簇质心构象进行比较,并将每个簇中的构象按与质心构象相似度进行排序,将相似度高的构象转移到二代种群中直至二代种群的种群规模达到half_np,half_np=np
    ×
    0.5;
    [0076]
    10)遍历二代种群中每一个构象作为目标构象对每个执行以下操作生成测试构象过程如下:
    [0077]
    10.1)利用rosetta score3能量函数计算二代种群中每个构象的能量,选择一个能量最低的构象c
    best
    ,再从种群中随机选择两个互不相同的构象c
    r1
    、c
    r2
    ,且c
    best
    、c
    r1
    、c
    r2
    与互不相同,分别从c
    best
    、c
    r1
    、c
    r2
    中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
    [0078]
    10.2)对进行片段组装生成测试构象
    [0079]
    10.3)根据公式(3)计算和二代种群内每个构象的相似度并按相似度进行从高到低排序:
    [0080][0081]
    其中,l表示输入序列长度,i和j表示和二代种群中构象ck的第i个残基和第j个残基,和表示和二代种群中构象ck的第i个残基和第j个残基之间的实际距离;
    [0082]
    10.4)取二代种群中的一个构象作为目标构象计算基于预测的残基间距离的评分和q={1,2,...,mini_np},mini_np=np
    ×
    0.2;
    [0083]
    10.5)如果则替换否则按照概率以蒙特卡洛准则接收构象
    [0084]
    10.6)m=m 1,迭代运行步骤10.4)~10.5),至接收构象或m>mini_np为止;
    [0085]
    11)g
    second
    =g
    second
    1,迭代运行步骤9)~10),至g
    second
    >g
    second
    为止;
    [0086]
    12)输出score3能量与dscore之和最低的构象为最终结果。
    [0087]
    以序列长度为117的蛋白质1elwa为实施例,一种基于多残基间距离图约束的蛋白质结构预测方法,其中包含以下步骤:
    [0088]
    1)输入目标蛋白质的序列信息;
    [0089]
    2)根据输入目标蛋白质的序列信息从robetta服务器(http://www.robetta.org/)获取片段库文件,其中包括3片段库文件和9片段库文件;
    [0090]
    3)根据输入目标蛋白质的序列信息从trrosetta服务器(https://yanglab.nankai.edu.cn/trrosetta/)、raptorx服务器(http://raptorx.uchicago.edu/)、lomets服务器(https://zhanglab.ccmb.med.umich.edu/lomets/)获得三个残基间距离文件distancefile,将三个distancefile文件里面的数据进行处理后生成三个distancemap文件,并分别命名为dis_trrosetta、dis_raptorx、dis_loments;
    [0091]
    4)根据dis_trrosetta、dis_raptorx、dis_loments三个distancemap文件构建评分函数dscore,公式如下:
    [0092][0093]d*
    =log(ε |i-j|)
    ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
    (1-2)
    [0094]
    其中,l表示蛋白质序列长度,i和j表示构象cn的第i个残基和第j个残基,
    表示trrosetta服务器、raptorx服务器、loments服务器预测距离的置信度,d
    ij
    表示构象cn的第i个残基和第j个残基的实际距离,表示构象cn的第i个残基和第j个残基在trrosetta服务器、raptorx服务器、loments服务器的预测距离,d
    *
    表示归一化标度,ε表示无穷小量,以避免d
    *
    为零;
    [0095]
    5)设置参数:种群大小np,第一代种群迭代次数g
    first
    ,第二代种群迭代次数g
    second
    ,聚类算法迭代次数为n,聚类簇数为k,温度因子β,置第一代种群迭代代数g
    first
    =0,置第二代种群迭代代数g
    second
    =0,置聚类算法迭代代数n=0,置步骤10)中迭代代数m=0;
    [0096]
    6)种群初始化:随机片段组装生成包含np个初始构象ci的初始种群,i={1,2,...,np};
    [0097]
    7)随机选择初始种群中的一个构象作为目标构象对每个执行以下操作生成测试构象更新种群,过程如下:
    [0098]
    7.1)从种群中随机选出三个互不相同的构象c
    r1
    、c
    r2
    、c
    r3
    ,且c
    r1
    、c
    r2
    、c
    r3
    与互不相同,从c
    r1
    、c
    r2
    、c
    r3
    中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
    [0099]
    7.2)对进行片段组装生成测试构象
    [0100]
    7.3)用rosetta score3能量函数分别计算和的能量记为和
    [0101]
    7.4)若则替换否则按照概率以蒙特卡洛准则接收构象
    [0102]
    8)g
    first
    =g
    first
    1,迭代运行步骤7),至g
    first
    》g
    first
    为止,生成一代种群;
    [0103]
    9)对一代种群进行聚类,选取代表构象构建二代种群,过程如下:
    [0104]
    9.1)在一代种群中随机选择k个构象作为初始的k个质心构象,{μ1,μ2,...,μk};
    [0105]
    9.2)遍历一代种群中的构象ci,i={1,2,...,np},引入一种蛋白质结构比较算法tm-align,其返回值是衡量结构相似性的tm-score,通过使用tm-align比较构象ci和k个质心构象,将构象ci放入与k个质心构象中相似度最高的质心构象所在的那个簇,tm-score计算公式如下:
    [0106][0107][0108]
    其中,l表示蛋白质序列长度,表示质心构象μk和一代种群中构象ci之间的第i对残基对之间的距离,d0是归一化距离的一个距离标度;
    [0109]
    9.3)对k个簇中的每个构象计算其dscore,将每个簇中dscore最低的构象更新为该簇的质心;
    [0110]
    9.4)n=n 1,迭代运行步骤9.2)~9.3)至质心位置不变或n》n为止;
    [0111]
    9.5)使用tm-align对k个簇中的每个构象与该簇质心构象进行比较,并将每个簇中的构象按与质心构象相似度进行排序,将相似度高的构象转移到二代种群中直至二代种群的种群规模达到half_np,half_np=np
    ×
    0.5;
    [0112]
    10)遍历二代种群中每一个构象作为目标构象对每个执行以下操作生成测试构象k={1,2,...,half_np},过程如下:
    [0113]
    10.1)利用rosetta score3能量函数计算二代种群中每个构象的能量,选择一个能量最低的构象c
    best
    ,再从种群中随机选择两个互不相同的构象c
    r1
    、c
    r2
    ,且c
    best
    、c
    r1
    、c
    r2
    与互不相同,分别从c
    best
    、c
    r1
    、c
    r2
    中随机选择一个位置不同的9片段,分别替换对应位置的片段生成变异构象
    [0114]
    10.2)对进行片段组装生成测试构象
    [0115]
    10.3)根据公式(3)计算和二代种群内每个构象的相似度并按相似度进行从高到低排序:
    [0116][0117]
    其中,l表示输入序列长度,i和j表示和二代种群中构象ck的第i个残基和第j个残基,和表示和二代种群中构象ck的第i个残基和第j个残基之间的实际距离;
    [0118]
    10.4)取二代种群中的一个构象作为目标构象计算基于预测的残基间距离的评分和q={1,2,...,mini_np},mini_np=np
    ×
    0.2;
    [0119]
    10.5)如果则替换否则按照概率以蒙特卡洛准则接收构象
    [0120]
    10.6)m=m 1,迭代运行步骤10.4)~10.5),至接收构象或m>mini_np为止;
    [0121]
    11)g
    second
    =g
    second
    1,迭代运行步骤9)~10),至g
    second
    >g
    second
    为止;
    [0122]
    12)输出score3能量与dscore之和最低的构象为最终结果。
    [0123]
    以序列长度为117的蛋白质1elwa为实施例,运用以上方法得到了该蛋白质的近天然态构象,运行300代所得到的结构与天然态结构之间的平均均方根偏差为2.45,最小均方根偏差为2.13,预测得到的三维结构如图3所示。
    [0124]
    以上阐述的是本发明给出的一个实施例展现出来的优良结果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
    转载请注明原文地址:https://tc.8miu.com/read-1922.html

    最新回复(0)