一种基于深度学习的蛋白质模型质量评估方法

    专利查询2022-07-07  171



    1.本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于深度学习的蛋白质模型质量评估方法。


    背景技术:

    2.蛋白质在几乎所有的生物过程中是普遍存在的。确定它们的结构和功能有助于理解并潜在地控制这些过程。然而,尽管蛋白质序列的测定现在是一个常规的程序,但利用这些信息来提取所研究系统的相关功能知识往往是非常困难的。事实上,蛋白质的功能依赖于其化学性质和机械性质的结合,这是由其结构决定的。因此,从其序列中鉴定蛋白质结构是非常重要的,尽管是一项艰巨的任务。实验结构识别并非在所有情况下都可行,并且通常非常繁琐且昂贵。因此,过去出现了试图从其序列预测蛋白质结构的计算方法。这些方法大多数都将蛋白质构象的采样步骤与模型质量评估步骤结合在一起,前者产生蛋白质构象,而后者对这些构象评分以选择与天然结构尽可能接近的蛋白质构象。
    3.蛋白质模型质量评估是结构生物信息学中一个重要而又亟待解决的问题。目前,蛋白质模型的评分有三类。第一种是仅使用实际模型信息的单模型方法,如进化信息、残基环境兼容性、来自物理或基于知识的统计势,或不同结构特征的组合。第二类是共识方法,主要使用多个模型或模板比对的共识,对给定序列选择最可能的模型。最后,也有混合方法,结合单模型和共识方法。虽然共识方法擅长在预测与真实质量度量之间实现高度相关性,但在困难情况(缺乏共识)或模型非常相似的简单情况下,共识方法常常无法选择最佳的可能模型。而单模型方法不需要模型集合,即使没有共识也可以挑选出好的模型,也只有单模型方法才可以用于构象采样并作为细化指导,以进一步提高性能。
    4.目前用于单模型质量评估的最佳方法通常结合了的不同方法,每种方法基于不同输入特征。然后,使用机器学习算法对预测模型进行训练。最近,随着卷积神经网络的发展,深度学习大量运用在生物信息领域,这促使我们将三维卷积网络应用到蛋白质模型的模型质量评估的问题上。
    5.综上所述,已有的蛋白质模型质量评估方法在评估蛋白质模型质量的准确性和计算效率上还不够完善,从而导致无法可靠地得到蛋白质模型质量,进而指导蛋白质细化,故而需要做出改进。


    技术实现要素:

    6.针对以上技术问题,为了克服现有技术的不足,本发明提出了一种基于深度学习的蛋白质模型质量评估方法,不仅提高了蛋白质模型质量评估的准确性,而且提高了计算效率。
    7.本发明解决其技术问题所采用的技术方案是:
    8.一种基于深度学习的蛋白质模型质量评估方法,所述方法包括以下步骤:
    9.1)在pisces服务器中筛选出设定蛋白质长度、最大序列冗余度和分辨率的蛋白质
    索引,然后从pdb库中下载相应蛋白质结构信息,得到包含m个蛋白质结构信息;
    10.2)使用三种方法生成步骤1)中每个蛋白在不同模型质量分布上的n个诱饵结构;首先使用rosettacm对每个天然结构进行不同精度模板的比较建模,每个天然结构得到n1个诱饵结构;然后使用rosettacm在每个天然结构的随机位置插入片段进行扰动,得到每个天然结构得到n2个诱饵结构;最后使用trrosetta进行深度学习指导折叠,得到每个天然结构得到n3个诱饵结构,n=n1 n2 n3;
    11.3)将步骤2)中得到的每个蛋白质及其诱饵结构数据集,其中选出m1个蛋白质及其诱饵结构作为训练集,m2个蛋白质及其诱饵结构作为验证集,剩余m3个蛋白质及其诱饵结构作为测试集,m=m1 m2 m3;
    12.4)对数据集中的每一个蛋白质天然结构及其诱饵结构,制作标签数据,过程如下:
    13.4.1)对数据集中的每一个蛋白质诱饵结构,根据每个残基中c
    β
    原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含c
    β
    原子,以c
    α
    原子代替;如果距离小于则表示为1,反之为0,并构建残基对mask矩阵;
    14.4.2)对数据集中的每一个蛋白质天然结构及其诱饵结构,根据每个残基中c
    β
    15.原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含c
    β
    原子,以c
    α
    原子代替;然后对每个蛋白质的诱饵结构的每对残基
    16.距离和其天然结构对应的残基对距离计算距离误差,计算公式如下:
    17.err
    ij
    =d
    decoyij-d
    nativeij
    18.其中,d
    decoyij
    是诱饵结构的残基对距离,d
    nativeij
    是对应天然结构对应残基对距离,根据距离误差信息划分m个距离误差区间,对m个区间标号;残基对距离误差落入哪个区间取对应的标号作为标签值;
    19.5)对数据集中的每一个蛋白质天然结构及其诱饵结构提取三维特征信息,用体素化方式表示每个残基的三维特征信息,得到24
    ×
    24
    ×
    24
    ×
    167
    ×
    l的特征图,过程如下:
    20.5.1)为当前残基建立三维笛卡尔坐标系,轴方向与从前一个残基的c原子(c
    n-1
    )指向当前残基的n原子(nn)的方向重合,轴垂直于轴并使当前残基的c
    α
    原子位于半平面轴由的方向定义;
    21.5.2)以当前残基的c
    α
    原子为几何中心及步骤5.1)建立的三维笛卡尔坐标系方向构建一个边长为的立方体m,搜索其在该立方体内的所有邻域原子,根据原子的原始位置坐标映射到步骤5.1)建立的三维坐标系,得到其当前的位置坐标;
    22.5.3)将步骤5.2)中构建的立方体平均分成24
    ×
    24
    ×
    24个边长为的小立方体;并为每个小立方体的中心填充值v,计算公式如下:
    [0023][0024]
    其中,n
    atoms
    表示m内的原子数量,表示当前小立方体中心位置的坐标,表示m内第i个原子的位置坐标,ti表示167维的单位向量,其唯一的非零分量对应于第i个原子的类型;167种原子类型如图1所示;
    [0025]
    6)对数据集中的每一个蛋白质天然结构及其诱饵结构提取一维特征信息,得到11
    ×
    l的特征图,过程如下:
    [0026]
    6.1)使用pyrosetta计算数据集中每个目标蛋白质的诱饵结构的4种残基能量项(omega,p_aa_pp,fa_dun,rama_prepro),得到4
    ×
    l的特征图;
    [0027]
    6.2)使用pyrosetta计算每个目标蛋白的每个残基对应的二级结构(e、l、h、-),得到4
    ×
    l的特征图;
    [0028]
    6.3)根据每个目标蛋白质的诱饵结构的lsr(local shape recognition)特征,得到3
    ×
    l的特征图,计算过程如下:
    [0029]
    6.3.1)对于每个诱饵结构,计算每对残基之间的欧氏距离(根据c
    α
    原子计算),提取与残基qi的距离在内的所有残基的距离之和的平均值μ1,并记下与残基qi的距离在内的最远残基q
    i1

    [0030]
    6.3.2)提取与残基q
    i1
    的距离在内的所有残基的距离之和的平均值μ2,并记下与残基q
    i1
    的距离在内的最远残基q
    i2

    [0031]
    6.3.3)提取与残基q
    i2
    的距离在内的所有残基的距离之和的平均值μ3;对每个诱饵结构的每个残基提取了[μ1,μ2,μ3]的一维特征,对于整个诱饵结构,提取了3
    ×
    l的特征图;
    [0032]
    7)对数据集中的每一个蛋白质天然结构及其诱饵结构提取二维特征信息,得到13
    ×
    l
    ×
    l的特征图,过程如下:
    [0033]
    7.1)使用pyrosetta计算数据集中每个目标蛋白质的诱饵结构的7种残基对能量项(fa_atr,fa_rep,fa_sol,lk_ball_wtd,fa_elec,hbond_bb_sc,hbond_sc),得到7
    ×
    l
    ×
    l的特征图;
    [0034]
    7.2)对数据集中的每个目标蛋白质诱饵结构,根据每个残基中原子的三维空间坐标,计算每对残基之间的c
    α
    原子-c
    α
    原子、c
    α
    原子-tip原子、tip原子-c
    α
    原子的欧式距离组合,得到3
    ×
    l
    ×
    l的特征图;
    [0035]
    7.3)使用trrosetta提取每个目标蛋白质的诱饵结构的残基对的orientations得到3
    ×
    l
    ×
    l;
    [0036]
    8)步骤5)提取的三维图特征经过一系列三维卷积层,生成的输出张量(4
    ×4×4×
    10
    ×
    l)将被展平,以使其成为每个残基的一维特征图(640
    ×
    l),然后与步骤6)其他一维特征串联,得到新的一维特征图(651
    ×
    l),并经过一个一维卷积将维度降成64
    ×
    l,最后将最终的的一维特征水平和垂直条带化后(128
    ×
    l
    ×
    l)与其他二维特征结合在一起,得到最终的二维特征图141
    ×
    l
    ×
    l,最终执行一系列二维卷积操作;
    [0037]
    9)搭建卷积网络模型,过程如下:
    [0038]
    9.1)网络的第一部分,步骤5)提取的三维图特征依次经过卷积核数量分别为20,30,30,10,卷积核大小分别为1
    ×1×
    1,3
    ×3×
    3,4
    ×4×
    4,4
    ×4×
    4的四个三维卷积层,然后经过一个elu激活函数,最后通过一个核大小为4
    ×4×
    4,步长为4的三维平均池化层。
    [0039]
    9.2)网络的第二部分,有15个残差块的残差网络,循环膨胀率为1,2,4,8,16;然后,网络分支到4个残差块的两个分支,每个残差块由三个卷积层、三个归一化层组成;两个分支的输出层分布由一个sigmod和一个softmax非线性函数组成;
    [0040]
    10)训练模型参数,使用xavier均匀分布初始化,使用adam optimizer方法对网络权重进行优化,给定学习率,使用多元交叉熵损失函数评估残基对距离误差损失,使用二元交叉熵损失函数评估mask的损失,mask的残基对距离小于使用均方损失函数评估每个残基的lddt损失,最后最小化距离误差损失、mask损失、lddt损失的结合;
    [0041]
    每个残基lddt得分计算如下:
    [0042]
    per_residue_lddt=0.25
    ×
    (p1 p2 p3 p4)/p0ꢀꢀꢀꢀꢀꢀ
    (1)
    [0043]
    其中,p1是与第i个残基的距离中小于的所有残基对中距离误差的幅度
    [0044]
    小于的概率,p2,p3,p4的幅度阈值分别是p0表示第i个残基与其他残基距离小于的概率;
    [0045]
    总损失计算如下:
    [0046]
    global_loss=esto_loss mask_loss 10
    ×
    lddt_loss
    [0047]
    其中,esto_loss表示每对残基距离误差损失,mask_loss表示mask的损失,lddt_loss表示每个残基的lddt损失;
    [0048]
    11)对于待预测的蛋白质结构,首先从结构信息中提取其输入特征,然后将特征输入到残差网络中,输出结果为残基对mask概率得分和残基对距离误差概率得分,最后根据步骤10)的(1)计算每个残基的模型质量得分。
    [0049]
    进一步,所述步骤1)中,设定蛋白质长度为50-300个残基,最大序列冗余度为40%,分辨率《=从pdb库中下载相应蛋白质结构信息得到包含5465个蛋白质结构信息。
    [0050]
    再进一步,所述4.2)中,根据距离误差信息划分15个距离误差区间,分别再进一步,所述4.2)中,根据距离误差信息划分15个距离误差区间,分别再进一步,所述4.2)中,根据距离误差信息划分15个距离误差区间,分别对这15个区间标号0,1,2,3,4,5,6,7,8,9,10,11,12,13,14。
    [0051]
    所述步骤10)中,学习率为0.0005。
    [0052]
    本发明的有益效果主要表现在:利用对蛋白质三维结构的体素化处理,提高了特征的提取速度,减少了储存空间的占用,提高了对蛋白质模型质量评估的准确性,有利于识别蛋白质折叠过程中出错的部分,从而对这些区域进行细化。
    附图说明
    [0053]
    图1是基于深度学习的蛋白质模型质量评估方法的流程图。
    [0054]
    图2是基于深度学习的蛋白质模型质量评估方法对蛋白4bo1a的部分诱饵结构进行模型质量评估的结果图。
    [0055]
    图3是每种氨基酸的tip原子图。
    [0056]
    图4是20种氨基酸中167种原子类型图。
    具体实施方式
    [0057]
    下面结合附图对本发明作进一步描述。
    [0058]
    参照图1-图4,一种基于深度学习的蛋白质模型质量评估方法,包括以下步骤:
    [0059]
    1)在pisces服务器中筛选出蛋白质长度在50-300个残基,最大序列冗余度为40%,分辨率的蛋白质索引,然后从pdb库中下载相应蛋白质结构信息,得到包含5465个蛋白质结构信息根据目标蛋白的序列;
    [0060]
    2)使用三种方法生成步骤1)中每个蛋白在不同模型质量分布上的100个诱饵结构;首先使用rosettacm对每个天然结构进行不同精度模板的比较建模,每个天然结构得到60个诱饵结构;然后使用rosettacm在每个天然结构的随机位置插入片段进行扰动,得到每个天然结构得到20个诱饵结构;最后使用trrosetta进行深度学习指导折叠,得到每个天然结构得到20个诱饵结构;
    [0061]
    3)将步骤2)中得到的每个蛋白质及其诱饵结构数据集,其中选出4682个蛋白质及其诱饵结构作为训练集,583个蛋白质及其诱饵结构作为验证集,剩余200个蛋白质及其诱饵结构作为测试集;
    [0062]
    4)对数据集中的每一个蛋白质天然结构及其诱饵结构,制作标签数据,过程如下:
    [0063]
    4.1)对数据集中的每一个蛋白质诱饵结构,根据每个残基中c
    β
    原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含c
    β
    原子,以c
    α
    原子代替;如果距离小于则表示为1,反之为0,并构建残基对mask矩阵;
    [0064]
    4.2)对数据集中的每一个蛋白质天然结构及其诱饵结构,根据每个残基中c
    β
    [0065]
    原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含c
    β
    原子,以c
    α
    原子代替;然后对每个蛋白质的诱饵结构的每对残基距离和其天然结构对应的残基对距离计算距离误差,计算公式如下:
    [0066]
    err
    ij
    =d
    decoyij-d
    nativeij
    [0067]
    其中,d
    decoyij
    是诱饵结构的残基对距离,d
    nativeij
    是对应天然结构对应残基对距离,根据距离误差信息划分15个距离误差区间,分别根据距离误差信息划分15个距离误差区间,分别根据距离误差信息划分15个距离误差区间,分别根据距离误差信息划分15个距离误差区间,分别对这15个区间标号0,1,2,3,4,5,6,7,8,9,10,11,12,13,14;残基对距离误差落入哪个区间取对应的标号作为标签值;
    [0068]
    5)对数据集中的每一个蛋白质天然结构及其诱饵结构提取三维特征信息,用体素化方式表示每个残基的三维特征信息,得到24
    ×
    24
    ×
    24
    ×
    167
    ×
    l的特征图,过程如下:
    [0069]
    5.1)为当前残基建立三维笛卡尔坐标系,轴方向与从前一个残基的c原子(c
    n-1
    )指向当前残基的n原子(nn)的方向重合,轴垂直于轴并使当前残基的c
    α
    原子位于半平面轴由的方向定义;
    [0070]
    5.2)以当前残基的c
    α
    原子为几何中心及步骤5.1)建立的三维笛卡尔坐标系方向构建一个边长为的立方体m,搜索其在该立方体内的所有邻域原子,根据原子的原始位置坐标映射到步骤5.1)建立的三维坐标系,得到其当前的位置坐标;
    [0071]
    5.3)将步骤5.2)中构建的立方体平均分成24
    ×
    24
    ×
    24个边长为的小立
    [0072]
    方体;并为每个小立方体的中心填充值v,计算公式如下:
    [0073][0074]
    其中,n
    atoms
    表示m内的原子数量,表示当前小立方体中心位置的坐标,表示m内第i个原子的位置坐标,ti表示167维的单位向量,其唯一的非零分量对应于第i个原子的类型;167种原子类型如图1所示;
    [0075]
    6)对数据集中的每一个蛋白质天然结构及其诱饵结构提取一维特征信息,得到11
    ×
    l的特征图,过程如下:
    [0076]
    6.1)使用pyrosetta计算数据集中每个目标蛋白质的诱饵结构的4种残基能量项(omega,p_aa_pp,fa_dun,rama_prepro),得到4
    ×
    l的特征图;
    [0077]
    6.2)使用pyrosetta计算每个目标蛋白的每个残基对应的二级结构(e、l、h、-),得到4
    ×
    l的特征图;
    [0078]
    6.3)根据每个目标蛋白质的诱饵结构的lsr(local shape recognition)特征,得到3
    ×
    l的特征图,计算过程如下:
    [0079]
    6.3.1)对于每个诱饵结构,计算每对残基之间的欧氏距离(根据c
    α
    原子计算),提取与残基qi的距离在内的所有残基的距离之和的平均值μ1,并记下与残基qi的距离在内的最远残基q
    i1

    [0080]
    6.3.2)提取与残基q
    i1
    的距离在内的所有残基的距离之和的平均值μ2,并记下与残基q
    i1
    的距离在内的最远残基q
    i2

    [0081]
    6.3.3)提取与残基q
    i2
    的距离在内的所有残基的距离之和的平均值μ3;对每个诱饵结构的每个残基提取了[μ1,μ2,μ3]的一维特征,对于整个诱饵结构,提取了3
    ×
    l的特征图;
    [0082]
    7)对数据集中的每一个蛋白质天然结构及其诱饵结构提取二维特征信息,得到13
    ×
    l
    ×
    l的特征图,过程如下:
    [0083]
    7.1)使用pyrosetta计算数据集中每个目标蛋白质的诱饵结构的7种残基对能量项(fa_atr,fa_rep,fa_sol,lk_ball_wtd,fa_elec,hbond_bb_sc,hbond_sc),得到7
    ×
    l
    ×
    l的特征图;
    [0084]
    7.2)对数据集中的每个目标蛋白质诱饵结构,根据每个残基中原子的三维空间坐标,计算每对残基之间的c
    α
    原子-c
    α
    原子、c
    α
    原子-tip原子、tip原子-c
    α
    原子的欧式距离组合,得到3
    ×
    l
    ×
    l的特征图;其中,每种氨基酸的tip原子如图2所示;
    [0085]
    7.3)使用trrosetta提取每个目标蛋白质的诱饵结构的残基对的orientations得到3
    ×
    l
    ×
    l;
    [0086]
    8)步骤5)提取的三维图特征经过一系列三维卷积层,生成的输出张量(4
    ×4×4×
    10
    ×
    l)将被展平,以使其成为每个残基的一维特征图(640
    ×
    l),然后与步骤6)其他一维特征串联,得到新的一维特征图(651
    ×
    l),并经过一个一维卷积将维度降成64
    ×
    l,最后将最终的的一维特征水平和垂直条带化后(128
    ×
    l
    ×
    l)与其他二维特征结合在一起,得到最终
    的二维特征图141
    ×
    l
    ×
    l,最终执行一系列二维卷积操作;
    [0087]
    9)搭建卷积网络模型,过程如下:
    [0088]
    9.1)网络的第一部分,步骤5)提取的三维图特征依次经过卷积核数量分别为20,30,30,10,卷积核大小分别为1
    ×1×
    1,3
    ×3×
    3,4
    ×4×
    4,4
    ×4×
    4的四个三维卷积层,然后经过一个elu激活函数,最后通过一个核大小为4
    ×4×
    4,步长为4的三维平均池化层。
    [0089]
    9.2)网络的第二部分,有15个残差块的残差网络,循环膨胀率为1,2,4,8,16;然后,网络分支到4个残差块的两个分支,每个残差块由三个卷积层、三个归一化层组成;两个分支的输出层分布由一个sigmod和一个
    [0090]
    softmax非线性函数组成;
    [0091]
    10)训练模型参数,使用xavier均匀分布初始化,使用adam optimizer方法对网络权重进行优化,学习率为0.0005,使用多元交叉熵损失函数评估残基对距离误差损失,使用二元交叉熵损失函数评估mask的损失,mask的残基对距离小于使用均方损失函数评估每个残基的lddt损失,最后最小化距离误差损失、mask损失、lddt损失的结合;
    [0092]
    每个残基lddt得分计算如下:
    [0093]
    per_residue_lddt=0.25
    ×
    (p1 p2 p3 p4)/p0ꢀꢀꢀꢀꢀ
    (1)
    [0094]
    其中,p1是与第i个残基的距离中小于的所有残基对中距离误差的幅度
    [0095]
    小于的概率;同理,p2,p3,p4的幅度阈值分别是p0表示第i个残基与其他残基距离小于的概率;
    [0096]
    总损失计算如下:
    [0097]
    global_loss=esto_loss mask_loss 10
    ×
    lddt_loss
    [0098]
    其中,esto_loss表示每对残基距离误差损失,mask_loss表示mask的损失,lddt_loss表示每个残基的lddt损失;
    [0099]
    11)对于待预测的蛋白质结构,首先从结构信息中提取其输入特征,然后将特征输入到残差网络中,输出结果为残基对mask概率得分和残基对距离误差概率得分,最后根据步骤10)中公式(1)计算每个残基的模型质量得分。
    [0100]
    本实施例以蛋白质4bo1a为实例,一种基于深度学习的蛋白质模型质量评估方法,包括以下步骤:
    [0101]
    1)在pisces服务器中筛选出蛋白质长度在50-300个残基,最大序列冗余度为40%,分辨率《=的蛋白质索引,然后从pdb库中下载相应蛋白质结构信息,得到包含5465个蛋白质结构信息根据目标蛋白的序列;
    [0102]
    2)使用三种方法生成步骤1)中每个蛋白在不同模型质量分布上的100个诱饵结构;首先使用rosettacm对每个天然结构进行不同精度模板的比较建模,每个天然结构得到60个诱饵结构;然后使用rosettacm在每个天然结构的随机位置插入片段进行扰动,得到每个天然结构得到20个诱饵结构;最后使用trrosetta进行深度学习指导折叠,得到每个天然结构得到20个诱饵结构;
    [0103]
    3)将步骤2)中得到的每个蛋白质及其诱饵结构数据集,其中选出4682个蛋白质及其诱饵结构作为训练集,583个蛋白质及其诱饵结构作为验证集,剩余200个蛋白质及其诱饵结构作为测试集;
    [0104]
    4)对数据集中的每一个蛋白质天然结构及其诱饵结构,制作标签数据,过程如下:
    [0105]
    4.1)对数据集中的每一个蛋白质诱饵结构,根据每个残基中c
    β
    原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含c
    β
    原子,以c
    α
    原子代替;如果距离小于则表示为1,反之为0,并构建残基对mask矩阵;
    [0106]
    4.2)对数据集中的每一个蛋白质天然结构及其诱饵结构,根据每个残基中c
    β
    [0107]
    原子的三维空间坐标,计算出每对残基之间的欧式距离,如果残基中不包含c
    β
    原子,以c
    α
    原子代替;然后对每个蛋白质的诱饵结构的每对残基
    [0108]
    距离和其天然结构对应的残基对距离计算距离误差,计算公式如下:
    [0109]
    err
    ij
    =d
    decoyij-d
    nativeij
    [0110]
    其中,d
    decoyij
    是诱饵结构的残基对距离,d
    nativeij
    是对应天然结构对应残基对距离。根据距离误差信息划分15个距离误差区间,分别根据距离误差信息划分15个距离误差区间,分别根据距离误差信息划分15个距离误差区间,分别根据距离误差信息划分15个距离误差区间,分别对这15个区间标号0,1,2,3,4,5,6,7,8,9,10,11,12,13,14;残基对距离误差落入哪个区间取对应的标号作为标签值;
    [0111]
    5)对数据集中的每一个蛋白质天然结构及其诱饵结构提取三维特征信息,用体素化方式表示每个残基的三维特征信息,得到24
    ×
    24
    ×
    24
    ×
    167
    ×
    l的特征图,过程如下:
    [0112]
    5.1)为当前残基建立三维笛卡尔坐标系,轴方向与从前一个残基的c原子(c
    n-1
    )指向当前残基的n原子(nn)的方向重合,轴垂直于轴并使当前残基的c
    α
    原子位于半平面轴由的方向定义;
    [0113]
    5.2)以当前残基的c
    α
    原子为几何中心及步骤5.1)建立的三维笛卡尔坐标系方向构建一个边长为的立方体m,搜索其在该立方体内的所有邻域原子,根据原子的原始位置坐标映射到步骤5.1)建立的三维坐标系,得到其当前的位置坐标;
    [0114]
    5.3)将步骤5.2)中构建的立方体平均分成24
    ×
    24
    ×
    24个边长为的小立方体;并为每个小立方体的中心填充值v,计算公式如下:
    [0115][0116]
    其中,n
    atoms
    表示m内的原子数量,表示当前小立方体中心位置的坐标,表示m内第i个原子的位置坐标,ti表示167维的单位向量,其唯一的非零分量对应于第i个原子的类型;167种原子类型如图1所示;
    [0117]
    6)对数据集中的每一个蛋白质天然结构及其诱饵结构提取一维特征信息,得到11
    ×
    l的特征图,过程如下:
    [0118]
    6.1)使用pyrosetta计算数据集中每个目标蛋白质的诱饵结构的4种残基能量项(omega,p_aa_pp,fa_dun,rama_prepro),得到4
    ×
    l的特征图;
    [0119]
    6.2)使用pyrosetta计算每个目标蛋白的每个残基对应的二级结构(e、l、h、-),得
    到4
    ×
    l的特征图;
    [0120]
    6.3)根据每个目标蛋白质的诱饵结构的lsr(local shape recognition)特征,得到3
    ×
    l的特征图,计算过程如下:
    [0121]
    6.3.1)对于每个诱饵结构,计算每对残基之间的欧氏距离(根据c
    α
    原子计算),提取与残基qi的距离在内的所有残基的距离之和的平均值μ1,并记下与残基qi的距离在内的最远残基q
    i1

    [0122]
    6.3.2)提取与残基q
    i1
    的距离在内的所有残基的距离之和的平均值μ2,并记下与残基q
    i1
    的距离在内的最远残基q
    i2

    [0123]
    6.3.3)提取与残基q
    i2
    的距离在内的所有残基的距离之和的平均值μ3;对每个诱饵结构的每个残基提取了[μ1,μ2,μ3]的一维特征,对于整个诱饵结构,提取了3
    ×
    l的特征图;
    [0124]
    7)对数据集中的每一个蛋白质天然结构及其诱饵结构提取二维特征信息,得到13
    ×
    l
    ×
    l的特征图,过程如下:
    [0125]
    7.1)使用pyrosetta计算数据集中每个目标蛋白质的诱饵结构的7种残基对能量项(fa_atr,fa_rep,fa_sol,lk_ball_wtd,fa_elec,hbond_bb_sc,hbond_sc),得到7
    ×
    l
    ×
    l的特征图;
    [0126]
    7.2)对数据集中的每个目标蛋白质诱饵结构,根据每个残基中原子的三维空间坐标,计算每对残基之间的c
    α
    原子-c
    α
    原子、c
    α
    原子-tip原子、tip原子-c
    α
    原子的欧式距离组合,得到3
    ×
    l
    ×
    l的特征图;其中,每种氨基酸的tip原子如图2所示;
    [0127]
    7.3)使用trrosetta提取每个目标蛋白质的诱饵结构的残基对的orientations得到3
    ×
    l
    ×
    l;
    [0128]
    8)步骤5)提取的三维图特征经过一系列三维卷积层,生成的输出张量(4
    ×4×4×
    10
    ×
    l)将被展平,以使其成为每个残基的一维特征图(640
    ×
    l),然后与步骤6)其他一维特征串联,得到新的一维特征图(651
    ×
    l),并经过一个一维卷积将维度降成64
    ×
    l,最后将最终的的一维特征水平和垂直条带化后(128
    ×
    l
    ×
    l)与其他二维特征结合在一起,得到最终的二维特征图141
    ×
    l
    ×
    l,最终执行一系列二维卷积操作;
    [0129]
    9)搭建卷积网络模型,过程如下:
    [0130]
    9.1)网络的第一部分,步骤5)提取的三维图特征依次经过卷积核数量分别为20,30,30,10,卷积核大小分别为1
    ×1×
    1,3
    ×3×
    3,4
    ×4×
    4,4
    ×4×
    4的四个三维卷积层,然后经过一个elu激活函数,最后通过一个核大小为4
    ×4×
    4,步长为4的三维平均池化层。
    [0131]
    9.2)网络的第二部分,有15个残差块的残差网络,循环膨胀率为1,2,4,8,16;然后,网络分支到4个残差块的两个分支,每个残差块由三个卷积层、三个归一化层组成;两个分支的输出层分布由一个sigmod和一个softmax非线性函数组成;
    [0132]
    10)训练模型参数,使用xavier均匀分布初始化,使用adam optimizer方法对网络权重进行优化,学习率为0.0005,使用多元交叉熵损失函数评估残基对距离误差损失,使用二元交叉熵损失函数评估mask的损失,mask的残基对距离小于使用均方损失函数评估每个残基的lddt损失,最后最小化距离误差损失、mask损失、lddt损失的结合;
    [0133]
    每个残基lddt得分计算如下:
    [0134]
    per_residue_lddt=0.25
    ×
    (p1 p2 p3 p4)/p0ꢀꢀꢀꢀ
    (1)
    [0135]
    其中,p1是与第i个残基的距离中小于的所有残基对中距离误差的幅度小于的概率,同理,p2,p3,p4的幅度阈值分别是p0表示第i个残基与其他残基距离小于的概率;
    [0136]
    总损失计算如下:
    [0137]
    global_loss=esto_loss mask_loss 10
    ×
    lddt_loss
    [0138]
    其中,esto_loss表示每对残基距离误差损失,mask_loss表示mask(残基对距离小于的损失,lddt_loss表示每个残基的lddt损失;
    [0139]
    11)对于待预测的蛋白质结构,首先从结构信息中提取其输入特征,然后将特征输入到残差网络中,输出结果为残基对mask概率得分和残基对距离误差概率得分,最后根据步骤10)中公式(1)计算每个残基的模型质量得分。
    [0140]
    以蛋白质4bo1a为实施例。运用上述方法得到了该蛋白质的部分诱饵结构的模型质量评估结果,如图2所示。
    [0141]
    以上阐述的是本发明给出的一个实施例表现出来的优良效果,本发明不仅适合上述实施例,而且在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
    转载请注明原文地址:https://tc.8miu.com/read-1854.html

    最新回复(0)