一种药物分子性质预测分类方法及系统

专利查询2022-07-07 193

1.本发明涉及药物筛选技术领域，特别是涉及一种药物分子性质预测分类方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.分子性质预测是化学信息学中最经典的任务之一，由于各类疾病对其药物抗药性的不断提高，需要从大型药物分子库中筛选出针对各类疾病的有效药物。随着深度神经网络研究的发展，结合深度学习的传统方式分为两种：(1)在传统定量结构-活性关系(quantitative structure-activity relationship,qsar)模型中常见的固定分子指纹上操作。qsar是基于结构相似的分子具有相似的生物活性的假设，给定一定数量的靶标，每个靶标利用其已知的活性分子建立一个预测模型，然后利用所建立的模型对所有药物进行筛选，预测药物与靶点之间的相互作用。(2)使用图卷积网络形成分子特征描述符，在此基础之上进行后续特征的提取。这两种方法都产生了实质性的效果，提高了药物性质预测的准确性。
4.但是，发明人发现，现有技术中只是存在以下技术问题：
5.(1)如果一个目标靶点的已知活性分子数量不够，那么所建立的qsar模型的性能就会很差，而且大多数qsar模型都只对一个目标预测活性，此时基于此模型的分子指纹所能表述的分子信息也会较少。
6.(2)常见卷积神经网络获取的分子描述符往往在描述分子支架信息时表现较差，这样就意味着这类描述符在其他数据集中进行构建信息，并且分类时效果会降低。
7.(3)传统方法在特征提取方面，忽略丰富的信息，导致特征提取不完整，最终导致筛选及分类精度较低。

技术实现要素：

8.为了解决上述问题，本发明提出了一种药物分子性质预测分类方法及系统，提出一种针对不同规格的分子描述符和分子指纹信息的分类方法，采用两种不同规格的卷积神经网络分别对分子描述符和分子指纹进行特征提取；采用分子定向传递信息和摩根分子指纹信息的融合特征，更精确地识别药物分子性质，从而实现精确分类。
9.为了实现上述目的，本发明采用如下技术方案：
10.第一方面，本发明提供一种药物分子性质预测分类方法，包括：
11.获取待测药物的分子图；
12.对分子图分别进行分子描述符和分子指纹的特征提取，得到分子定向传递信息和摩根分子指纹信息；
13.对分子定向传递信息和摩根分子指纹信息进行特征融合；
14.根据融合特征采用训练后的分类模型得到药物的分子性质预测结果。
15.作为可选择的实施方式，对分子图分别进行分子描述符的特征提取，得到分子定向传递信息的过程包括：
16.初始化原子隐藏状态；
17.根据分子图的信息传递，对原子隐藏状态和原子信息进行更新；
18.根据更新后的原子信息和原子隐藏状态，对原子隐藏状态求和得到分子定向传递信息。
19.作为可选择的实施方式，原子隐藏状态和原子信息分别为：
[0020][0021][0022]
其中，是第s 1步时原子p到原子q的定向信息；是第s步时原子p到原子q的定向隐藏状态；是第s 1步时原子p到原子q的定向隐藏状态；n(p)是分子图中的一组相邻原子；a
p
、aj分别是原子p和原子j的原子特征；ms和us分别是信息函数和原子定点更新函数，是原子j到原子p的定向隐藏状态。
[0023]
作为可选择的实施方式，对原子隐藏状态和原子信息进行更新时分别采用信息函数和原子定点更新函数，信息函数与原子定点更新函数分别为：
[0024][0025][0026]
其中，ti是隐藏大小为c的学习矩阵。
[0027]
作为可选择的实施方式，对分子图分别进行分子指纹的特征提取，得到摩根分子指纹信息的过程包括：获取分子指纹，将分子指纹的一维信息转化为二维信息，从而进行特征提取得到摩根分子指纹信息。
[0028]
作为可选择的实施方式，获取分子指纹的过程包括：
[0029]
对分子图中的原子进行初始化，为每个重原子分配整数标识符；
[0030]
以每个重原子为中心，在重原子圈中进行合并，直到达到指定半径，生成特征列表，得到分子指纹。
[0031]
作为可选择的实施方式，将得到的分子定向传递信息和摩根分子指纹信息在特征融合之前进行展平。
[0032]
第二方面，本发明提供一种药物分子性质预测分类系统，包括：
[0033]
获取模块，被配置为获取待测药物的分子图；
[0034]
特征提取模块，被配置为对分子图分别进行分子描述符和分子指纹的特征提取，得到分子定向传递信息和摩根分子指纹信息；
[0035]
特征融合模块，被配置为对分子定向传递信息和摩根分子指纹信息进行特征融合；
[0036]
预测分类模块，被配置为根据融合特征采用训练后的分类模型得到药物的分子性质预测结果。
[0037]
第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。
[0038]
第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。
[0039]
与现有技术相比，本发明的有益效果为：
[0040]
本发明提出一种药物分子性质预测分类方法及系统，采用两种不同维度的特征提取网络进行分子描述符和分子指纹的特征提取，可以充分准确地提取到特征信息；对分子定向传递信息和摩根分子指纹信息以连接融合的方式融合多维度特征，充分结合二者的优势，更精确地识别药物分子性质，从而更精确的实现分类；最后通过训练好的网络进行药物数据集的分类，针对不同规格的分子描述符和分子指纹信息的分类结果更加精确。
[0041]
本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
[0042]
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
[0043]
图1为本发明实施例1提供的药物分子性质预测分类方法示意图；
[0044]
图2为本发明实施例1提供的分子描述符特征提取示意图；
[0045]
图3为本发明实施例1提供的分子指纹特征提取示意图；
[0046]
图4为本发明实施例1提供的数据集概述示意图；
[0047]
图5(a)-5(d)为本发明实施例1提供的部分数据集实验结果的roc曲线比较示意图；
[0048]
图6为本发明实施例1提供的评估效果与目前先进的分类模型对比效果图。
具体实施方式
[0049]
下面结合附图与实施例对本发明做进一步说明。
[0050]
应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
[0051]
需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0052]
在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
[0053]
实施例1
[0054]
如图1所示，本实施例提供一种药物分子性质预测分类方法，采用两种不同规格的卷积神经网络分别对分子描述符和分子指纹进行特征提取；采用分子定向传递信息和摩根分子指纹信息进行特征融合的方式，充分结合二者的优势，更精确地识别药物分子性质，从而实现精确分类。
[0055]
具体包括：
[0056]
获取待测药物的分子图；
[0057]
对分子图分别进行分子描述符和分子指纹的特征提取，得到分子定向传递信息和摩根分子指纹信息；
[0058]
对分子定向传递信息和摩根分子指纹信息进行特征融合；
[0059]
根据融合特征采用训练后的分类模型得到药物的分子性质预测结果。
[0060]
本实施例提出了一种分子信息融合网络(molecular information fusion neural network，mifnn)结构，对药物分子针对各种疾病的有效性进行分类，如图1所示，分子信息融合网络包括特征提取部分、特征融合部分和特征分类部分；具体如下：
[0061]
特征提取部分是通过定向信息传递神经网络(directed message transfer neural network，d-mpnn)和分子定向信息特征提取网络(molecule directed information feature extraction network，mdifen)分别对分子描述符以及分子指纹进行特征提取，得到分子定向传递信息和摩根分子指纹信息；
[0062]
所述定向信息传递神经网络用于获取分子定向传递信息作为分子描述符；定向信息传递神经网络是一种在图g上运行的网络结构，使用原子特征a
p
表述分子的信息。该网络结构的运行阶段分为两步：生成分子表述阶段与读取阶段。
[0063]
在第一阶段，通过对分子图中的传递信息进行处理，生成可以表示分子特征的符号；并且在第二阶段根据这个符号对有价值的分子特性进行预测。
[0064]
分子表述的生成公式如下所示：
[0065][0066][0067]
其中，在第一阶段中有s个步骤，在某一步s时会有某一原子p隐藏状态和原子信息被更新；ms和us分别是信息函数和原子定点更新函数；n(p)是图g中的一组相邻原子；是第s步时原子p到原子q的定向隐藏状态，是第s 1步时原子p到原子q的定向隐藏状态；是第s步时原子p到原子q的定向信息；是第s 1步时原子p到原子q的定向信息，是一个相对独立的状态，与并无太多相关联系；a
p
、aj分别是原子p和原子j的原子特征；j是原子p附近的除原子p之外的其他原子，是原子j到原子p的定向隐藏状态。
[0068]
在每一次信息传递运作之前，都要对隐藏状态信息进行初始化，初始化的隐藏状
态信息为
[0069][0070]
其中，是学习矩阵，是原子特征与键特征的连接，τ是relu激活函数；
[0071]
信息函数与原子定点更新函数定义为：
[0072][0073][0074]
其中，ti是隐藏大小为c的学习矩阵；ti∈r
c*c
。
[0075]
在每一步上添加会为该边的原始特征向量提供一个跳过连接，最后，返回到分子的原子表示法，结合分子表述的生成公式，通过进入原子p的隐藏状态c
p
更新原子信息i
p
，具体为：
[0076][0077]cp
＝τ(tacat(a
p
,i
p
))；
[0078]
其中，是原子p相连的所有原子j到原子p的隐藏信息；ta是隐藏大小为c的矩阵，ta∈[r
c*c
。
[0079]
通过对隐藏信息求和得到分子定向传递信息(dpi)，公式如下所示：
[0080][0081]
获得分子定向传递信息dpi作为分子描述符后，将分子定向传递信息输入分子定向信息特征提取网络进行处理，如图2所示，将分子定向传递信息依次经过卷积层、池化层、卷积层、池化层后，将300位的分子定向传递信息处理得到1200位的特征信息。
[0082]
在本实施例中，同时使用摩根分子指纹。摩根指纹是圆形指纹，也属于拓扑指纹，是通过调整标准的摩根算法得到的。它可以大致等同于扩展连接性指纹(ecfps)。这些指纹有很多优点，如计算速度快，没有预定义(可以代表无限多的不同分子特征)，可以包含手性信息，指纹中的每个元素代表一个特定的子结构，可以很容易地分析和解释，可以根据不同的需要进行相应的修改等。这些指纹最初是为了搜索与活性有关的分子特征，而不是子结构搜索。
[0083]
指纹的生成过程大致分为以下几个步骤：
[0084]
(1)原子初始化，为每个重原子分配一个整数标识符。
[0085]
(2)迭代更新，以每个重原子为中心，在周围的重原子圈中进行合并，直到达到指定半径。
[0086]
(3)特征生成，对子结构进行操作并生成一个特征列表。
[0087]
本实施例将所需的分子指纹的位数设置为2048，在获得相应的指纹后，将其从
2048*1的一维信息转化为32*64的二维信息，以输入分子指纹特征提取网络(molecule fingerprint feature extraction network，mffen)，如图3所示，依次经过卷积层、池化层、卷积层、池化层后，得到摩根分子指纹信息。
[0088]
在本实施例中，在两种维度的特征提取网络之后加入融合层，两种网络通过不同维度的网络分别提取了不一样的特征信息，即分子定向传递信息和摩根分子指纹信息，在融合层中对这些信息进行积累并融合，融合前将获得的特征进行展平，公式分别如下：
[0089][0090][0091]
其中，pi是大小为m*n的2d特征图，a表示特征值，pi表示数据展平后的1d向量。
[0092]
融合层的输出作为最后的完整特征信息等待后续的分类处理，融合的公式如下所示：
[0093]fit
＝ff(p
i1
,p
i2
)＝[a
111
,...,a
nn1
,a
112
,...,a
nn2
]；
[0094]
其中，p
i1
、p
i2
分别表示获得的1d特征向量和2d特征向量，a表示两个不同向量中的单个特征值。采用展平和特征融合策略，模型可以得到更全面、更准确的评价结果。
[0095]
在本实施例中，对药物的毒性进行分子性质的预测，根据预测结果可以分析药物对某类疾病的有效性的概率等。
[0096]
在本实施例中，由于研究的药物分子特征数据集和fc层取得的分子特征的复杂度相对较低，经过多种分类模型的对比实验后，在分类层使用支持向量机时的准确性最高。因此采用svm对fc层中采集到的特征进行分类，核函数使用rbf，惩罚参数设置为100，核参数为0.01。
[0097]
当使用svm作为分类层进行最终分类时，得到的结果是实验样本到超平面的距离，这是svm进行分类的基础。在本实施例中，期望分类结果是药物分子对某种疾病有效性的概率，因此需要对svm的输出进行处理，使用sigmoid拟合方法将svm输出转化为后验概率。sigmoid拟合方法的优点是可以很好地估计后验概率，同时保持svm的稀疏性。处理的步骤和公式如下所示：
[0098][0099]
其中，a和b是要拟合的参数，μ是样本x的无阈值输出。
[0100]
本实施例在hiv、bace、bbbp等在该领域中使用较多的公开数据集上进行了大量实验，如图4所示。将模型得到的结果，根据评价指标auc(area under curve)进行分类结果评估，评估效果与目前先进的分类模型的对比如图5(a)-5(d)和图6所示，表明本实施例分类精度更高，分类效果更好，具有一定的实用性。这表明本实施例建立的基于深度学习卷积神经网络的药物分子性质预测分类方法是有效的，为其在后续的大规模药物分子库中进行有效目标药物的筛选提高了计算效率，具有一定的实用性。
[0101]
实施例2
[0102]
本实施例提供一种药物分子性质预测分类系统，包括：
[0103]
获取模块，被配置为获取待测药物的分子图；
[0104]
特征提取模块，被配置为对分子图分别进行分子描述符和分子指纹的特征提取，得到分子定向传递信息和摩根分子指纹信息；
[0105]
特征融合模块，被配置为对分子定向传递信息和摩根分子指纹信息进行特征融合；
[0106]
预测分类模块，被配置为根据融合特征采用训练后的分类模型得到药物的分子性质预测结果。
[0107]
此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
[0108]
在更多实施例中，还提供：
[0109]
一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。
[0110]
应理解，本实施例中，处理器可以是中央处理单元cpu，处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic，现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0111]
存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。
[0112]
一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。
[0113]
实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。
[0114]
本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0115]
上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

转载请注明原文地址:https://tc.8miu.com/read-1225.html

专利

最新回复(0)