1.本发明涉及生物信息处理技术领域,具体涉及一种基于分子定向信息描述符和自注意力机制的药物分子筛选方法及系统。
背景技术:
2.分子性质预测是一种化学信息处理技术,近年来深度学习网络的发展,让对分子性能预测的效果得到了很大提高。有两类模型已经表现出了很好分子描述能力,并在分子性能预测上产生了很好的结果,一是应用于计算分子指纹或专家制作的分子描述符的神经网络,二是根据分子图结构来学习分子特征的图卷积神经网络。
3.分子指纹的代表是rdkit分子指纹、morgan分子指纹等,图卷积神经网络的代表是gated graph neural networks(gg-nn),molecular graph convolutions,neural message passing for quantum chemistry等。
4.上述两类模型方法虽然表现良好,但是各自也存在各自的缺陷,如:固定分子指纹对分子进行描述时,采集分子信息的工作不具有灵活性;分子图卷积神经网络多采用以分子中的原子为中心进行分子信息传递,且原子信息会进行循环采集,导致信息重复以致冗余,进而使分子描述能力下降;分子性质分类网络多采用feed-forward neural network(ffn)、random forest(rf)等结构较为简单的网络,提取分子关键信息的能力不足,预测结构不够准确。
技术实现要素:
5.本发明的目的在于提供一种避免了分子信息的循环采集、提取了更全面分子关键信息的基于分子定向信息描述符和自注意力机制的药物分子筛选方法及系统,以解决上述背景技术中存在的至少一项技术问题。
6.为了实现上述目的,本发明采取了如下技术方案:
7.一方面,本发明提供一种药物分子筛选方法,包括:
8.获取待筛选的药物分子;
9.基于所述药物分子的分子式,获取分子定向信息描述符;其中,所述分子定向信息描述符为表征所述药物分子的分子键特征的多个一维向量组成;
10.使用预先训练好的分类模型,对所述分子定向信息描述符进行处理,得到分子性质分类结果。
11.优选的,获取分子定向信息描述符包括:以初始分子键为起点,沿着一个固定方向进行分子信息采集,并对采集过的分子键进行信息更新。
12.优选的,所述预先训练好的分类模型采用1dcnn网络级联了多个卷积层、多个最大池化层和多个丢弃层。
13.优选的,所述分子定向信息描述符首先被输入到两个一维卷积层的级联中,以tanh函数进行激活;在最后一层丢弃层输出后,经过展平层,输入至两层全连接层,经过
keras分类器对分子性质进行分类。
14.优选的,在展平层前嵌入自注意力模块用于捕获分子结构中的关键信息,提高关键信息在分子特性分类过程中的比重。
15.优选的,第一层全连接层神经元个数为540,激活函数为relu函数,第二层神经元个数为2,激活函数为softmax函数;第二层全连接层用于二分类操作,最终输出分子性质每个类别的分类概率。
16.第二方面,本发明提供一种药物分子筛选系统,包括:
17.获取模块,用于获取待筛选的药物分子;
18.转换模块,用于基于所述药物分子的分子式,获取分子定向信息描述符;其中,所述分子定向信息描述符为表征所述药物分子的分子键特征的多个一维向量组成;
19.分类模块,用于使用预先训练好的分类模型,对所述分子定向信息描述符进行处理,得到分子性质分类结果。
20.第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的药物分子筛选方法。
21.第四方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的药物分子筛选方法。
22.第五方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的药物分子筛选方法的指令。
23.本发明有益效果:可以对分子进行灵活编码,且分子信息避免了循环采集,提高了分子描述的准确度;采取卷积神经网络结合自注意力模块处理分子描述符,提取了更多更全面的分子信息特征,提高了模型分类能力。
24.本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
25.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
26.图1为本发明实施例所述的基于分子定向信息描述符和自注意力机制的药物分子筛选网络流程架构图。
27.图2为本发明实施例所述的分子定向信息描述符由数据集分子转换生成示意图。
28.图3为本发明实施例所述的分子定向信息描述符信息采集流程示意图。
29.图4为本发明实施例所述的bbbp数据集运行结果roc曲线图。
30.图5为本发明实施例所述的使用不同模型的测试运行结果对比图。
具体实施方式
31.下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
32.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
33.还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
34.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
35.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
36.为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
37.本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
38.实施例1
39.如图1所示,本实施例1提供一种药物分子筛选系统,该系统包括:
40.获取模块,用于获取待筛选的药物分子;
41.转换模块,用于基于所述药物分子的分子式,获取分子定向信息描述符;其中,所述分子定向信息描述符为表征所述药物分子的分子键特征的多个一维向量组成;
42.分类模块,用于使用预先训练好的分类模型,对所述分子定向信息描述符进行处理,得到分子性质分类结果。
43.本实施例1中,利用上述系统实现了一种药物分子筛选方法,包括:
44.使用获取模块获取待筛选的药物分子;
45.使用转换模块,基于所述药物分子的分子式,获取分子定向信息描述符;其中,所述分子定向信息描述符为表征所述药物分子的分子键特征的多个一维向量组成;
46.使用分类模块基于预先训练好的分类模型,对所述分子定向信息描述符进行处理,得到分子性质分类结果。
47.获取分子定向信息描述符包括:以初始分子键为起点,沿着一个固定方向进行分子信息采集,并对采集过的分子键进行信息更新。
48.具体的,采用定向消息传递网络对数据集进行处理,将数据集中的分子式转换为
300位定向分子信息描述符,该300位定向分子信息描述符是300位一维向量。定向分子信息描述符获取方式如下:
49.首先,连接a原子与b原子的分子键原始状态下的隐藏特征
[0050][0051]
其中,代表连接a原子与b原子的分子键原始状态下的隐藏特征,ε代表激活函数的激活功能,zi代表了学习矩阵,xa代表a原子的特征信息,l
ab
代表a原子指向b原子的分子键(ab键)的特征信息,c(xa,l
ab
)代表了将a原子的特征和ab键的特征二者进行连接,组成一个矩阵。
[0052]
下一步,获取由原子a指向原子b的分子键的信息:
[0053][0054][0055]
其中,c原子代表除了b原子外,所有与a原子有连接的原子,代表第t次迭代中c原子指向a原子的分子键的特征信息,xc代表c原子的特征信息,代表了除b原子外,所有与a原子有连接的原子向a原子传递的信息,这信息累加后,这些信息需要由a原子沿ab键传递向b原子,zg代表学习矩阵,q(a)是原子a周围原子的合集。g
t
代表信息传递函数,是取决于参数的任意函数。需要注意,与实验操作中上一次迭代产生的没有关系。
[0056]
最后,每个分子要用原子进行表示,以a原子为例,对a原子的分子键特征信息需要进行累加求和:
[0057][0058]
ka=ε(zjc(xa,ga));
[0059]
ga代表a原子所有向外传递的信息的累加结果,zj代表学习矩阵,c(xa,ga)将将a原子的特征和ga所含信息二者进行连接,组成一个矩阵,ka代表a原子的所含全部特征信息。
[0060]
获取分子的特征信息需要将所有原子的特征信息进行求和:
[0061]
其中,v代表组成分子的全部原子,k代表全部原子信息的加和,k
x
代表分子中某个原子的信息。
[0062]
最终,得到的是每个目标分子的300位定向分子信息描述符。
[0063]
所述预先训练好的分类模型采用1dcnn网络级联了多个卷积层、多个最大池化层和多个丢弃层。
[0064]
所述分子定向信息描述符首先被输入到两个一维卷积层的级联中,以tanh函数进行激活;在最后一层丢弃层输出后,经过展平层,输入至两层全连接层,经过keras分类器对分子性质进行分类。
[0065]
在展平层前嵌入自注意力模块用于捕获分子结构中的关键信息,提高关键信息在分子特性分类过程中的比重。
[0066]
第一层全连接层神经元个数为540,激活函数为relu函数,第二层神经元个数为2,激活函数为softmax函数;第二层全连接层用于二分类操作,最终输出分子性质每个类别的分类概率。
[0067]
具体的,本实施例1中,在处理定向分子信息描述符时,利用卷积神经网络对其进行处理,网络模型如图1所示。模型采用的1dcnn网络级联了4个一维卷积层、3个最大池化层和2个丢弃层。
[0068]
本实施例1中,神经网络的第一部分由两个一维卷积层和一个最大池化层组成。数据首先被输入到两个一维卷积层的级联中。两个级联的一维卷积层,第一层一维卷积层卷积核个数为20,卷积核大小为3;第二层一维卷积层卷积核个数为60,卷积核大小为3;两个一维卷积层激活方法选择了tanh函数,步长均设置为1。然后,第二个一维卷积层的输出被输入到最大池化层,池化窗口大小为3,该层目的是保留主要特征以防止过度拟合并提高运行率。
[0069]
神经网络的第二和第三部分都是由一个一维卷积层、一个最大池化层和一个丢弃层组成,在每个最大池化层之后,各接入一个丢弃层,目的还是为了防止过拟合。
[0070]
第二和第三部分的一维卷积层,卷积核个数为60,卷积核大小为3,激活方式采用tanh函数,步长设置为1;两个最大池化层的窗口参数设置为3;第二部分的丢弃层的丢弃概率设为0.5,第三部分的丢弃层丢弃概率设为0.2。
[0071]
数据在第三部分丢弃层输出后,输入至自注意力模块。经自注意力模块处理后,利用展平层将自注意力模块的输出与全连接层进行连接。本部分全连接层共有两层,第一层全连接层神经元个数为540,激活函数为relu函数,第二层神经元个数为2,激活函数为softmax函数。第二层全连接层用于二分类操作,最终输出每个类别的分类概率,由此可输出分子的预测标签。例如:a分子经网络预测,结果为1的概率为0.75,0的概率为0.25,继而可得出a分子的预测标签为1。
[0072]
本实施例1中,实验模型训练的损失函数选择交叉熵损失函数(categorical crossentropy),优化器选择adam优化器,评价指标选择auc值。
[0073]
本发明在bbbp(blood-brain barrier penetration)数据集、clintox数据集、sider(side effect resource)数据集和tox21(toxicology in the 21st century)数据集上进行了实验。将每个数据集中的分子式经定向消息传递网络处理后获取300位定向分子信息描述符,获得的定向分子信息描述符输入至本实施例提出的网络分类模型中,经卷积神经网络和自注意力模块联合进行处理,最终对分子性质做出分类。
[0074]
本实施例1中,先对有标签的数据集进行训练,挑选出表现最好的模型参数,再保存表现最好的模型对未知标签的分子进行预测。
[0075]
实施例2
[0076]
本实施例2中,提供了基于分子定向信息描述符和自注意力机制的药物分子筛选算法,该算法的整体架构如图1所示,包括的分子定向信息描述符的生成和卷积神经网络的运行两大部分。具体步骤如下:
[0077]
其中,所述分子定向信息描述符是由数据集中分子式转换而来,转换过程如图2所示。分子定向信息描述符的信息采集过程如图3所示,其具体获取方式如下:
[0078]
首先,连接a原子与b原子的原子键原始状态下的隐藏特征
[0079][0080]
其中,代表连接a原子与b原子的分子键原始状态下的隐藏特征,ε代表激活函数的激活功能,zi代表了学习矩阵,xa代表a原子的特征信息,l
ab
代表a原子指向b原子的分子键(ab键)的特征信息,c(xa,l
ab
)代表了将a原子的特征和ab键的特征二者进行连接,组成一个矩阵。
[0081]
下一步,获取由原子a指向原子b的分子键的信息:
[0082][0083][0084]
其中,c原子代表除了b原子外,所有与a原子有连接的原子,代表第t次迭代中c原子指向a原子的分子键的特征信息,xc代表c原子的特征信息,代表了除b原子外,所有与a原子有连接的原子向a原子传递的信息,这信息累加后,这些信息需要由a原子沿ab键传递向b原子,zg代表学习矩阵,q(a)是原子a周围原子的合集。g
t
代表信息传递函数,是取决于参数的任意函数。需要注意,与实验操作中上一次迭代产生的没有关系。
[0085]
最后,每个分子要用原子进行表示,所有的指向a原子的分子键特征信息需要进行累加求和:
[0086][0087]
ka=ε(zjc(xa,ga));
[0088]
ga代表a原子所有向外传递的信息的累加结果,zj代表学习矩阵,c(xa,ga)将将a原子的特征和ga所含信息二者进行连接,组成一个矩阵,ka代表a原子的所含全部特征信息。
[0089]
获取分子的特征信息需要将所有原子的特征信息进行求和:
[0090]
其中,v代表组成分子的全部原子,k代表全部原子信息的加和,k
x
代表分子中某个原子的信息。
[0091]
最终,得到的是每个目标分子的300位定向分子信息描述符。
[0092]
第二部分,将获取的分子定向信息描述符输入至提出的分类模型进行处理。
[0093]
数据先输入分类模型的第一部分,该部分由两个卷积层,一个最大池化层级联而成。第一层一维卷积层卷积核个数为20,卷积核大小为3;第二层一维卷积层卷积核个数为60,卷积核大小为3;两个一维卷积层激活方法选择了tanh函数,步长均设置为1。然后,第二个一维卷积层的输出被输入到最大池化层,池化窗口大小为3。第一部分的输出接下来按顺序先输入至模型的第二部分,第二部分的输出再输入至第三部分进行处理。第二和第三部分都是由一个一维卷积层、一个最大池化层和一个丢弃层级联组成,在每个最大池化层之后,各接入一个丢弃层。第二和第三部分的一维卷积层,卷积核个数为60,卷积核大小为3,激活方式采用tanh函数,步长设置为1;两个部分的最大池化层的窗口参数设置为3;第二部分的丢弃层的丢弃概率设为0.5,第三部分的丢弃层丢弃概率设为0.2。第三部分将数据处理完成后,第三部分的输出需要输入至自注意力模块。经自注意力模块处理后,利用展平层
将自注意力模块与全连接层进行连接。本部分全连接层共有两层,第一层全连接层神经元个数为540,激活函数为relu函数,第二层神经元个数为2,激活函数为softmax函数。第二层全连接层进行分子分类操作,最终输出每个类别的分类概率,由此进行判断当前分子的标签。例如:a分子经网络预测,结果为1的概率为0.75,0的概率为0.25,继而当前a分子的标签判断为1。最后通过对整个bbbp数据集中划为预测集的分子部分计算auc值,验证整体预测效果。如图4显示了在bbbp数据集上,本文方法和d-mpnn方法各自的roc曲线和据roc曲线计算出的auc值。
[0094]
为了验证本实施例2的算法对于分子性质筛选的优势,在bbbp(blood-brain barrier penetration)数据集、clintox数据集、sider(side effect resource)数据集和tox21(toxicology in the 21st century)数据集上进行了分子性质预测实验,实验结果如图5所示,其中,由于数据集本身原因,rf方法在clintox数据集上进行试验没有意义,故未进行对比。由图5可知,本实施例所建立的基于分子定向信息描述符和自注意力机制的药物分子筛选方法在分子性质预测上取得到了很好的效果,auc值明显高于其他方法,auc值越高则说明分类能力越强,在对分子性质的预测是准确有效的。
[0095]
实施例3
[0096]
本发明实施例3提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的药物分子筛选方法,该方法包括:
[0097]
获取待筛选的药物分子;
[0098]
基于所述药物分子的分子式,获取分子定向信息描述符;其中,所述分子定向信息描述符为表征所述药物分子的分子键特征的多个一维向量组成;
[0099]
使用预先训练好的分类模型,对所述分子定向信息描述符进行处理,得到分子性质分类结果。
[0100]
实施例4
[0101]
本发明实施例4提供一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的药物分子筛选方法,该方法包括:
[0102]
获取待筛选的药物分子;
[0103]
基于所述药物分子的分子式,获取分子定向信息描述符;其中,所述分子定向信息描述符为表征所述药物分子的分子键特征的多个一维向量组成;
[0104]
使用预先训练好的分类模型,对所述分子定向信息描述符进行处理,得到分子性质分类结果。
[0105]
实施例5
[0106]
本发明实施例5提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的药物分子筛选方法的指令,该方法包括:
[0107]
获取待筛选的药物分子;
[0108]
基于所述药物分子的分子式,获取分子定向信息描述符;其中,所述分子定向信息描述符为表征所述药物分子的分子键特征的多个一维向量组成;
[0109]
使用预先训练好的分类模型,对所述分子定向信息描述符进行处理,得到分子性质分类结果。
[0110]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0111]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0112]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0113]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0114]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
转载请注明原文地址:https://tc.8miu.com/read-1326.html