1.本公开的各实现方式涉及计算机领域,更具体地,涉及设计配体分子的方法、装置、设备和计算机存储介质。
背景技术:
2.在药物发现中,一项重要的工作是寻找能够与目标分子(例如,靶向蛋白质分子)有效结合的药物小分子(也称为配体分子,ligand)。近年来,随着计算机技术的发展,诸如机器学习技术等计算机辅助技术被逐渐被应用于药物分子发现的过程中。
3.在设计配体分子的过程中,通常需要考虑配体分子的三维(3d)结构与目标分子之间的可结合性。如何高效地构建3d分子结构是设计配体分子中一项重要的挑战。
技术实现要素:
4.在本公开的第一方面,提供了一种用于设计配体分子的方法。该方法包括:编辑第一2d分子结构,以确定第二2d分子结构,编辑至少包括:从第一2d分子结构中删除2d结构片段,或者向第一2d分子结构添加2d结构片段;基于与第一2d分子结构对应的第一3d分子结构和编辑,确定与第二2d分子结构对应的一组候选3d分子结构;基于一组候选3d分子结构与目标分子之间的结合性,确定与第二2d分子结构对应的第二3d分子结构;以及基于第二3d分子结构,确定针对目标分子的配体分子的目标结构。
5.在一些实施例中,编辑第一2d分子结构包括:利用操作预测模型并基于与第一2d分子结构对应的特征表示,确定待被应用于第一2d分子结构的编辑操作;以及基于所确定的编辑操作,编辑第一2d分子结构。
6.在一些实施例中,确定待被应用于第一2d分子结构的编辑操作包括:利用操作预测模型并基于与特征表示,确定与一组预定编辑操作相关联的一组概率,其中一组预定编辑操作包括:在第一2d分子结构中的特定原子处添加特定2d结构片段,或者删除第一2d分子结构中的特定键;以及基于一组概率,从一组预定编辑操作中确定待被应用于第一2d分子结构的编辑操作。
7.在一些实施例中,添加2d结构片段包括:从片段库中选择目标2d结构片段,片段库包括多个2d结构片段;以及将目标2d结构片段添加至第一2d分子结构中的特定原子处。
8.在一些实施例中,确定与第二2d分子结构对应的一组候选3d分子结构包括:基于编辑并利用第一3d分子结构,确定一组候选3d分子结构,其中一组候选结构具有与第一3d分子结构对应的部分3d结构,部分3d结构对应于编辑操作未修改的部分2d结构。
9.在一些实施例中,编辑为向第一2d分子结构添加目标2d结构片段,并且确定一组候选3d分子结构包括:基于与第一2d分子结构对应的第一3d分子结构,确定构型约束;基于构型约束,生成与编辑对应的多个候选3d分子结构,构型约束用于限制第一3d分子结构在生成多个候选3d分子结构的过程中被调整的程度;以及基于构型约束,对多个候选3d分子结构执行能量优化,以确定一组候选3d分子结构。
10.在一些实施例中,结合性基于一组候选3d结构片段与目标分子之间的结合自由能而被确定。
11.在一些实施例中,确定针对目标分子的配体分子的目标结构包括:确定针对第二3d分子结构的第一评价,第一评价指示以下中的至少一项:第二3d分子结构与目标分子之间的目标结合性、第二3d分子结构的类药性qed、或者第二3d分子结构的可合成性;基于第一评价和针对第一3d分子结构的第二评价,确定第二2d分子结构被接受的概率;以及根据概率,基于第二2d分子结构和第二3d分子结构确定目标结构。
12.在一些实施例中,基于第二2d分子结构和第二3d分子结构确定目标结构包括:响应于第一评价优于第二评价,基于针对第一2d分子结构的编辑来训练用于预测编辑操作的编辑模型;利用经训练的编辑模型,编辑第二2d分子结构以确定第三2d分子结构;以及基于第三2d分子结构和第二3d分子结构,确定针对目标分子的配体分子的目标结构。
13.在一些实施例中,确定针对第二3d分子结构的第一评价包括:基于目标结合性,确定第一标准化值,第一标准化值随目标结合性指示的结合自由能增大而减小;基于类药性,确定第二标准化值,第二标准化值基于类药性的增大来增大;基于可合成性,确定第三标准化值,第三标准化值基于可合成性指示的合成难度增大而减小;以及基于第一标准化值、第二标准化值和第三标准化值,确定第一评价。
14.在一些实施例中,基于第一标准化值、第二标准化值和第三标准化值确定第一评价包括:基于与第一标准化值相关联的第一权重、与第二标准化值相关联的第二权重和与第三标准化值相关联的第三权重,根据第一标准化值、第二标准化值和第三标准化值确定第一评价。
15.在一些实施例中,第一2d分子结构是对初始的2d分子结构应用了第一数目的编辑操作而被生成,并且概率还基于第一数目。
16.在一些实施例中,第一2d分子结构是对初始的2d分子结构应用了第一数目的编辑操作而被生成,并且确定针对目标分子的配体分子的目标结构包括:递增第一数目以确定第二数目;以及如果第二数目达到预定阈值,将第二3d分子结构确定为目标结构。
17.在本公开的第二方面中,提供了一种用于设计配体分子的装置。该装置包括:编辑模块,被配置为编辑第一2d分子结构,以确定第二2d分子结构,编辑至少包括:从第一2d分子结构中删除2d结构片段,或者向第一2d分子结构添加2d结构片段;以及生成模块,被配置为基于与第一2d分子结构对应的第一3d分子结构和编辑,确定与第二2d分子结构对应的一组候选3d分子结构;以及基于一组候选3d分子结构与目标分子之间的结合性,确定与第二2d分子结构对应的第二3d分子结构;其中编辑模块还被配置为:基于第二3d分子结构,确定针对目标分子的配体分子的目标结构。
18.在一些实施例中,编辑模块还被配置为:利用操作预测模型并基于与第一2d分子结构对应的特征表示,确定待被应用于第一2d分子结构的编辑操作;以及基于所确定的编辑操作,编辑第一2d分子结构。
19.在一些实施例中,编辑模块还被配置为:利用操作预测模型并基于与特征表示,确定与一组预定编辑操作相关联的一组概率,其中一组预定编辑操作包括:在第一2d分子结构中的特定原子处添加特定2d结构片段,或者删除第一2d分子结构中的特定键;以及基于一组概率,从一组预定编辑操作中确定待被应用于第一2d分子结构的编辑操作。
20.在一些实施例中,编辑模块还被配置为:从片段库中选择目标2d结构片段,片段库包括多个2d结构片段;以及将目标2d结构片段添加至第一2d分子结构中的特定原子处。
21.在一些实施例中,生成模块还被配置为:基于编辑并利用第一3d分子结构,确定一组候选3d分子结构,其中一组候选结构具有与第一3d分子结构对应的部分3d结构,部分3d结构对应于编辑操作未修改的部分2d结构。
22.在一些实施例中,编辑为向第一2d分子结构添加目标2d结构片段,并且生成模块还被配置为:基于与第一2d分子结构对应的第一3d分子结构,确定构型约束;基于构型约束,生成与编辑对应的多个候选3d分子结构,构型约束用于限制第一3d分子结构在生成多个候选3d分子结构的过程中被调整的程度;以及基于构型约束,对多个候选3d分子结构执行能量优化,以确定一组候选3d分子结构。
23.在一些实施例中,结合性基于一组候选3d结构片段与目标分子之间的结合自由能而被确定。
24.在一些实施例中,编辑模块还被配置为:确定针对第二3d分子结构的第一评价,第一评价指示以下中的至少一项:第二3d分子结构与目标分子之间的目标结合性、第二3d分子结构的类药性qed、或者第二3d分子结构的可合成性;基于第一评价和针对第一3d分子结构的第二评价,确定第二2d分子结构被接受的概率;以及根据概率,基于第二2d分子结构和第二3d分子结构确定目标结构。
25.在一些实施例中,编辑模块还被配置为:响应于第一评价优于第二评价,基于针对第一2d分子结构的编辑来训练用于预测编辑操作的编辑模型;利用经训练的编辑模型,编辑第二2d分子结构以确定第三2d分子结构;以及基于第三2d分子结构和第二3d分子结构,确定针对目标分子的配体分子的目标结构。
26.在一些实施例中,生成模块还被配置为:基于目标结合性,确定第一标准化值,第一标准化值随目标结合性指示的结合自由能增大而减小;基于类药性,确定第二标准化值,第二标准化值基于类药性的增大来增大;基于可合成性,确定第三标准化值,第三标准化值基于可合成性指示的合成难度增大而减小;以及基于第一标准化值、第二标准化值和第三标准化值,确定第一评价。
27.在一些实施例中,生成模块还被配置为:基于与第一标准化值相关联的第一权重、与第二标准化值相关联的第二权重和与第三标准化值相关联的第三权重,根据第一标准化值、第二标准化值和第三标准化值确定第一评价。
28.在一些实施例中,第一2d分子结构是对初始的2d分子结构应用了第一数目的编辑操作而被生成,并且概率还基于第一数目。
29.在一些实施例中,第一2d分子结构是对初始的2d分子结构应用了第一数目的编辑操作而被生成,并且编辑模块还被配置为:递增第一数目以确定第二数目;以及如果第二数目达到预定阈值,将第二3d分子结构确定为目标结构。
30.在本公开的第三方面,提供了一种电子设备,包括:存储器和处理器;其中存储器用于存储一条或多条计算机指令,其中一条或多条计算机指令被处理器执行以实现根据本公开的第一方面的方法。
31.在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行实现根据本公开的第一方面的方
法。
32.在本公开的第五方面,提供了一种计算机程序产品,其包括一条或多条计算机指令,其中一条或多条计算机指令被处理器执行实现根据本公开的第一方面的方法。
33.根据本公开的各种实施例,能够利用在先状态的3d分子结构来构建新的3d分子结构,以用于评估经编辑的3d分子结构(或其对应的2d分子结构)是否可以被接受,以用于确定最终配体分子的目标结构。基于这样的方式,本公开的实施例能够提高3d分子结构的构建效率,尤其能提高3d分子结构与目标分子之间结合构型的搜索,从而提高确定配体分子的效率。
附图说明
34.结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
35.图1示出了能够实施本公开的一些实施例的计算设备的示意性框图;
36.图2示出了根据本公开的一些实施例的设计模块的示意性框图;
37.图3示出了根据本公开的一些实施例的构建3d分子结构的示意图;
38.图4示出了根据本公开的又一些实施例的构建3d分子结构的示意图;以及
39.图5示出了根据本公开的一些实施例的用于设计配体分子的示例方法的流程图。
具体实施方式
40.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
41.在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
42.如以上讨论的,随着计算机技术的发展,诸如机器学习技术等计算机辅助技术被逐渐被应用于药物分子发现的过程中。人们也越来越关注基于计算机辅助技术来进行药物分子发现的效率。
43.根据本公开的实现,提供了一种用于设计配体分子的方案。在该方案中,可以编辑第一2d分子结构,以确定第二2d分子结构,其中编辑至少包括:从第一2d分子结构中删除2d结构片段,或者向第一2d分子结构添加2d结构片段。进一步地,可以基于与第一2d分子结构对应的第一3d分子结构和编辑,确定与第二2d分子结构对应的一组候选3d分子结构,并基于一组候选3d分子结构与目标分子之间的结合性确定与第二2d分子结构对应的第二3d分子结构。进一步地,可以基于第二3d分子结构,确定针对目标分子的配体分子的目标结构。
44.本公开的各种实施例能够利用在先状态的3d分子结构来构建新的3d分子结构,以用于评估其是否可以用于确定配体分子。基于这样的方式,本公开的实施例能够提高3d分子结构的构建效率,尤其能提高3d分子结构与目标分子之间结合构型的搜索,从而提高确
定配体分子的效率。
45.以下参考附图来说明本公开的基本原理和若干示例实现。
46.示例设备
47.图1示出了可以用来实施本公开的实施例的示例设备100的示意性框图。应当理解,图1所示出的设备100仅仅是示例性的,而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示,设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。
48.在一些实现中,设备100可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任何类型的移动终端、固定终端或便携式终端,包括移动手机、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(pcs)设备、个人导航设备、个人数字助理(pda)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,设备100能够支持任何类型的针对用户的接口(诸如“可佩戴”电路等)。
49.处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高设备100的并行处理能力。处理单元110也可以被称为中央处理单元(cpu)、微处理器、控制器、微控制器。
50.设备100通常包括多个计算机存储介质。这样的介质可以是设备100可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(ram))、非易失性存储器(例如,只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、闪存)或其某种组合。存储器120可以包括一个或多个设计模块125,这些程序模块被配置为执行本文所描述的各种实现的功能。设计模块125可以由处理单元110访问和运行,以实现相应功能。存储设备130可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,其能够用于存储信息和/或数据并且可以在设备100内被访问。
51.设备100的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,设备100可以使用与一个或多个其他服务器、个人计算机(pc)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信,外部设备诸如数据库145、其他存储设备、服务器、显示设备等,与一个或多个使得用户与设备100交互的设备进行通信,或者与使得设备100与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(i/o)接口(未示出)来执行。
52.输入设备150可以是一个或多个各种输入设备,例如鼠标、键盘、追踪球、语音输入设备、相机等。输出设备160可以是一个或多个输出设备,例如显示器、扬声器、打印机等。
53.在一些实现中,设备100例如可以通过输入设备150接收与目标分子(例如,靶向蛋白质分子)对应的标识。例如,用户可以通过输入设备150输入pdb文件,以指示对应的目标
分子。
54.在一些实现中,设计模块125可以利用编辑模型来迭代地编辑分子结构,以确定最终的配体分子170的目标结构。关于确定配体分子170的目标结构的过程将在下文详细介绍。
55.应当理解,虽然图1中输出的配体分子170被示出为2d分子结构。在一些实施例中,输出设备160例如可以输出3d分子结构。
56.配体分子设计
57.首先参考图2,图2示出了根据本公开的一些实施例的设计模块125的框图。如图2所示,设计模块125包括用于实现根据本公开的一些实施例的示例设计配体分子的过程的多个模块。如图2所示,设计模块125包括编辑模块230和生成模块240。
58.在一些实施例中,编辑模块230可以编辑第一2d分子结构220。具体地,编辑可以包括从第一2d分子结构220中删除一个2d结构分段,这样的编辑也被称为“删除编辑操作”。备选地,编辑也可以包括向第一2d分子结构220添加一个新的2d结构分段,这样的编辑也被称为“添加编辑操作”。
59.对于“删除编辑操作”,编辑模块230可以确定第一2d分子结构220中待被删除的键,并相应地从第一分子结构中删除与该待被删除的键相关联的2d结构片段。示例性,编辑模块230可以从第一2d分子结构220中删除与待删除的键相关联的基团。
60.对于“添加编辑操作”,编辑模块230可以确定第一2d分子结构220中待编辑的原子,并相应地从片段库240中选择一个2d结构片段以附加到第一2d分子结构220。在“添加编辑操作”过程中,第一2d分子结构220中待编辑的原子可以同所选择的2d片段添加新的键,以构建新的分子结构。
61.在一些实施例中,片段库240可以包括多个2d结构片段250。在一些实施例中,多个2d结构片段250可以是例如基于实验知识所确定的。备选地,多个2d结构片段250也可以是根据已有的药物分子而被构建的。
62.在一些实施例中,第一2d分子结构220例如可以是由初始的2d分子结构210(例如,图2中所示的乙烷分子c2h6)经过至少一次如上文所讨论的编辑过程而获得的。备选地,第一2d分子结构220也可以是初始的2d分子结构。相应地,作为初始的2d分子结构,其例如可以由编辑模块230随机地选择,或者由编辑模块230根据输入而确定。
63.如图2所示,编辑模块230可以利用所部署的编辑模型来编辑第一2d分子结构220以获得第二2d分子结构260。编辑模型例如可以是基于机器学习模型而被实现。关于编辑模块230和编辑模型的具体细节将在下文详细描述。
64.如图2所示,设计模块125还可以包括生成模块270。在一些实施例中,生成模块270可以用于确定与第二2d分子结构260所对应的3d分子结构。
65.在一些实施例中,生成模块270例如可以基于与第一2d分子结构220所对应的第一3d分子结构280以及编辑模块230对第一2d分子结构220所执行的编辑操作,来高效地构建与第二2d分子结构260所对应的第二3d分子结构290。关于构建第二3d分子结构290的详细过程将在下文结合图3和图4描述。
66.在一些实施例中,编辑模块230和/或生产模块270还可以确定针对第二3d分子结构290的评价(为了方便描述,也称为第一评价)。例如,编辑模块230可以基于第二3d分子结
构290与目标分子170之间的结合性来确定第一评价。附加地,生成模块270还可以基于诸如类药性qed和/或可合成性来确定第一评价。
67.进一步地,编辑模块230可以进一步就与第二3d分子结构290的第一评价与针对第一3d分子结构280的第二评价来确定第二2d分子结构260是否可以被接受。如果第二2d分子结构260被确定可以接受,则其例如可以被确定为马尔科夫链的下一状态,以迭代地确定最终的配体分子的目标结构170。
68.相反,如果基于第一评价和第二评价,确定第二2d分子结构260被拒绝,则编辑模块230可以放弃第二2d分子结构,并继续以第一2d分子结构220作为基础,来确定新的编辑,从而迭代地确定最终的配体分子的目标结构170。
69.应当理解,编辑模块230可以基于类似的过程来确定关于第一3d分子结构280的第二评价。在一些实施例中,如果第一评价优于第二评价,则编辑模块230可以进一步基于针对第一2d分子结构220所执行的编辑操作来训练编辑模块230中所部署的编辑模型。
70.在一些实施例中,编辑模块230可以利用经训练的编辑模型并基于第二2d分子结构260来迭代地执行编辑,直至确定针对目标分子的配体分子的目标结构170。
71.在一些实施例中,编辑模块230例如可以在对初始的2d分子结构210执行了预定次数的编辑后便终止迭代,并将最终输出的2d分子结构确定作为配体分子的目标结构170。备选地,编辑模块230也可以将最终的2d分子结构对应的3d分子结构确定作为配体分子的目标结构170。
72.在一些实施例中,编辑模块230也可以基于每次迭代编辑后的分子结构的评价的变化程度来确定是否收敛。例如,如果预定次数迭代后评价的变化小于预定阈值,则编辑模块230可以确定已经收敛,并将最终输出的分子结构确定作为配体分子的目标结构。
73.关于自监督训练的详细过程将在下文详细介绍。
74.分子结构编辑
75.如参考图2所讨论的,编辑模块230被配置为利用所部署的编辑模型来编辑第一2d分子结构220。在一些实施例中,编辑模型例如可以基于适当的机器学习模型来被实现。
76.具体地,编辑模块230首先可以确定第一2d分子结构220的特征表示。在一些实施例中,第一2d分子结构220可以表示为图x,其例如可以具有n个原子以及n个键。在一些实施例中,编辑模块230可以将第一2d分子结构220表示为:
[0077][0078][0079]
其中,a表示第一2d分子结构220中原子的索引,是该原子对应的隐藏层特征表示;w和v表示由第一2d分子结构220中的键b所连接的原子,该键所对应的隐藏层特征表示为示为表示模型参数为θ的mpnn(message passing neural network,消息传递神经网络)。
[0080]
进一步地,编辑模块230可以利用操作预测模型并基于与根据公式(1)和/或(2)所确定的特征表示,来确定与一组预定编辑操作相关联的一组概率。这样的预定编辑操作例
如包括:在第一2d分子结构220中的特定原子处添加特定2d结构片段,或者删除第一2d分子结构220中的特定键。
[0081]
这样的过程例如可以表示为:
[0082][0083][0084][0085]
其中,其表示独立的多层感知器(mlp,multi-layer perceptron),σ(
·
)表示softmax运算。
[0086]
进一步地,编辑模块230可以基于以下公式来确定与不同预定编辑操作所对应的概率:
[0087][0088]
q(x
′
(u,k)
|x)=pc(add|x)
·
p
add
(u|x)
·
p
frag
(k|x,u)
ꢀꢀ
(7)
[0089]
q(x
′
(b)
|x)=pc(del|x)
·
p
del
(b|x)
ꢀꢀ
(8)
[0090]
其中,x
′
(u,k)
表示将片段库240中的第k个2d结构片段添加到原子u所得到的分子;x
′
(b)
表示从第一2d分子结构220中删除键b以及附接的片段后所得到的分子。
[0091]
进一步地,编辑模块230可以基于所确定的该组概率,从一组预定编辑操作中确定待被应用于第一2d分子结构220的编辑操作。示例性地,编辑模块230可以基于所确定的该组概率,来采样确定被应用的编辑操作。
[0092]
3d分子结构生成
[0093]
在一些实施例中,如上文参考图2所讨论的,生成模块270可以基于与第一2d分子结构220所对应的第一3d分子结构280来构建针对第二2d分子结构260的第二3d分子结构290。
[0094]
在一些实施例中,生成模块270可以基于应用于第一2d分子结构220的编辑,并利用第一3d分子结构280来确定一组候选3d分子结构,其中该组候选3d分子结构具有与第一3d分子结构280对应的部分3d结构,该部分3d结构对应于编辑操作未修改的部分2d结构。
[0095]
以此方式,生成模块270可以基于第一3d分子结构280来进行有约束的3d分子结构构造,从而更高效地确定第二3d分子结构290。
[0096]
图3示出了根据本公开的一些实施例的构建3d分子结构的示意图300。如图3所示,对于添加目标2d结构片段的添加编辑操作,与传统的生成过程不同,生成模块270可以在生成过程中考虑第一3d分子结构,也即,引入与第一3d分子结构所对应的构型约束。
[0097]
具体地,生成模块270可以基于第一3d分子结构来确定构型约束,该构型约束用于限制第一3d分子结构在后续生成过程中被调整的程度。示例性地,生成模块270可以基于第一3d分子结构(例如,图3中3d分子结构330,其对应于2d分子结构310)中确定与原子间距离
有关的约束。
[0098]
进一步地,生成模块270可以基于该构型约束,生成多个候选3d分子结构。示例性地,生成模块270例如可以利用适当的构型生成工具来在构型约束的前提下生成多个候选3d分子结构。
[0099]
附加地,生成模块270可以进一步基于构型约束对多个候选3d分子结构执行能量优化,从而确定一组候选3d分子结构(例如,图3中候选3d分子结构340)。
[0100]
进一步地,生成模块270还可以基于该组候选3d分子结构与目标分子之间的结合性,来确定与第二2d分子结构260对应的第二3d分子结构290。具体地,生成模块270可以确定该组候选3d分子结构中与目标分子具有最小结合自由能的目标3d分子结构,并将其作为与第二2d分子结构(例如,图3中的2d分子结构320,其通过对2d分子结构310执行添加编辑操作所确定)对应的第二3d分子结构(例如,图3中的3d分子结构350)。
[0101]
图4示出了根据本公开的又一些实施例的构建3d分子结构的示意图。如图4所示,对于删除目标2d结构片段的删除编辑操作,生成模块270可以保留第一3d分子结构(例如,图4中的3d分子结构430,其对应于2d分子结构410)中未被删除编辑操作所删除的部分。
[0102]
进一步地,生成模型270可以将所保留的部分3d分子结构进行释放,并执行局部能量优化,以确定候选3d分子结构(例如,图4中的3d分子将结构440)。
[0103]
进一步地,生成模块270还可以基于该候选3d分子结构与目标分子之间的结合性,来确定与第二2d分子结构260对应的第二3d分子结构290。具体地,生成模块270可以通过使与目标分子之间的结合自由能最小化,以基于候选3d分子结构来确定目标3d分子结构,并将其作为与第二2d分子结构(例如,图4中的2d分子结构420,其通过对2d分子结构410执行删除编辑操作所确定)对应的第二3d分子结构(例如,图4中的3d分子结构450)。
[0104]
通过有约束的3d分子结构构建过程,本公开的实施例可以大大降低构建3d分子结构所需要的计算开销,从而提高了构建3d分子结构的效率。此外,在考虑与目标分子结合能最小化的过程中,基于有约束的3d分子结构构建过程能够大大地提高搜索最小结合能的计算效率。
[0105]
自监督训练
[0106]
在一些实施例中,如上文参考图2所讨论的,编辑模块230还可以基于应用于第一2d分子结构220的编辑操作来自监督地训练编辑模型。
[0107]
如上文所讨论的,应用于第一2d分子结构220的编辑操作是基于概率采样确定的。在一些实施例中,设计模块125例如可以并行地执行多次采样,以基于第一2d分子结构220获得多个候选2d分子结构。
[0108]
在一些实施例中,编辑模块230可以确定针对每个候选2d分子结构的评价。如上文所讨论的,该评价例如可以基于:候选2d分子结构所对应的3d分子结构与目标分子之间的结合性、该3d分子结构的类药性qed(quantitative estimate of drug-likeness)和/或该3d分子结构的可合成性。
[0109]
以此方式,本公开的实施例可以同时实现多目标的配体分子生成。
[0110]
在一些实施例中,编辑模块230可以将结合性、类药性和可合成性进行标准化。对于结合性,编辑模块230可以确定该分子结构与目标分子之间的结合自由能d(x)。示例性地,其可以由分子对接(molecular docking)软件所生成。进一步地,编辑模块230可以基于
该结合性,确定第一标准化值,权重第一标准化值随目标结合性指示的结合自由能增大而减小。示例性地,第一标准化值可以表示为:
[0111]
sd(x)=e-d(x)
ꢀꢀ
(9)
[0112]
对于类药性,编辑模块230可以确定第二标准化值,第二标准化值基于类药性的增大来增大。示例性地,第二标准化值可以表示为:
[0113]sqed
(x)=qed(x)
ꢀꢀ
(10)
[0114]
其中,qed(
·
)表示qed得分,例如可以通过由rdkit来进行计算。
[0115]
对于可合成性,编辑模块230可以确定第三标准化值,第三标准化值基于可合成性指示的合成难度增大而减小。示例性地,第三标准化值可以表示为:
[0116]ssa
(x)=(10-sa(x))/9
ꢀꢀ
(11)
[0117]
其中,s
sa
(x)表示可合成难度得分。
[0118]
进一步地,编辑模块230可以基于第一标准化值、第二标准化值和第三标准化值,确定第一评价。在一些实施例,编辑模块230可以基于与第一标准化值相关联的第一权重、与第二标准化值相关联的第二权重和与第三标准化值相关联的第三权重,根据第一标准化值、第二标准化值和第三标准化值确定第一评价。
[0119]
示例性地,第一评价可以表示为:
[0120][0121]
其中,w1、w2和w3分别表示与类药性对应的权重、与可合成性对应的权重和与结合性对应的权重。
[0122]
在一些实施例中,编辑模块230可以基于第一评价和针对第一2d分子结构220的第二评价来确定第二2d分子结构260被接受的概率。该概率例如可以表示为:
[0123][0124]
其中,π
α
(x
′
)表示针对第二2d分子结构260的第一评价,π
α
(x)表示针对第一2d分子结构220的第二评价,其中t表示温度系数,其基于退火机制而被确定。在一些实施例中,温度系数t基于第一2d分子结构所经历的编辑操作的数目而被确定。示例性地,如果第一2d分子结构是对初始的2d分子结构应用了第一数目的编辑操作而被生成,则温度系数t与该第一数目相关联。
[0125]
在一些实施例中,设计模块125可以基于公式(12)来确定第二2d分子结构260是被接受还是被拒绝的概率。如参考图2所讨论的,如果第二2d分子结构260被接受,则涉及模块125可以进一步基于第二2d分子结构260进行迭代地编辑,以确定配体分子的目标结构170。相反,如果第二2d分子结构被拒绝,则设计模块125可以进一步基于第一2d分子结构220进行迭代地编辑,以用于确定配体分子的目标结构170。
[0126]
基于这样的方式,一些导致评价降低的编辑操作也可以被随机地保留,从而提高了药物分子生成的多样性。
[0127]
在一些实施例中,对于评价优于第一2d分子结构220的候选2d分子结构,编辑模块
230可以进一步基于与生成候选2d分子结构所对应的编辑操作来训练编辑模型。在一些实施例中,训练编辑模型可以基于最大似然估计(mle)。
[0128]
在一些实施例中,编辑模块230例如可以在对初始的2d分子结构210执行了预定次数的编辑后便终止迭代,并将最终输出的2d分子结构确定作为配体分子的目标结构170。
[0129]
如果还未执行预定次数的编辑,则编辑模块230可以利用经重新训练的编辑模型来基于第二2d分子结构生成新的第三2d分子结构,并由此迭代执行。在迭代过程中,编辑模块230可以递增已经被编辑的次数,直至编辑了预定次数才退出迭代。
[0130]
相反,生成第二2d分子结构260已经执行了预定次数的编辑(例如,该数目达到预定阈值),则编辑模块230可以将第二3d分子结构290和/或第二2d分子结构260确定为目标结构。
[0131]
在一些实施例中,编辑模块230也可以基于每次迭代编辑后的分子结构的评价的变化程度来确定是否收敛。例如,如果预定次数迭代后评价的变化小于预定阈值,则编辑模块230可以确定已经收敛,并将最终输出的分子结构确定作为配体分子的目标结构。
[0132]
示例过程
[0133]
图5示出了根据本公开一些实现的用于设计配体分子的方法500的流程图。方法500可以由计算设备100来实现,例如可以被实现在计算设备100的存储器120中的设计模块125处。
[0134]
如图5,在框510,计算设备100编辑第一2d分子结构,以确定第二2d分子结构,编辑至少包括:从第一2d分子结构中删除2d结构片段,或者向第一2d分子结构添加2d结构片段。
[0135]
在框520,计算设备100基于与第一2d分子结构对应的第一3d分子结构和编辑,确定与第二2d分子结构对应的一组候选3d分子结构。
[0136]
在框530,计算设备100基于一组候选3d分子结构与目标分子之间的结合性,确定与第二2d分子结构对应的第二3d分子结构。
[0137]
在框540,计算设备100基于第二3d分子结构,确定针对目标分子的配体分子的目标结构。
[0138]
以下列出了本公开的一些示例实现方式。
[0139]
在一些实施例中,编辑第一2d分子结构包括:利用操作预测模型并基于与第一2d分子结构对应的特征表示,确定待被应用于第一2d分子结构的编辑操作;以及基于所确定的编辑操作,编辑第一2d分子结构。
[0140]
在一些实施例中,确定待被应用于第一2d分子结构的编辑操作包括:利用操作预测模型并基于与特征表示,确定与一组预定编辑操作相关联的一组概率,其中一组预定编辑操作包括:在第一2d分子结构中的特定原子处添加特定2d结构片段,或者删除第一2d分子结构中的特定键;以及基于一组概率,从一组预定编辑操作中确定待被应用于第一2d分子结构的编辑操作。
[0141]
在一些实施例中,添加2d结构片段包括:从片段库中选择目标2d结构片段,片段库包括多个2d结构片段;以及将目标2d结构片段添加至第一2d分子结构中的特定原子处。
[0142]
在一些实施例中,确定与第二2d分子结构对应的一组候选3d分子结构包括:基于编辑并利用第一3d分子结构,确定一组候选3d分子结构,其中一组候选结构具有与第一3d分子结构对应的部分3d结构,部分3d结构对应于编辑操作未修改的部分2d结构。
[0143]
在一些实施例中,编辑为向第一2d分子结构添加目标2d结构片段,并且确定一组候选3d分子结构包括:基于与第一2d分子结构对应的第一3d分子结构,确定构型约束;基于构型约束,生成与编辑对应的多个候选3d分子结构,构型约束用于限制第一3d分子结构在生成多个候选3d分子结构的过程中被调整的程度;以及基于构型约束,对多个候选3d分子结构执行能量优化,以确定一组候选3d分子结构。
[0144]
在一些实施例中,结合性基于一组候选3d结构片段与目标分子之间的结合自由能而被确定。
[0145]
在一些实施例中,确定针对目标分子的配体分子的目标结构包括:确定针对第二3d分子结构的第一评价,第一评价指示以下中的至少一项:第二3d分子结构与目标分子之间的目标结合性、第二3d分子结构的类药性qed、或者第二3d分子结构的可合成性;基于第一评价和针对第一3d分子结构的第二评价,确定第二2d分子结构被接受的概率;以及根据概率,基于第二2d分子结构和第二3d分子结构确定目标结构。
[0146]
在一些实施例中,基于第二2d分子结构和第二3d分子结构确定目标结构包括:响应于第一评价优于第二评价,基于针对第一2d分子结构的编辑来训练用于预测编辑操作的编辑模型;利用经训练的编辑模型,编辑第二2d分子结构以确定第三2d分子结构;以及基于第三2d分子结构和第二2d分子结构,确定针对目标分子的配体分子的目标结构。
[0147]
在一些实施例中,确定针对第二3d分子结构的第一评价包括:基于目标结合性,确定第一标准化值,第一标准化值随目标结合性指示的结合自由能增大而减小;基于类药性,确定第二标准化值,第二标准化值基于类药性的增大来增大;基于可合成性,确定第三标准化值,第三标准化值基于可合成性指示的合成难度增大而减小;以及基于第一标准化值、第二标准化值和第三标准化值,确定第一评价。
[0148]
在一些实施例中,基于第一标准化值、第二标准化值和第三标准化值确定第一评价包括:基于与第一标准化值相关联的第一权重、与第二标准化值相关联的第二权重和与第三标准化值相关联的第三权重,根据第一标准化值、第二标准化值和第三标准化值确定第一评价。
[0149]
在一些实施例中,第一2d分子结构是对初始的2d分子结构应用了第一数目的编辑操作而被生成,并且概率还基于第一数目。
[0150]
在一些实施例中,第一2d分子结构是对初始的2d分子结构应用了第一数目的编辑操作而被生成,并且确定针对目标分子的配体分子的目标结构包括:递增第一数目以确定第二数目;以及如果第二数目达到预定阈值,将第二3d分子结构确定为目标结构。
[0151]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。
[0152]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0153]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0154]
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
[0155]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
技术特征:
1.一种用于设计配体分子的方法,包括:编辑第一2d分子结构,以确定第二2d分子结构,所述编辑至少包括:从所述第一2d分子结构中删除2d结构片段,或者向所述第一2d分子结构添加2d结构片段;基于与所述第一2d分子结构对应的第一3d分子结构和所述编辑,确定与所述第二2d分子结构对应的一组候选3d分子结构;基于所述一组候选3d分子结构与目标分子之间的结合性,确定与所述第二2d分子结构对应的第二3d分子结构;以及基于所述第二3d分子结构,确定针对目标分子的配体分子的目标结构。2.根据权利要求1所述的方法,其中编辑第一2d分子结构包括:利用操作预测模型并基于与所述第一2d分子结构对应的特征表示,确定待被应用于所述第一2d分子结构的编辑操作;以及基于所确定的所述编辑操作,编辑所述第一2d分子结构。3.根据权利要求2所述的方法,其中确定待被应用于所述第一2d分子结构的编辑操作包括:利用所述操作预测模型并基于与所述特征表示,确定与一组预定编辑操作相关联的一组概率,其中所述一组预定编辑操作包括:在所述第一2d分子结构中的特定原子处添加特定2d结构片段,或者删除所述第一2d分子结构中的特定键;以及基于所述一组概率,从所述一组预定编辑操作中确定待被应用于所述第一2d分子结构的所述编辑操作。4.根据权利要求1所述的方法,其中添加2d结构片段包括:从片段库中选择目标2d结构片段,所述片段库包括多个2d结构片段;以及将所述目标2d结构片段添加至所述第一2d分子结构中的特定原子处。5.根据权利要求1所述的方法,其中确定与所述第二2d分子结构对应的一组候选3d分子结构包括:基于所述编辑并利用所述第一3d分子结构,确定所述一组候选3d分子结构,其中所述一组候选结构具有与所述第一3d分子结构对应的部分3d结构,所述部分3d结构对应于所述编辑操作未修改的部分2d结构。6.根据权利要求5所述的方法,其中所述编辑为向所述第一2d分子结构添加目标2d结构片段,并且确定所述一组候选3d分子结构包括:基于与所述第一2d分子结构对应的所述第一3d分子结构,确定构型约束;基于所述构型约束,生成与所述编辑对应的多个候选3d分子结构,所述构型约束用于限制所述第一3d分子结构在生成所述多个候选3d分子结构的过程中被调整的程度;以及基于所述构型约束,对所述多个候选3d分子结构执行能量优化,以确定所述一组候选3d分子结构。7.根据权利要求1所述的方法,其中所述结合性基于所述一组候选3d结构片段与所述目标分子之间的结合自由能而被确定。8.根据权利要求1所述的方法,其中确定针对目标分子的配体分子的目标结构包括:确定针对所述第二3d分子结构的第一评价,所述第一评价指示以下中的至少一项:所述第二3d分子结构与所述目标分子之间的目标结合性、所述第二3d分子结构的类药性qed、
或者所述第二3d分子结构的可合成性;基于所述第一评价和针对所述第一3d分子结构的第二评价,确定所述第二2d分子结构被接受的概率;以及根据所述概率,基于所述第二2d分子结构和所述第二3d分子结构确定所述目标结构。9.根据权利要求8所述的方法,其中基于所述第二2d分子结构和所述第二3d分子结构确定所述目标结构包括:响应于所述第一评价优于所述第二评价,基于针对所述第一2d分子结构的所述编辑来训练用于预测编辑操作的编辑模型;利用经训练的所述编辑模型,编辑所述第二2d分子结构以确定第三2d分子结构;以及基于所述第三2d分子结构和所述第二2d分子结构,确定针对目标分子的所述配体分子的所述目标结构。10.根据权利要求8所述的方法,其中确定针对所述第二3d分子结构的第一评价包括:基于所述目标结合性,确定第一标准化值,所述第一标准化值随所述目标结合性指示的结合自由能增大而减小;基于所述类药性,确定第二标准化值,所述第二标准化值基于所述类药性的增大来增大;基于所述可合成性,确定第三标准化值,所述第三标准化值基于所述可合成性指示的合成难度增大而减小;以及基于所述第一标准化值、所述第二标准化值和所述第三标准化值,确定所述第一评价。11.根据权利要求10所述的方法,其中基于所述第一标准化值、所述第二标准化值和所述第三标准化值确定所述第一评价包括:基于与所述第一标准化值相关联的第一权重、与所述第二标准化值相关联的第二权重和与所述第三标准化值相关联的第三权重,根据所述第一标准化值、所述第二标准化值和所述第三标准化值确定所述第一评价。12.根据权利要求8所述的方法,其中所述第一2d分子结构是对初始的2d分子结构应用了第一数目的编辑操作而被生成,并且所述概率还基于所述第一数目。13.根据权利要求1所述的方法,其中所述第一2d分子结构是对初始的2d分子结构应用了第一数目的编辑操作而被生成,并且确定针对目标分子的配体分子的目标结构包括:递增所述第一数目以确定第二数目;以及如果第二数目达到预定阈值,将所述第二3d分子结构确定为所述目标结构。14.一种用于设计配体分子的装置,包括:编辑模块,被配置为编辑第一2d分子结构,以确定第二2d分子结构,所述编辑至少包括:从所述第一2d分子结构中删除2d结构片段,或者向所述第一2d分子结构添加2d结构片段;以及生成模块,被配置为基于与所述第一2d分子结构对应的第一3d分子结构和所述编辑,确定与所述第二2d分子结构对应的一组候选3d分子结构;以及基于所述一组候选3d分子结构与目标分子之间的结合性,确定与所述第二2d分子结构对应的第二3d分子结构;其中所述编辑模块还被配置为:基于所述第二3d分子结构,确定针对目标分子的配体分子的目标结构。
15.一种电子设备,包括:存储器和处理器;其中所述存储器用于存储一条或多条计算机指令,其中所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1至13中任一项所述的方法。16.一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至13中任一项所述的方法。17.一种计算机程序产品,包括一条或多条计算机指令,其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至13中任一项所述的方法。
技术总结
根据本公开的实施例,提供了一种用于设计配体分子的方法、装置、设备、存储介质和程序产品。在此描述的方法包括:编辑第一2D分子结构,以确定第二2D分子结构,编辑至少包括:从第一2D分子结构中删除2D结构片段,或者向第一2D分子结构添加2D结构片段;基于与第一2D分子结构对应的第一3D分子结构和编辑,确定与第二2D分子结构对应的一组候选3D分子结构;基于一组候选3D分子结构与目标分子之间的结合性,确定与第二2D分子结构对应的第二3D分子结构;以及基于第二3D分子结构,确定针对目标分子的配体分子的目标结构。根据本公开的实施例,能够基于在先状态的3D分子结构来约束后续3D分子结构的生成,从而提高了设计配体分子的效率。从而提高了设计配体分子的效率。从而提高了设计配体分子的效率。
技术研发人员:杨雨薇 卢家睿 张朔 周浩
受保护的技术使用者:脸萌有限公司
技术研发日:2022.02.18
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-7816.html