1.本发明涉及计算机辅助化学合成领域,尤其涉及一种化学逆向合成路径规划方法及系统。
背景技术:
2.一个化合物的合成路线通常是多种多样的,如何高效率地规划出一条路线,这个问题很大程度上取决于研究人员丰富的化学知识和经验。但是随着化学数据库的规模增大、化学反应的种类增加,单单依靠化学家们丰富的经验和人类大脑能够储存的知识量来应对这个复杂的问题是完全不够的。合成路径规划问题最大的难点在于,对于一个目标化合物潜在的分解方式有很多,多个反应模板可以被应用到同一个目标化合物上,而合成路径通常是多步的,这造成了“组合爆炸”、搜索空间巨大的问题。
技术实现要素:
3.为了解决上述技术问题,本发明的目的是提供一种化学逆向合成路径规划方法及系统,能够进行反应条件的预测且解决多步合成数据缺失带来的指导函数质量不高的问题。
4.本发明所采用的第一技术方案是:一种化学逆向合成路径规划方法,包括以下步骤:
5.收集单步反应数据并生成单步反应训练数据集;
6.构建单步合成预测模型并基于单步反应训练数据集进行训练,得到训练完成的单步合成预测模型;
7.基于蒙特卡洛树搜索学习方法对单步合成预测模型进行博弈学习,判断到指导函数收敛,对化合物进行路径规划。
8.进一步,所述收集单步反应数据并生成单步反应训练数据集这一步骤,其具体包括:
9.收集单步反应数据并进行模板抽取和化学信息抽取,得到单步反应训练数据集;
10.所述化学信息包括反应温度、反应压强、催化剂和产物化合物。
11.进一步,述构建单步合成预测模型并基于单步反应训练数据集进行训练,得到训练完成的单步合成预测模型这一步骤,其具体包括:
12.基于多分类器构建单步合成预测模型;
13.基于单步反应训练数据集,以化合物的特征向量为输入,以每个模板预测的概率、预测的化学信息为输出,训练构建单步合成预测模型,得到训练完成的单步合成预测模型。
14.进一步,所述基于蒙特卡洛树搜索学习方法对单步合成预测模型进行博弈学习,判断到指导函数收敛,对化合物进行路径规划这一步骤,其具体包括:
15.收集目标化合物数据集,并划分得到训练集、验证集和测试集。
16.生成指导函数并随机初始化参数;
17.对于训练集中的每个化合物,基于指导函数指导的蒙特卡洛树搜索进行路径规划,直至最大搜索代价,得到搜索树;
18.对训练集中形成的每棵搜索树进行经验收集,生成经验数据集并对指导函数进行更新,得到更新后的指导函数;
19.基于验证集验证更新后的指导函数性能,验证通过得到最佳指导函数;
20.基于最佳指导函数指导的蒙特卡洛树搜索对化合物进行路径规划。
21.进一步,所述基于验证集验证更新后的指导函数性能,验证通过得到最佳指导函数这一步骤,其具体包括:
22.基于更新后的指导函数对验证集中的化合物进行路径规划并统计平均搜索时间和成功率;
23.根据平均搜索时间和成功率判断是否收敛到最佳性能;
24.判断到收敛到最佳性能,验证通过,得到最佳指导函数。
25.进一步,所述基于最佳指导函数指导的蒙特卡洛树搜索对化合物进行路径规划这一步骤,其具体包括:
26.生成包含目标化合物的根节点;
27.选择阶段,从根节点出发,在化合物节点选择综合评分较高的子反应节点,在反应节点随机选择未成功的子化合物节点,逐步下降直至到达叶子化合物节点;
28.扩展阶段,将选中的叶子化合物节点输入到单步预测模型中进行预测,选择模板进行扩展,并将扩展的模板和对应生成的化合物添加到树中,基于指导函数对新添加的模板节点预测初始评分;
29.更新阶段,从扩展的节点开始向上更新,根据化合物节点包含的化合物是否存在于分子库以判断化合物节点检查是否成功,并将他们的值更新为子节点中最高的评分,根据反应节点下的所有子节点是否成功以判断反应节点是否成功,计算其子节点的平均得分作为当次更新的得分,计算每次更新的平均得分作为反应节点的综合评分;
30.依次循环选择阶段、扩展阶段和更新阶段直至达到最大搜索代价,得到目标化合物的路径规划。
31.本发明所采用的第二技术方案是:一种化学逆向合成路径规划系统,包括:
32.数据收集模块,用于收集单步反应数据并生成单步反应训练数据集;
33.模型构建模块,用于构建单步合成预测模型并基于单步反应训练数据集进行训练,得到训练完成的单步合成预测模型;
34.搜索学习模块,基于蒙特卡洛树搜索学习方法对单步合成预测模型进行博弈学习,判断到指导函数收敛,对化合物进行路径规划。
35.本发明所采用的第三技术方案是:一种化学逆向合成路径规划装置,包括:
36.至少一个处理器;
37.至少一个存储器,用于存储至少一个程序;
38.当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种化学逆向合成路径规划方法。
39.本发明所采用的第四技术方案是:一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如上所述一种化学
逆向合成路径规划方法。
40.本发明方法及系统的有益效果是:本发明通过对单步反应数据集信息的抽取与特征化,实现了对反应条件,例如温度、压强、催化剂等信息的预测,另外,基于蒙特卡洛树搜索的自我博弈学习方法避免以往方法带来的昂贵计算代价问题与学习知识受限于数据库的问题。
附图说明
41.图1是本发明一种化学逆向合成路径规划方法的步骤流程图;
42.图2是本发明具体实施例的整体结构框图;
43.图3是本发明具体实施例单步预测模型结构示意图;
44.图4是本发明具体实施例指导函数结构示意图;
45.图5是本发明具体实施例蒙特卡洛树搜索方法流程示意图。
具体实施方式
46.下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
47.参照图1和图2,本发明主要包含两个部分,具有新型结构的单步预测模型和基于蒙特卡洛树搜索的自我博弈学习方法,其中单步反应预测模型将被运用到自我博弈学习方法中。首先使用单步反应数据集对单步预测模型进行训练,得到训练好的单步预测模型进入到自我博弈学习方法。基于蒙特卡洛树搜索的自我博弈学习方法目的是为了学习到能够有效指导搜索的指导函数,通过对训练集中化合物进行搜索可以积累合成经验作为指导函数的训练数据。训练结束后将使用该指导函数指导的搜索对验证集中化合物进行合成路径规划,并统计成功率和平均搜索时间从而判断是否收敛。训练与验证不断循环直到指导函数收敛,此时训练完成的指导函数将结合蒙特卡洛树搜索为测试化合物进行路径规划。
48.一种化学逆向合成路径规划方法,该方法包括以下步骤:
49.s1、收集单步反应数据并生成单步反应训练数据集;
50.具体地,收集单步反应数据,形如a
→
b c,化合物a被分解为化合物b和c,对单步反应数据集进行模板抽取和化学信息抽取,对于每个反应,抽取出反应模板t,反应温度temp,反应压强p,催化剂catalyst,产物化合物m,形成单步模型的训练数据集。
51.s2、构建单步合成预测模型并基于单步反应训练数据集进行训练,得到训练完成的单步合成预测模型;
52.s2.1、基于多分类器构建单步合成预测模型;
53.具体地,参照图3,本发明提出的具有新型结构的单步预测模型,输入为化合物的2048维度ecfp4指纹描述符,然后对其进行log(1 x)预处理。输出信息包括两部分,一是各个模板的预测概率,二是反应条件等信息。
54.s2.2、基于单步反应训练数据集,以化合物的特征向量为输入,以每个模板预测的概率、预测的化学信息为输出,训练构建单步合成预测模型,得到训练完成的单步合成预测模型。
55.s3、基于蒙特卡洛树搜索学习方法对单步合成预测模型进行博弈学习,判断到指导函数收敛,对化合物进行路径规划。
56.s3.1、收集目标化合物数据集,按照比例8:1:1随机划分成训练集、验证集和测试集。
57.s3.2、生成指导函数模型,随机初始化参数,进入训练过程;
58.具体地,参照图4,本发明使用的指导函数结构示意图,输入为维度为2048的化合物特征向量拼接上一个维度为2048的模板特征向量,经过256维度的隐藏层,输出的标量代表该反应模板作用在化合物上的评分。
59.s3.3、对于训练集中的每个化合物,使用指导函数指导的蒙特卡洛树搜索进行路径规划,直到到达最大搜索代价,最后我们将获得一棵搜索树;
60.s3.4、对于训练集中形成的每棵搜索树,我们进行经验收集,形成训练数据集,然后对指导函数使用均方误差进行更新;
61.s3.5、对于更新后的指导函数,在验证集上验证其性能。对于验证集的每个化合物,使用更新后的指导函数指导搜索来进行路径规划,统计平均搜索时间和成功率,判断其是否收敛到最佳性能。如果还未收敛到最佳性能,则返回步骤3.3,否则进入步骤3.6;
62.s3.6、已经得到具有最佳性能的指导函数,可使用其指导搜索进行化学合成路径规划。对测试集中的化合物或者未知的化合物,使用该指导函数指导的蒙特卡洛树搜索进行路径规划。
63.具体地,参照图5,蒙特卡洛树搜索方法流程,其中展示的搜索树为和或搜索树例子。流程分为三个阶段:选择阶段的路径如图中橙色标注所示,在化合物节点选择评分最高的子节点,在反应节点随机选择子节点,直到到达叶子节点,如图中所示节点x;扩展阶段,对x使用单步预测模型进行反应模板和反应条件预测,并使用预测出的模板与x作为指导函数的输入,预测出初始评分,然后将扩展的模板和对应分解得到的化合物添加到树上,例如分解模板t
x1
和分解得到的化合物a和b,以及分解模板t
x2
和分解得到的化合物c和d;更新阶段从扩展的节点出发根据更新法则进行更新。
64.一种化学逆向合成路径规划系统,包括:
65.数据收集模块,用于收集单步反应数据并生成单步反应训练数据集;
66.模型构建模块,用于构建单步合成预测模型并基于单步反应训练数据集进行训练,得到训练完成的单步合成预测模型;
67.搜索学习模块,基于蒙特卡洛树搜索学习方法对单步合成预测模型进行博弈学习,判断到指导函数收敛,对化合物进行路径规划。
68.上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
69.一种化学逆向合成路径规划装置:
70.至少一个处理器;
71.至少一个存储器,用于存储至少一个程序;
72.当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种化学逆向合成路径规划方法。
73.上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
74.一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指令在由处理器执行时用于实现如上所述一种化学逆向合成路径规划方法。
75.上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
76.综上所述,本发明提出了一种新型的实现反应条件预测的单步预测模型和基于蒙特卡洛树搜索的自我博弈学习方法。单步预测模型通过对单步反应数据集信息的抽取与特征化,实现了对反应条件,例如温度、压强、催化剂等信息的预测,且该模型可广泛应用于各类化学规划搜索方法中,本发明也将其运用到自我博弈学习方法中。而本发明提出的自我博弈学习方法使用搜索过程中收集的合成经验训练了一个高质量的指导函数,并使用该指导函数指导蒙特卡洛树搜索来进行路径规划。为了使蒙特卡洛树搜索更加适用于化学合成规划问题,本发明提出使用和或树来建模搜索过程,该建模方式适用于具有子问题结构的问题。基于蒙特卡洛树搜索的自我博弈学习方法避免以往方法带来的昂贵计算代价问题与学习知识受限于数据库的问题,通过自我博弈过程积累经验,进行学习,具有较高可扩展性和丰富路径知识。
77.以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
技术特征:
1.一种化学逆向合成路径规划方法,其特征在于,包括以下步骤:收集单步反应数据并生成单步反应训练数据集;构建单步合成预测模型并基于单步反应训练数据集进行训练,得到训练完成的单步合成预测模型;基于蒙特卡洛树搜索学习方法对单步合成预测模型进行博弈学习,判断到指导函数收敛,对化合物进行路径规划。2.根据权利要求1所述一种化学逆向合成路径规划方法,其特征在于,所述收集单步反应数据并生成单步反应训练数据集这一步骤,其具体包括:收集单步反应数据并进行模板抽取和化学信息抽取,得到单步反应训练数据集;所述化学信息包括反应温度、反应压强、催化剂和产物化合物。3.根据权利要求2所述一种化学逆向合成路径规划方法,其特征在于,所述构建单步合成预测模型并基于单步反应训练数据集进行训练,得到训练完成的单步合成预测模型这一步骤,其具体包括:基于多分类器构建单步合成预测模型;基于单步反应训练数据集,以化合物的特征向量为输入,以每个模板预测的概率、预测的化学信息为输出,训练构建单步合成预测模型,得到训练完成的单步合成预测模型。4.根据权利要求3所述一种化学逆向合成路径规划方法,其特征在于,所述基于蒙特卡洛树搜索学习方法对单步合成预测模型进行博弈学习,判断到指导函数收敛,对化合物进行路径规划这一步骤,其具体包括:收集目标化合物数据集,并划分得到训练集、验证集和测试集。生成指导函数并随机初始化参数;对于训练集中的每个化合物,基于指导函数指导的蒙特卡洛树搜索进行路径规划,直至最大搜索代价,得到搜索树;对训练集中形成的每棵搜索树进行经验收集,生成经验数据集并对指导函数进行更新,得到更新后的指导函数;基于验证集验证更新后的指导函数性能,验证通过得到最佳指导函数;基于最佳指导函数指导的蒙特卡洛树搜索对化合物进行路径规划。5.根据权利要求4所述一种化学逆向合成路径规划方法,其特征在于,所述基于验证集验证更新后的指导函数性能,验证通过得到最佳指导函数这一步骤,其具体包括:基于更新后的指导函数对验证集中的化合物进行路径规划并统计平均搜索时间和成功率;根据平均搜索时间和成功率判断是否收敛到最佳性能;判断到收敛到最佳性能,验证通过,得到最佳指导函数。6.根据权利要求5所述一种化学逆向合成路径规划方法,其特征在于,所述基于最佳指导函数指导的蒙特卡洛树搜索对化合物进行路径规划这一步骤,其具体包括:生成包含目标化合物的根节点;选择阶段,从根节点出发,在化合物节点选择综合评分较高的子反应节点,在反应节点随机选择未成功的子化合物节点,逐步下降直至到达叶子化合物节点;扩展阶段,将选中的叶子化合物节点输入到单步预测模型中进行预测,选择模板进行
扩展,并将扩展的模板和对应生成的化合物添加到树中,基于指导函数对新添加的模板节点预测初始评分;更新阶段,从扩展的节点开始向上更新,根据化合物节点包含的化合物是否存在于分子库以判断化合物节点检查是否成功,并将他们的值更新为子节点中最高的评分,根据反应节点下的所有子节点是否成功以判断反应节点是否成功,计算其子节点的平均得分作为当次更新的得分,计算每次更新的平均得分作为反应节点的综合评分;如果化合物节点包含的化合物在分子库中或者该节点拥有成功的子节点,则该化合物节点是成功的。化合物节点包含的化合物不存在单步分解方式则该节点是失败的。如果一个反应节点的所有子节点都是成功的,那么该节点是成功的;如果一个反应节点的子节点中存在失败的子节点,那么该节点是失败的。依次循环选择阶段、扩展阶段和更新阶段直至达到最大搜索代价,得到目标化合物的路径规划。7.一种化学逆向合成路径规划系统,其特征在于,包括:数据收集模块,用于收集单步反应数据并生成单步反应训练数据集;模型构建模块,用于构建单步合成预测模型并基于单步反应训练数据集进行训练,得到训练完成的单步合成预测模型;搜索学习模块,基于蒙特卡洛树搜索学习方法对单步合成预测模型进行博弈学习,判断到指导函数收敛,对化合物进行路径规划。
技术总结
本发明公开了一种化学逆向合成路径规划方法及系统,该方法包括:收集单步反应数据并生成单步反应训练数据集;构建单步合成预测模型并基于单步反应训练数据集进行训练,得到训练完成的单步合成预测模型;基于蒙特卡洛树搜索学习方法对单步合成预测模型进行博弈学习,判断到指导函数收敛,对化合物进行路径规划。该系统包括:数据收集模块、模型构建模块和搜索学习模块。通过使用本发明,能够进行反应条件的预测且解决多步合成数据缺失带来的指导函数质量不高的问题。本发明作为一种化学逆向合成路径规划方法及系统,可广泛应用于计算机辅助化学合成领域。辅助化学合成领域。辅助化学合成领域。
技术研发人员:洪思琪 卓汉逵
受保护的技术使用者:中山大学
技术研发日:2022.02.18
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-9589.html