本申请涉及人工智能技术,尤其涉及一种用于分子处理的语言理解模型的训练方法、装置、电子设备、存储介质及计算机程序产品。
背景技术:
1、自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学和数学、人工智能领域模型训练的重要技术。预训练模型,即是从自然语言处理领域的大语言模型(large language model,llm)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
2、相关技术中,基于分子描述文本调用序列至序列模型获取分子式,然而上述方式所输出的分子式无法二次修改;基于大语言模型的分子生成处理,具有多轮对话功能,然而针对分子语言的理解程度不高,影响了所生成的分子式的准确性。相关技术中,暂无较好的方式提升分子生成处理的准确性。
技术实现思路
1、本申请实施例提供一种用于分子处理的语言理解模型的训练方法、装置、电子设备、存储介质及计算机程序产品,能够提升分子生成处理的准确性。
2、本申请实施例的技术方案是这样实现的:
3、本申请实施例提供一种用于分子处理的语言理解模型的训练方法,所述方法包括:
4、获取分子词表,其中,所述分子词表包括:多个分子词元,一个所述分子词元用于表征一个类型的分子子结构;
5、基于所述分子词表更新初始语言理解模型,得到预训练语言理解模型,其中,所述预训练语言理解模型用于对所述分子结构式进行拆分处理,得到所述分子结构式的所述分子词元;
6、获取分子训练集,其中,所述分子训练集包括:样本分子描述文本以及样本分子结构式,所述样本分子描述文本用于描述样本化合物的分子成分;
7、基于所述分子训练集训练所述预训练语言理解模型,得到目标语言理解模型,其中,所述目标语言理解模型用于生成与目标分子描述文本对应的化合物分子的分子结构式。
8、本申请实施例提供一种用于分子处理的语言理解模型的训练装置,包括:
9、数据获取模块,用于获取分子词表,其中,所述分子词表包括:多个分子词元,一个所述分子词元用于表征一个类型的分子子结构;
10、模型训练模块,用于基于所述分子词表更新初始语言理解模型,得到预训练语言理解模型,其中,所述预训练语言理解模型用于对所述分子结构式进行拆分处理,得到所述分子结构式的所述分子词元;
11、所述数据获取模块,用于获取分子训练集,其中,所述分子训练集包括:样本分子描述文本以及样本分子结构式,所述样本分子描述文本用于描述样本化合物的分子成分;
12、所述模型训练模块,用于基于所述分子训练集训练所述预训练语言理解模型,得到目标语言理解模型,其中,所述目标语言理解模型用于生成与目标分子描述文本对应的化合物分子的分子结构式。
13、本申请实施例提供一种电子设备,所述电子设备包括:
14、存储器,用于存储计算机可执行指令或者计算机程序;
15、处理器,用于执行所述存储器中存储的计算机可执行指令或者计算机程序时,实现本申请实施例提供的用于分子处理的语言理解模型的训练方法。
16、本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令或者计算机程序,用于被处理器执行时,实现本申请实施例提供的用于分子处理的语言理解模型的训练方法。
17、本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,所述计算机程序或计算机可执行指令被处理器执行时,实现本申请实施例提供的用于分子处理的语言理解模型的训练方法。
18、本申请实施例具有以下有益效果:
19、分子词表中每个分子词元用于表征分子子结构,基于分子词表更新初始语言理解模型的参数,使得预训练语言理解模型能够具备根据分子子结构对分子结构式执行分词的能力,提升了预训练语言理解模型针对分子结构式的理解能力,基于分子训练集对预训练语言理解模型进行训练,使得预训练语言理解模型能够用于基于文本确定分子结构式,提升基于描述文本确定分子结构式的准确度。
1.一种用于分子处理的语言理解模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取分子词表,包括:
3.根据权利要求2所述的方法,其特征在于,所述对每个所述候选分子结构式分别对应的字符串进行词元提取处理,得到多个候选分子词元,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述分子词表更新初始语言理解模型,得到预训练语言理解模型,包括:
5.根据权利要求1所述的方法,其特征在于,所述分子训练集包括多段样本数据;每条所述样本数据包括:一段所述样本分子描述文本以及所述样本分子描述文本对应的样本分子结构式;
6.根据权利要求1所述的方法,其特征在于,所述基于所述分子训练集训练所述预训练语言理解模型,得到目标语言理解模型,包括:
7.根据权利要求6所述的方法,其特征在于,所述基于所述样本化合物的所述样本分子描述文本调用所述预训练语言理解模型进行分子预测处理,得到第一预测分子结构式,包括:
8.根据权利要求7所述的方法,其特征在于,所述对所述样本分子描述文本包括的所述分子词元进行特征提取处理,得到所述样本分子描述文本的第一文本特征,包括:
9.根据权利要求6所述的方法,其特征在于,所述基于所述样本分子结构式与所述第一预测分子结构式之间的差异,确定所述预训练语言理解模型的损失函数,包括:
10.根据权利要求6所述的方法,其特征在于,所述基于所述损失函数对所述预训练语言理解模型迭代地进行参数更新处理,得到目标语言理解模型,包括:
11.根据权利要求1至10任一项所述的方法,其特征在于,在所述基于所述分子训练集训练所述预训练语言理解模型,得到目标语言理解模型之后,所述方法还包括:
12.根据权利要求11所述的方法,其特征在于,在所述基于所述第二文本特征进行分子预测处理,得到第二预测分子结构式之后,所述方法还包括:
13.一种用于分子处理的语言理解模型的训练装置,其特征在于,所述装置包括:
14.一种电子设备,其特征在于,所述电子设备包括:
15.一种计算机可读存储介质,存储有计算机可执行指令或者计算机程序,其特征在于,所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至12任一项所述的用于分子处理的语言理解模型的训练方法。
16.一种计算机程序产品,包括计算机可执行指令或计算机程序,其特征在于,所述计算机可执行指令或计算机程序被处理器执行时实现权利要求1至12任一项所述的用于分子处理的语言理解模型的训练方法。
