1.本发明涉及词向量技术领域,具体涉及一种目标词向量模型优化方法及装置。
背景技术:
2.词向量是自然语言处理(nlp)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。当用作底层输入表示时,单词和短语嵌入已经被证明可以提高nlp任务的性能,例如语法分析和情感分析。
3.简而言之,词向量技术是将词转化成为稠密向量,并且对于相似的词,其对应的词向量也相近。在自然语言处理任务中,首先需要考虑词如何在计算机中表示。通常,有两种表示方式:one-hot(独热)表示和distribution(分布式)表示。传统的基于规则或基于统计的自然语义处理方法将单词看作一个原子符号被称作独热表示。独热表示把每个词表示为一个长向量。这个向量的维度是词表大小,向量中只有一个维度的值为1,其余维度为0,这个维度就代表了当前的词。它相当于给每个词分配一个id,这就导致这种表示方式不能展示词与词之间的关系。另外,它将会导致特征空间非常大,但也带来一个好处,就是在高维空间中,很多应用任务线性可分。分布式表示指的是将词转化成一种分布式表示,又称词向量。分布式表示将词表示成一个定长的连续的稠密向量。分布式表示优点如下:
4.(1)词之间存在相似关系:是词之间存在“距离”概念,这对很多自然语言处理的任务非常有帮助。(2)包含更多信息:词向量能够包含更多信息,并且每一维都有特定的含义。在采用one-hot特征时,可以对特征向量进行删减,词向量则不能。
5.语言模型生成词向量是通过训练神经网络语言模型,词向量做为语言模型的附带产出。其背后的基本思想是对出现在上下文环境里的词进行预测,这种对上下文环境的预测本质上也是一种对共现统计特征的学习。
6.字型信息对词语识别起到关键作用,现有技术存在将字型信息引入词向量,但是作为算法骨架的算法选择不合理,且没有相适配的训练方法,由此导致对算法的训练效率低下。
技术实现要素:
7.针对现有技术中的问题,本发明实施例提供一种目标词向量模型优化方法及装置,能够至少部分地解决现有技术中存在的问题。
8.一方面,本发明提出一种目标词向量模型优化方法,包括:
9.根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,m为所述参数矩阵的列数;所述独热编码的维度根据与字型输入法对应的预设编码取值范围确定,所述独热编码的个数根据预设词语包含的预设字数和与字型输入法对应的预设字型编码位数确定;
10.根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各
词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数;
11.按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。
12.其中,根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,包括:
13.根据所述m维列向量,以及目标词向量模型输出的对各词语的预测结果,得到预测结果向量;
14.根据预先确定正确结果的词语对应的独热编码和所述参数矩阵,得到正确结果向量;
15.根据所述预测结果向量和所述正确结果向量,确定包含字型信息的损失函数。
16.其中,所述根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数,包括:
17.根据所述损失函数、与所述目标词向量模型对应的原始损失函数和损失函数权重,构建优化损失函数。
18.其中,所述目标词向量模型包括skip-gram模型或cbow模型;相应的,所述在训练完成后得到优化目标词向量模型,包括:
19.在训练完成后得到优化skip-gram模型;或在训练完成后得到优化cbow模型。
20.其中,在得到优化skip-gram模型;或得到优化cbow模型之后,所述目标词向量模型优化方法还包括:
21.输入待预测词语至所述优化skip-gram模型,将所述优化skip-gram模型的输出结果作为与所述待预测词语对应的上下文预测结果;
22.或输入待预测上下文至所述优化cbow模型,将所述优化cbow模型的输出结果作为与所述待预测上下文对应的词语预测结果。
23.其中,若所述字型输入法的数量大于1,则根据字型输入法的数量、所述损失函数、所述原始损失函数、所述损失函数权重构建优化损失函数。
24.一方面,本发明提出一种目标词向量模型优化装置,包括:
25.获取单元,用于根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,m为所述参数矩阵的列数;所述独热编码的维度根据与字型输入法对应的预设编码取值范围确定,所述独热编码的个数根据预设词语包含的预设字数和与字型输入法对应的预设字型编码位数确定;
26.构建单元,用于根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数;
27.优化单元,用于按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。
28.再一方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
29.所述处理器和所述存储器通过所述总线完成相互间的通信;
30.所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
31.根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,m为所述参数矩阵的列数;所述独热编码的维度根据与字型输入法对应的预设编码取值范围确定,所述独热编码的个数根据预设词语包含的预设字数和与字型输入法对应的预设字型编码位数确定;
32.根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数;
33.按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。
34.本发明实施例提供一种非暂态计算机可读存储介质,包括:
35.所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
36.根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,m为所述参数矩阵的列数;所述独热编码的维度根据与字型输入法对应的预设编码取值范围确定,所述独热编码的个数根据预设词语包含的预设字数和与字型输入法对应的预设字型编码位数确定;
37.根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数;
38.按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。
39.本发明实施例提供的目标词向量模型优化方法及装置,根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据损失函数和与目标词向量模型对应的原始损失函数,构建优化损失函数;按照根据原始损失函数迭代训练目标词向量模型参数的方法,根据优化损失函数对目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。将字型信息引入目标词向量模型,且通过相适配的训练方法,提高优化目标词向量模型的训练效率。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。在附图中:
41.图1是本发明一实施例提供的目标词向量模型优化方法的流程示意图。
42.图2是本发明一实施例提供的目标词向量模型优化装置的结构示意图。
43.图3为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
44.为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互任意组合。
45.图1是本发明一实施例提供的目标词向量模型优化方法的流程示意图,如图1所示,本发明实施例提供的目标词向量模型优化方法,包括:
46.步骤s1:获取根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,m为所述参数矩阵的列数;所述独热编码的维度根据与字型输入法对应的预设编码取值范围确定,所述独热编码的个数根据预设词语包含的预设字数和与字型输入法对应的预设字型编码位数确定。
47.步骤s2:根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数。
48.步骤s3:按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。
49.在上述步骤s1中,装置根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,m为所述参数矩阵的列数;所述独热编码的维度根据与字型输入法对应的预设编码取值范围确定,所述独热编码的个数根据预设词语包含的预设字数和与字型输入法对应的预设字型编码位数确定。装置可以包括执行该方法的计算机设备等。
50.本发明实施例中所涉及的字型信息可以从现有的字型输入法得到。这些字型输入法包括五笔字型输入法、四角号码输入法和笔画输入法等,可以选择其中的一种,也可以选择其中的几种字型输入法进行组合。由于部分字型输入法既可以对单个汉字进行编码,也可以对一个词语进行编码,为统一起见,在本发明实施例中使用单个汉字的编码信息。本发明实施例所采用的字型信息不需要引入额外的训练语料,直接来自于现有的字型输入法,适用性强。
51.在针对中文构建词向量时,既可以针对单个汉字构建词向量,也可以在使用分词算法对语料分词后针对词语构建词向量。由于本发明实施例中使用输入法中的单个汉字的编码信息,因而针对单个汉字构建的词向量是基础,针对词语构建的词向量是其延伸和拓展。本发明实施例中所采用的延伸和拓展方式为,确定词的最大长度,用构成词的每个字的字型编码顺序组合构成词语的字型编码。如果词的字数大于最大长度,则采用截断的方式。如果词的字数少于最大长度,则采用补齐方式,补齐代码为除字型编码之外的某个字符。
52.下面以四角号码输入法为例,介绍采用一种包含字型信息的词向量获取方法。
53.四角号码输入法对每个字型的编码位数为四位或五位,每一位是0到9十个数字中的一种。统一起见,每个字型的编码均设定为五位,四位编码的字型在最末尾额外补充一个附加编码。这样预设词语包含的预设字数为n,其由四角号码编码可以得到一个由5n个维度为12的独热编码。其中的“维度为12的独热编码”包括0到9所形成的10个维度,前面所提到的补齐代码的一个维度和前面所提到的附加编码的一个维度。当n为1时,即转化成针对单个字型所构成的词向量。
54.即在获取词向量前,预先随机初始化一个60n(5n
×
12)
×
m的矩阵。该矩阵的作用是将对顺序排列的前述5n个维度为12的独热编码转换为一个维度为m的列向量。字型输入法通过其编码体现字型信息,本身具有独热(one-hot)编码特性,为了能转换为连续编码,通过随机初始化一个60n
×
m矩阵的方式,引入了附加的嵌入(embedding)层,该层在整个词向量的训练过程中,采用相同的方式,同步进行训练,提高训练效率。
55.在上述步骤s2中,装置根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数。目标词向量模型可以理解为适用于识别词向量的模型,可以包括skip-gram模型或cbow模型。
56.进一步的,所述根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,包括:
57.根据所述m维列向量,以及目标词向量模型输出的对各词语的预测结果,得到预测结果向量;设skip-gram模型或cbow模型中词典的总词语数(如果限定词语的字符数为1,则为总字数)为v。与各词语分别对应的独热编码,可以在进行one-hot(独热)表示时确定。
58.skip-gram模型或cbow模型输出的预测结果可以进一步为归一化后的输出结果,例如为y1、y2、
…
yk…
yv,分别表示预测出来的词为词典的总词语中第k个的概率。
59.由于每一个词语都对应一个60n(5n
×
12)的独热编码,且经过与前述60n
×
m矩阵相乘,转化为m维向量,词典的所有词语一共形成v个m维向量。以y1、y2、
…
yk…
yv为权重,对所得到的v个m维向量加权求和后再对结果进行归一化,得到预测结果向量p。
60.根据预先确定正确结果的词语对应的独热编码和所述参数矩阵,得到正确结果向量;正确结果的词语所对应的60n(5n
×
12)独热编码,经过与前述60n
×
m维矩阵相乘,转化为m维向量,再进行归一化,得到正确结果向量q。
61.根据所述预测结果向量和所述正确结果向量,确定包含字型信息的损失函数。
62.进一步的,所述根据所述预测结果向量和所述正确结果向量,确定包含字型信息的损失函数,包括:
63.根据如下公式确定包含字型信息的损失函数:
64.所述损失函数=1-所述预测结果向量
×
所述正确结果向量。
65.进一步的,所述根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数,包括:
66.根据所述损失函数、与所述目标词向量模型对应的原始损失函数和损失函数权重,构建优化损失函数,具体包括:
67.根据如下公式构建优化损失函数:
68.所述优化损失函数=a
×
所述损失函数 (1-a)
×
所述原始损失函数;
69.其中,a为损失函数权重,可选为0到1之间的任意数值,原始损失函数的表达式可选为本领域已知的损失函数表达式,本发明实施例不再赘述。
70.字型信息的损失函数权重大小可根据实际需求进行调整。比如在一些专业领域,如医疗和化工等,其该领域专业词汇的汉字往往有相同的偏旁或者是字型。这种情况下就可以适当增加权重。在一些通用领域,则可以选择小一些的权重。
71.在上述步骤s3中,装置按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。
72.根据所述原始损失函数迭代训练目标词向量模型参数的方法,为本领域已知方法,本发明实施例不再赘述。
73.需要说明的是,在第一次训练时对参数矩阵的参数进行迭代训练,然后更新该参数矩阵,得到60n
×
m维矩阵,每迭代训练一次更新一次60n
×
m维矩阵。目标词向量模型参数的迭代训练,可参照上述对参数矩阵的参数进行迭代训练的说明,不再赘述。在完成最终训练后,所形成的优化目标模型中既包括语料的上下文信息,也包括一部分由四角号码编码所引入的字型信息。
74.对于其他字型编码进行应用时,仅需要对上述的5n
×
12的独热编码进行修改即可。其中5对应预设字型编码位数,当使用五笔编码时,修改为4。其中12对应于预设编码取值范围,当使用五笔编码时,修改为27(a至y为25位,补齐编码1位,附加编码1位)。
75.当使用多种字型编码时,每一种字型编码都对应一个损失函数。每个损失函数的权重为a/k,k为使用字型编码种类的数量。
76.进一步的,若所述字型输入法的数量大于1,则根据字型输入法的数量、所述损失函数、所述原始损失函数、所述损失函数权重构建优化损失函数。
77.具体包括:
78.根据如下公式构建优化损失函数:
79.所述优化损失函数=(a/k)
×
∑第i个损失函数 (1-a)
×
所述原始损失函数;
80.其中,k为字型输入法的数量,i为第i个字型输入法,每个字型输入法对应一个损失函数。
81.本发明实施例提供的目标词向量模型优化方法,根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据损失函数和与目标词向量模型对应的原始损失函数,构建优化损失函数;按照根据原始损失函数迭代训练目标词向量模型参数的方法,根据优化损失函数对目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。将字型信息引入目标词向量模型,且通过相适配的训练方法,提高优化目标词向量模型的训练效率。
82.图2是本发明一实施例提供的目标词向量模型优化装置的结构示意图,如图2所示,本发明实施例提供的目标词向量模型优化装置,包括获取单元201、构建单元202和优化单元203,其中:
83.获取单元201用于根据预先初始化的参数矩阵将词典中各词语分别对应的独热编
码转换为m维列向量,m为所述参数矩阵的列数;所述独热编码的维度根据与字型输入法对应的预设编码取值范围确定,所述独热编码的个数根据预设词语包含的预设字数和与字型输入法对应的预设字型编码位数确定;构建单元202用于根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数;优化单元203用于按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。
84.具体的,目标词向量模型优化装置中的获取单元201用于根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,m为所述参数矩阵的列数;所述独热编码的维度根据与字型输入法对应的预设编码取值范围确定,所述独热编码的个数根据预设词语包含的预设字数和与字型输入法对应的预设字型编码位数确定;构建单元202用于根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数;优化单元203用于按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。
85.本发明实施例提供的目标词向量模型优化装置,根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据损失函数和与目标词向量模型对应的原始损失函数,构建优化损失函数;按照根据原始损失函数迭代训练目标词向量模型参数的方法,根据优化损失函数对目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。将字型信息引入目标词向量模型,且通过相适配的训练方法,提高优化目标词向量模型的训练效率。
86.本发明实施例提供的目标词向量模型优化装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
87.图3为本发明实施例提供的电子设备实体结构示意图,如图3所示,所述电子设备包括:处理器(processor)301、存储器(memory)302和总线303;
88.其中,所述处理器301、存储器302通过总线303完成相互间的通信;
89.所述处理器301用于调用所述存储器302中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:
90.根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,m为所述参数矩阵的列数;所述独热编码的维度根据与字型输入法对应的预设编码取值范围确定,所述独热编码的个数根据预设词语包含的预设字数和与字型输入法对应的预设字型编码位数确定;
91.根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数;
92.按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。
93.本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
94.根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,m为所述参数矩阵的列数;所述独热编码的维度根据与字型输入法对应的预设编码取值范围确定,所述独热编码的个数根据预设词语包含的预设字数和与字型输入法对应的预设字型编码位数确定;
95.根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数;
96.按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。
97.本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:
98.根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,m为所述参数矩阵的列数;所述独热编码的维度根据与字型输入法对应的预设编码取值范围确定,所述独热编码的个数根据预设词语包含的预设字数和与字型输入法对应的预设字型编码位数确定;
99.根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数;
100.按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。
101.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
102.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
103.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
104.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
105.在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
106.以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种目标词向量模型优化方法,其特征在于,包括:根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,m为所述参数矩阵的列数;所述独热编码的维度根据与字型输入法对应的预设编码取值范围确定,所述独热编码的个数根据预设词语包含的预设字数和与字型输入法对应的预设字型编码位数确定;根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数;按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。2.根据权利要求1所述的目标词向量模型优化方法,其特征在于,根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,包括:根据所述m维列向量,以及目标词向量模型输出的对各词语的预测结果,得到预测结果向量;根据预先确定正确结果的词语对应的独热编码和所述参数矩阵,得到正确结果向量;根据所述预测结果向量和所述正确结果向量,确定包含字型信息的损失函数。3.根据权利要求1所述的目标词向量模型优化方法,其特征在于,所述根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数,包括:根据所述损失函数、与所述目标词向量模型对应的原始损失函数和损失函数权重,构建优化损失函数。4.根据权利要求1至3任一所述的目标词向量模型优化方法,其特征在于,所述目标词向量模型包括skip-gram模型或cbow模型;相应的,所述在训练完成后得到优化目标词向量模型,包括:在训练完成后得到优化skip-gram模型;或在训练完成后得到优化cbow模型。5.根据权利要求4所述的目标词向量模型优化方法,其特征在于,在得到优化skip-gram模型;或得到优化cbow模型之后,所述目标词向量模型优化方法还包括:输入待预测词语至所述优化skip-gram模型,将所述优化skip-gram模型的输出结果作为与所述待预测词语对应的上下文预测结果;或输入待预测上下文至所述优化cbow模型,将所述优化cbow模型的输出结果作为与所述待预测上下文对应的词语预测结果。6.根据权利要求3所述的目标词向量模型优化方法,其特征在于,若所述字型输入法的数量大于1,则根据字型输入法的数量、所述损失函数、所述原始损失函数、所述损失函数权重构建优化损失函数。7.一种目标词向量模型优化装置,其特征在于,包括:获取单元,用于根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为m维列向量,m为所述参数矩阵的列数;所述独热编码的维度根据与字型输入法对应的预设编码取值范围确定,所述独热编码的个数根据预设词语包含的预设字数和与字型输入法
对应的预设字型编码位数确定;构建单元,用于根据所述独热编码、所述参数矩阵、所述m维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数;优化单元,用于按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
技术总结
本发明提供一种目标词向量模型优化方法及装置,所述方法包括:根据预先初始化的参数矩阵将词典中各词语分别对应的独热编码转换为M维列向量,根据所述独热编码、所述参数矩阵、所述M维列向量、目标词向量模型输出的对各词语的预测结果,确定包含字型信息的损失函数,并根据所述损失函数和与所述目标词向量模型对应的原始损失函数,构建优化损失函数;按照根据所述原始损失函数迭代训练目标词向量模型参数的方法,根据所述优化损失函数对所述目标词向量模型参数,以及参数矩阵的参数进行迭代训练,在训练完成后得到优化目标词向量模型。所述装置用于执行上述方法。本发明实施例提供的方法及装置,提高优化目标词向量模型的训练效率。训练效率。训练效率。
技术研发人员:张杰 雷雨 孙士涛 刘柏延
受保护的技术使用者:国家电网有限公司
技术研发日:2022.02.16
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-12653.html