本发明涉及自然语言处理技术,尤其涉及一种基于向量表示的知识嵌入方法。
背景技术:
1、目前,自然语言中知识的类型、表示方式、长度都缺乏一个统一的表示。神经网络从训练集中学习知识,但由于神经网络模型输入缺乏常识性知识,而模型的输入需要确定维度确定形式。因此,亟需设计一种新的知识嵌入的方法,将不同类型、表示方式、长度的知识表示为统一的向量嵌入神经网络输入中,为神经网络模型提供背景知识,避免神经网络预测出现常识性错误或者预测与知识冲突的情况,以弥补现有技术缺陷。
技术实现思路
1、本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于向量表示的知识嵌入方法。
2、本发明解决其技术问题所采用的技术方案是:一种基于向量表示的知识嵌入方法,包括以下步骤:
3、1)根据所有背景知识库v的词语构建一棵trie树;
4、2)根据trie树和给定输入句子,通过ac树算法查找输入句子中存在的背景知识词语;
5、3)将输入句子中存在的背景知识词语按照长度进行维度划分,再将同一维度的词语转换为字嵌入向量;
6、4)对输入句子中存在的背景知识词语引入词性标签表示词语所属的词性,生成多维的背景知识嵌入向量;
7、5)将字嵌入向量与多维的背景知识嵌入向量拼接得到输入向量;
8、6)将输入向量输入实体识别模型,利用所述实体识别模型识别自然文本中存在的实体。
9、按上述方案,所述步骤2)中,针对输入句子s和背景知识库v构建的trie树,利用ac树算法,获得句子s中所有背景知识库词语集合c。
10、按上述方案,按照长度进行维度划分为根据词语长度进行划分,不同长度的词语对应不同维度的嵌入向量信息,多维背景知识嵌入向量的维度为50维。
11、按上述方案,所述步骤4)中,具体如下:
12、4.1)对输入句子中存在的背景知识词语根据词语长度进行划分;
13、4.2)依次对背景知识词语进行词性标签标注,所述背景知识库的词性标签,包括:
14、名词,b-ming;动词,b-dong;数词,b-shu;介词,b-jie;连词,b-lian;语气,b-yu;助词,b-zhu;成语,b-cheng;
15、词性标签只考虑首字符标签b和无关标签o,不包括i标签;
16、4.3)根据输入句子以及背景知识词语的词性标签,将获得各维度的背景知识嵌入向量,最终生成多维背景知识嵌入向量。
17、按上述方案,所述步骤5)中,拼接如下:
18、
19、其中,xinput代表输入向量,xchar代表字嵌入向量,xbackground-i代表第i维背景知识向量,代表向量拼接操作。
20、本发明产生的有益效果是:
21、本发明将不同类型、表示方式、长度的知识表示为统一的向量嵌入神经网络输入中,为神经网络模型提供背景知识,避免神经网络预测出现常识性错误或者预测与知识冲突的情况。
1.一种基于向量表示的知识嵌入方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于向量表示的知识嵌入方法,其特征在于,所述步骤2)中,针对输入句子s和背景知识库v构建的trie树,利用ac树算法,获得句子s中所有背景知识库词语集合c。
3.根据权利要求1所述的基于向量表示的知识嵌入方法,其特征在于,所述步骤4)中,按照长度进行维度划分为根据词语长度进行划分,不同长度的词语对应不同维度的嵌入向量信息,多维背景知识嵌入向量的维度为50维。
4.根据权利要求1所述的基于向量表示的知识嵌入方法,其特征在于,所述步骤4)中,具体如下:
5.根据权利要求1所述的基于向量表示的知识嵌入方法,其特征在于,所述步骤5)中,拼接如下:
6.一种电子设备,其特征在于,
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述的方法。