实体识别方法、装置、电子设备及存储介质与流程

    专利查询2022-08-20  110



    1.本发明涉及人工智能领域,尤其涉及一种实体识别方法、装置、电子设备及存储介质。


    背景技术:

    2.命名实体识别任务也称为序列标注任务,是自然语言处理领域中的一项重要任务,可用于信息抽取、文本分类等多个应用场景。
    3.当前,通常采用有监督训练得到的实体识别模型对文本进行实体识别,然而,部分领域有标签的样本数量较少,导致训练得到的实体识别模型的实体识别准确度不高,因此,亟需一种实体识别方法,以提高小样本领域的实体识别准确度。


    技术实现要素:

    4.鉴于以上内容,有必要提供一种实体识别方法,旨在提高小样本领域的实体识别准确度。
    5.本发明提供的实体识别方法,包括:
    6.接收待识别文本,确定所述待识别文本对应的目标领域;
    7.当所述目标领域对应的携带标签信息的样本的数量小于数量阈值时,从预设数据库获取多个领域中每个领域对应的携带标签信息的样本,得到样本集;
    8.基于所述样本集的标签信息确定所述样本集对应的标签类别集,并计算所述标签类别集中标签类别之间的转移概率,基于所述转移概率确定所述标签类别集对应的标签转移矩阵;
    9.对所述待识别文本及所述样本集执行编码处理,得到所述待识别文本中每个字符对应的第一特征向量,及所述样本集对应的字符集中每个字符对应的第二特征向量;
    10.基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息确定所述待识别文本中每个字符对应的标签分布数组,基于所述标签分布数组确定所述待识别文本对应的标签分布矩阵;
    11.将所述标签分布矩阵及所述标签转移矩阵输入第一实体识别模型,得到实体识别结果。
    12.可选的,所述确定所述待识别文本对应的目标领域,包括:
    13.对所述待识别文本执行分词处理,得到词语集合;
    14.将所述词语集合中的每个词语分别与每个领域对应的词语库进行匹配,得到每个领域对应的匹配词集合;
    15.将匹配词数量最多的匹配词集合对应的领域作为所述待识别文本对应的目标领域。
    16.可选的,所述对所述待识别文本及所述样本集执行编码处理,得到所述待识别文本中每个字符对应的第一特征向量,及所述样本集对应的字符集中每个字符对应的第二特
    征向量,包括:
    17.将所述待识别文本分别与所述样本集中每个样本组合,得到多个样本对;
    18.将每个样本对分别输入编码模型执行编码处理,得到每个样本对中每个字符的编码向量;
    19.计算每个字符的编码向量的平均值,得到所述待识别文本中每个字符的第一特征向量,及所述样本集对应的字符集中每个字符的第二特征向量。
    20.可选的,所述基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息确定所述待识别文本中每个字符对应的标签分布数组,包括:
    21.基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息依次计算所述待识别文本中每个字符在所述标签类别集中每个标签类别的概率值;
    22.汇总所述概率值,得到所述待识别文本中每个字符对应的标签分布数组。
    23.可选的,所述概率值的计算公式为:
    [0024][0025][0026]
    其中,f
    ij
    为待识别文本中第i个字符在标签类别集中第j个标签类别的概率值,ck为样本集对应的字符集中第k个字符的标签类别,yj为标签类别集中第j个标签类别,n为样本集对应的字符集中字符的总数量,ei为待识别文本中第i个字符的第一特征向量,ek为样本集对应的字符集中第k个字符的第二特征向量,sim(ei,ek)为待识别文本中第i个字符与样本集对应的字符集中第k个字符的相似度值,i(ck=yj)为指示函数,若样本集对应的字符集中第k个字符的标签类别与标签类别集中第j个标签类别相同,则i为1,若样本集对应的字符集中第k个字符的标签类别与标签类别集中第j个标签类别不同,则i为0。
    [0027]
    可选的,若所述目标领域对应的携带标签信息的样本的数量大于或等于数量阈值,所述方法包括:
    [0028]
    采用所述目标领域对应的携带标签信息的样本训练第二实体识别模型,得到训练好的第二实体识别模型;
    [0029]
    基于所述训练好的第二实体识别模型对所述待识别文本执行实体识别处理,得到实体识别结果。
    [0030]
    可选的,所述转移概率的计算公式为:
    [0031][0032]
    其中,t
    i-j
    为标签类别集中第i个标签类别转移为第j个标签类别的转移概率,p(ci,cj)为样本集中同时含有标签类别集中第i个标签类别及第j个标签类别的样本的数量,p(ci)为样本集中含有标签类别集中第i个标签类别的样本的数量。
    [0033]
    为了解决上述问题,本发明还提供一种实体识别装置,所述装置包括:
    [0034]
    接收模块,用于接收待识别文本,确定所述待识别文本对应的目标领域;
    [0035]
    获取模块,用于当所述目标领域对应的携带标签信息的样本的数量小于数量阈值
    时,从预设数据库获取多个领域中每个领域对应的携带标签信息的样本,得到样本集;
    [0036]
    计算模块,用于基于所述样本集的标签信息确定所述样本集对应的标签类别集,并计算所述标签类别集中标签类别之间的转移概率,基于所述转移概率确定所述标签类别集对应的标签转移矩阵;
    [0037]
    编码模块,用于对所述待识别文本及所述样本集执行编码处理,得到所述待识别文本中每个字符对应的第一特征向量,及所述样本集对应的字符集中每个字符对应的第二特征向量;
    [0038]
    确定模块,用于基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息确定所述待识别文本中每个字符对应的标签分布数组,基于所述标签分布数组确定所述待识别文本对应的标签分布矩阵;
    [0039]
    识别模块,用于将所述标签分布矩阵及所述标签转移矩阵输入第一实体识别模型,得到实体识别结果。
    [0040]
    为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
    [0041]
    至少一个处理器;以及,
    [0042]
    与所述至少一个处理器通信连接的存储器;其中,
    [0043]
    所述存储器存储有可被所述至少一个处理器执行的实体识别程序,所述实体识别程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实体识别方法。
    [0044]
    为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有实体识别程序,所述实体识别程序可被一个或者多个处理器执行,以实现上述实体识别方法。
    [0045]
    相较现有技术,本发明首先在目标领域对应的有标签样本的数量小于数量阈值时,获取多个领域对应的携带标签信息的样本,得到样本集,基于样本集的标签信息计算标签类别集对应的标签转移矩阵;接着,对待识别文本及样本集执行编码处理,得到待识别文本中每个字符对应的第一特征向量,及样本集对应的字符集中每个字符对应的第二特征向量;然后,基于第一特征向量、第二特征向量及样本集的标签信息确定待识别文本对应的标签分布矩阵;最后,将标签分布矩阵及标签转移矩阵输入第一实体识别模型,得到实体识别结果。本发明通过引入多个领域的有标签样本,学习这些样本的标签之间的关系信息,根据学习到的关系信息对待识别文本进行实体识别处理,提高了小样本领域的实体识别准确度。因此,本发明提高了小样本领域的实体识别准确度。
    附图说明
    [0046]
    图1为本发明一实施例提供的实体识别方法的流程示意图;
    [0047]
    图2为本发明一实施例提供的实体识别装置的模块示意图;
    [0048]
    图3为本发明一实施例提供的实现实体识别方法的电子设备的结构示意图;
    [0049]
    本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
    具体实施方式
    [0050]
    为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不
    用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
    [0051]
    需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
    [0052]
    本发明提供一种实体识别方法。参照图1所示,为本发明一实施例提供的实体识别方法的流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。
    [0053]
    本实施例中,实体识别方法包括:
    [0054]
    s1、接收待识别文本,确定所述待识别文本对应的目标领域。
    [0055]
    所述领域包括医疗、教育、科技、体育、财经、旅游等领域,确定目标领域的目的是判断目标领域的有标签样本的数量,根据该数量确定待识别文本对应的实体识别方法。
    [0056]
    所述确定所述待识别文本对应的目标领域,包括:
    [0057]
    a11、对所述待识别文本执行分词处理,得到词语集合;
    [0058]
    本实施例中,可采用正向最大匹配法、逆向最大匹配法或最少切分法对待识别文本执行分词处理。
    [0059]
    a12、将所述词语集合中的每个词语分别与每个领域对应的词语库进行匹配,得到每个领域对应的匹配词集合;
    [0060]
    本实施例中,预先为每个领域配置了对应的词语库。
    [0061]
    a13、将匹配词数量最多的匹配词集合对应的领域作为所述待识别文本对应的目标领域。
    [0062]
    例如,若旅游领域对应的匹配词集合中匹配词数量最多,则将旅游作为待识别文本对应的目标领域。
    [0063]
    s2、当所述目标领域对应的携带标签信息的样本的数量小于数量阈值时,从预设数据库获取多个领域中每个领域对应的携带标签信息的样本,得到样本集。
    [0064]
    当目标领域的有标签样本的数量较少时,根据该领域的样本无法训练出准确率高的实体识别模型,为提高实体识别准确度,本实施例中,引入多个领域中有标签样本,学习这些样本的标签之间的关系信息,然后根据学习到的关系信息对待识别文本进行实体识别处理。
    [0065]
    所述数量阈值可以是10万,当目标领域对应的有标签样本的数量小于10万时,跨领域获取多个领域中每个领域对应的有标签样本,得到样本集。
    [0066]
    本实施例中,若所述目标领域对应的携带标签信息的样本的数量大于或等于数量阈值,所述方法包括:
    [0067]
    b11、采用所述目标领域对应的携带标签信息的样本训练第二实体识别模型,得到训练好的第二实体识别模型;
    [0068]
    若目标领域的有标签样本数量较多,则利用这些样本可训练得到准确度较高的训
    练好的第二实体识别模型。
    [0069]
    本实施例中,第二实体识别模型可以是深度神经网络模型,也可以是crf(conditional random field,条件随机场)模型。
    [0070]
    b12、基于所述训练好的第二实体识别模型对所述待识别文本执行实体识别处理,得到实体识别结果。
    [0071]
    利用训练好的第二实体识别模型,可准确识别出待识别文本中的实体。
    [0072]
    s3、基于所述样本集的标签信息确定所述样本集对应的标签类别集,并计算所述标签类别集中标签类别之间的转移概率,基于所述转移概率确定所述标签类别集对应的标签转移矩阵。
    [0073]
    命名实体识别任务也是序列标注任务,所述样本集对应的标签信息包括所述样本集中每个样本的每个字符对应的标签类别。例如,若样本集中样本1为:我o爱o上
    b-loc

    i-loc
    的o东
    b-arch

    i-arch

    i-arch

    i-arch
    ;样本2为:北
    b-loc

    i-loc
    的o烤o鸭o好o吃o。
    [0074]
    其中,标签o表示非实体,标签b-loc表示地名实体的开始,i-loc表示地名实体的中间,b-arch表示建筑实体的开始,i-arch表示建筑实体的中间。
    [0075]
    标签类别之间的转移概率即一个标签类别转换为另一个标签类别的概率,例如,标签o转换为标签b-loc的概率,标签b-loc转换为标签i-loc的概率,标签i-loc转换为标签i-loc的概率。
    [0076]
    本实施例中,所述转移概率的计算公式为:
    [0077][0078]
    其中,t
    i-j
    为标签类别集中第i个标签类别转移为第j个标签类别的转移概率,p(ci,cj)为样本集中同时含有标签类别集中第i个标签类别及第j个标签类别的样本的数量,p(ci)为样本集中含有标签类别集中第i个标签类别的样本的数量。
    [0079]
    若j=i,则计算的是一个标签类别转移到同一个标签类别的概率(例如,标签i-loc转换为标签i-loc的概率),此时,转移概率的计算公式中,分子为样本集中同时含有两个第i个标签类别的样本的数量,分母为样本集中含有一个第i个标签类别的样本的数量。
    [0080]
    若标签类别集中有5个标签类别,则标签转移矩阵为5*5的矩阵。
    [0081]
    s4、对所述待识别文本及所述样本集执行编码处理,得到所述待识别文本中每个字符对应的第一特征向量,及所述样本集对应的字符集中每个字符对应的第二特征向量。
    [0082]
    本实施例中,通过编码模型对待识别文本中每个字符及样本集中各个样本的每个字符执行编码处理,所述编码模型可以是robert模型,robert模型可学习输入文本的各个字符的语义信息、位置信息、标签信息及字符之间的相关关系,从而编码得到的的特征向量表征的特征较为丰富。
    [0083]
    所述对所述待识别文本及所述样本集执行编码处理,得到所述待识别文本中每个字符对应的第一特征向量,及所述样本集对应的字符集中每个字符对应的第二特征向量,包括:
    [0084]
    c11、将所述待识别文本分别与所述样本集中每个样本组合,得到多个样本对;
    [0085]
    例如,若样本集中共f个有标签样本,则组合后,得到f个样本对。
    [0086]
    c12、将每个样本对分别输入编码模型执行编码处理,得到每个样本对中每个字符
    的编码向量;
    [0087]
    本实施例中,将各个样本对中两个样本拼接,中间通过分隔符连接后输入编码模型执行编码处理,所述分隔符可以是[sep]。
    [0088]
    编码过程中,各个样本对中的每个字符可学习该样本对中其他字符的语义信息、标签信息、位置信息及字符之间的关联关系,得到编码向量。
    [0089]
    c13、计算每个字符的编码向量的平均值,得到所述待识别文本中每个字符的第一特征向量,及所述样本集对应的字符集中每个字符的第二特征向量。
    [0090]
    f个样本对中都含有待识别文本,则待识别文本中的每个字符至少被编码了f次(当样本集中的样本含有与待识别文本中某一字符相同的字符时,该字符被编码次数大于f次)。
    [0091]
    本实施例中,按照字符被编码的次数,计算每个字符的编码向量的平均值,得到每个字符的特征向量,包括待识别文本中每个字符的第一特征向量、及样本集对应的字符集中每个字符的第二特征向量。
    [0092]
    s5、基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息确定所述待识别文本中每个字符对应的标签分布数组,基于所述标签分布数组确定所述待识别文本对应的标签分布矩阵。
    [0093]
    根据样本集的标签信息,可学习到字符与标签之间的依赖关系,根据该依赖关系可计算出待识别文本中每个字符对应的标签分布数组,汇总每个字符的标签分布数组,得到待识别文本对应的标签分布矩阵。
    [0094]
    所述基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息确定所述待识别文本中每个字符对应的标签分布数组,包括:
    [0095]
    d11、基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息依次计算所述待识别文本中每个字符在所述标签类别集中每个标签类别的概率值;
    [0096]
    所述概率值的计算公式为:
    [0097][0098][0099]
    其中,f
    ij
    为待识别文本中第i个字符在标签类别集中第j个标签类别的概率值,ck为样本集对应的字符集中第k个字符的标签类别,yj为标签类别集中第j个标签类别,n为样本集对应的字符集中字符的总数量,ei为待识别文本中第i个字符的第一特征向量,ek为样本集对应的字符集中第k个字符的第二特征向量,sim(ei,ek)为待识别文本中第i个字符与样本集对应的字符集中第k个字符的相似度值,i(ck=yj)为指示函数,若样本集对应的字符集中第k个字符的标签类别与标签类别集中第j个标签类别相同,则i为1,若样本集对应的字符集中第k个字符的标签类别与标签类别集中第j个标签类别不同,则i为0。
    [0100]
    d12、汇总所述概率值,得到所述待识别文本中每个字符对应的标签分布数组。
    [0101]
    若标签类别集中有5个标签类别,则待识别文本中每个字符对应的标签分布数组为1*5的数组,若待识别文本中有10个字符,则待识别文本对应的标签分布矩阵为10*5的矩
    阵。
    [0102]
    s6、将所述标签分布矩阵及所述标签转移矩阵输入第一实体识别模型,得到实体识别结果。
    [0103]
    本实施例中,将标签分布矩阵及标签转移矩阵输入第一实体识别模型,可输出待识别文本对应的实体识别结果。
    [0104]
    所述第一实体识别模型为crf模型,crf模型结合了最大熵模型和隐马尔可夫模型的特点,输出实体的最大链路,考虑到了前后文信息,使得实体识别结果更加准确。
    [0105]
    由上述实施例可知,本发明提出的实体识别方法,首先,在目标领域对应的有标签样本的数量小于数量阈值时,获取多个领域对应的携带标签信息的样本,得到样本集,基于样本集的标签信息计算标签类别集对应的标签转移矩阵;接着,对待识别文本及样本集执行编码处理,得到待识别文本中每个字符对应的第一特征向量,及样本集对应的字符集中每个字符对应的第二特征向量;然后,基于第一特征向量、第二特征向量及样本集的标签信息确定待识别文本对应的标签分布矩阵;最后,将标签分布矩阵及标签转移矩阵输入第一实体识别模型,得到实体识别结果。本发明通过引入多个领域的有标签样本,学习这些样本的标签之间的关系信息,根据学习到的关系信息对待识别文本进行实体识别处理,提高了小样本领域的实体识别准确度。因此,本发明提高了小样本领域的实体识别准确度。
    [0106]
    如图2所示,为本发明一实施例提供的实体识别装置的模块示意图。
    [0107]
    本发明所述实体识别装置100可以安装于电子设备中。根据实现的功能,所述实体识别装置100可以包括接收模块110、获取模块120、计算模块130、编码模块140、确定模块150及识别模块160。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
    [0108]
    在本实施例中,关于各模块/单元的功能如下:
    [0109]
    接收模块110,用于接收待识别文本,确定所述待识别文本对应的目标领域;
    [0110]
    所述确定所述待识别文本对应的目标领域,包括:
    [0111]
    a21、对所述待识别文本执行分词处理,得到词语集合;
    [0112]
    a22、将所述词语集合中的每个词语分别与每个领域对应的词语库进行匹配,得到每个领域对应的匹配词集合;
    [0113]
    a23、将匹配词数量最多的匹配词集合对应的领域作为所述待识别文本对应的目标领域。
    [0114]
    获取模块120,用于当所述目标领域对应的携带标签信息的样本的数量小于数量阈值时,从预设数据库获取多个领域中每个领域对应的携带标签信息的样本,得到样本集。
    [0115]
    若所述目标领域对应的携带标签信息的样本的数量大于或等于数量阈值,所述获取模块120还用于:
    [0116]
    b21、采用所述目标领域对应的携带标签信息的样本训练第二实体识别模型,得到训练好的第二实体识别模型;
    [0117]
    b22、基于所述训练好的第二实体识别模型对所述待识别文本执行实体识别处理,得到实体识别结果。
    [0118]
    计算模块130,用于基于所述样本集的标签信息确定所述样本集对应的标签类别集,并计算所述标签类别集中标签类别之间的转移概率,基于所述转移概率确定所述标签
    类别集对应的标签转移矩阵。
    [0119]
    所述转移概率的计算公式为:
    [0120][0121]
    其中,t
    i-j
    为标签类别集中第i个标签类别转移为第j个标签类别的转移概率,p(ci,cj)为样本集中同时含有标签类别集中第i个标签类别及第j个标签类别的样本的数量,p(ci)为样本集中含有标签类别集中第i个标签类别的样本的数量。
    [0122]
    编码模块140,用于对所述待识别文本及所述样本集执行编码处理,得到所述待识别文本中每个字符对应的第一特征向量,及所述样本集对应的字符集中每个字符对应的第二特征向量。
    [0123]
    所述对所述待识别文本及所述样本集执行编码处理,得到所述待识别文本中每个字符对应的第一特征向量,及所述样本集对应的字符集中每个字符对应的第二特征向量,包括:
    [0124]
    c21、将所述待识别文本分别与所述样本集中每个样本组合,得到多个样本对;
    [0125]
    c22、将每个样本对分别输入编码模型执行编码处理,得到每个样本对中每个字符的编码向量;
    [0126]
    c23、计算每个字符的编码向量的平均值,得到所述待识别文本中每个字符的第一特征向量,及所述样本集对应的字符集中每个字符的第二特征向量。
    [0127]
    确定模块150,用于基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息确定所述待识别文本中每个字符对应的标签分布数组,基于所述标签分布数组确定所述待识别文本对应的标签分布矩阵。
    [0128]
    所述基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息确定所述待识别文本中每个字符对应的标签分布数组,包括:
    [0129]
    d21、基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息依次计算所述待识别文本中每个字符在所述标签类别集中每个标签类别的概率值;
    [0130]
    所述概率值的计算公式为:
    [0131][0132][0133]
    其中,f
    ij
    为待识别文本中第i个字符在标签类别集中第j个标签类别的概率值,ck为样本集对应的字符集中第k个字符的标签类别,yj为标签类别集中第j个标签类别,n为样本集对应的字符集中字符的总数量,ei为待识别文本中第i个字符的第一特征向量,ek为样本集对应的字符集中第k个字符的第二特征向量,sim(ei,ek)为待识别文本中第i个字符与样本集对应的字符集中第k个字符的相似度值,i(ck=yj)为指示函数,若样本集对应的字符集中第k个字符的标签类别与标签类别集中第j个标签类别相同,则i为1,若样本集对应的字符集中第k个字符的标签类别与标签类别集中第j个标签类别不同,则i为0。
    [0134]
    d22、汇总所述概率值,得到所述待识别文本中每个字符对应的标签分布数组。
    [0135]
    识别模块160,用于将所述标签分布矩阵及所述标签转移矩阵输入第一实体识别模型,得到实体识别结果。
    [0136]
    如图3所示,为本发明一实施例提供的实现实体识别方法的电子设备的结构示意图。
    [0137]
    所述电子设备1是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。所述电子设备1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云,其中云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
    [0138]
    在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有实体识别程序10,所述实体识别程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及实体识别程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
    [0139]
    其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元,例如该电子设备1的硬盘;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的实体识别程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
    [0140]
    处理器12在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行实体识别程序10等。
    [0141]
    网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与客户端(图中未画出)之间建立通信连接。
    [0142]
    可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
    [0143]
    应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
    [0144]
    所述电子设备1中的所述存储器11存储的实体识别程序10是多个指令的组合,在
    所述处理器12中运行时,可以实现上述实体识别方法中的步骤。
    [0145]
    具体地,所述处理器12对上述实体识别程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
    [0146]
    进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
    [0147]
    所述计算机可读存储介质上存储有实体识别程序10,所述实体识别程序10可被一个或者多个处理器执行,以实现上述实体识别方法中的步骤。
    [0148]
    在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
    [0149]
    所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
    [0150]
    另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
    [0151]
    因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
    [0152]
    本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
    [0153]
    此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
    [0154]
    最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

    技术特征:
    1.一种实体识别方法,其特征在于,所述方法包括:接收待识别文本,确定所述待识别文本对应的目标领域;当所述目标领域对应的携带标签信息的样本的数量小于数量阈值时,从预设数据库获取多个领域中每个领域对应的携带标签信息的样本,得到样本集;基于所述样本集的标签信息确定所述样本集对应的标签类别集,并计算所述标签类别集中标签类别之间的转移概率,基于所述转移概率确定所述标签类别集对应的标签转移矩阵;对所述待识别文本及所述样本集执行编码处理,得到所述待识别文本中每个字符对应的第一特征向量,及所述样本集对应的字符集中每个字符对应的第二特征向量;基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息确定所述待识别文本中每个字符对应的标签分布数组,基于所述标签分布数组确定所述待识别文本对应的标签分布矩阵;将所述标签分布矩阵及所述标签转移矩阵输入第一实体识别模型,得到实体识别结果。2.如权利要求1所述的实体识别方法,其特征在于,所述确定所述待识别文本对应的目标领域,包括:对所述待识别文本执行分词处理,得到词语集合;将所述词语集合中的每个词语分别与每个领域对应的词语库进行匹配,得到每个领域对应的匹配词集合;将匹配词数量最多的匹配词集合对应的领域作为所述待识别文本对应的目标领域。3.如权利要求1所述的实体识别方法,其特征在于,所述对所述待识别文本及所述样本集执行编码处理,得到所述待识别文本中每个字符对应的第一特征向量,及所述样本集对应的字符集中每个字符对应的第二特征向量,包括:将所述待识别文本分别与所述样本集中每个样本组合,得到多个样本对;将每个样本对分别输入编码模型执行编码处理,得到每个样本对中每个字符的编码向量;计算每个字符的编码向量的平均值,得到所述待识别文本中每个字符的第一特征向量,及所述样本集对应的字符集中每个字符的第二特征向量。4.如权利要求1所述的实体识别方法,其特征在于,所述基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息确定所述待识别文本中每个字符对应的标签分布数组,包括:基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息依次计算所述待识别文本中每个字符在所述标签类别集中每个标签类别的概率值;汇总所述概率值,得到所述待识别文本中每个字符对应的标签分布数组。5.如权利要求4所述的实体识别方法,其特征在于,所述概率值的计算公式为:
    其中,f
    ij
    为待识别文本中第i个字符在标签类别集中第j个标签类别的概率值,c
    k
    为样本集对应的字符集中第k个字符的标签类别,y
    j
    为标签类别集中第j个标签类别,n为样本集对应的字符集中字符的总数量,e
    i
    为待识别文本中第i个字符的第一特征向量,e
    k
    为样本集对应的字符集中第k个字符的第二特征向量,sim(e
    i
    ,e
    k
    )为待识别文本中第i个字符与样本集对应的字符集中第k个字符的相似度值,i(c
    k
    =y
    j
    )为指示函数,若样本集对应的字符集中第k个字符的标签类别与标签类别集中第j个标签类别相同,则i为1,若样本集对应的字符集中第k个字符的标签类别与标签类别集中第j个标签类别不同,则i为0。6.如权利要求1所述的实体识别方法,其特征在于,若所述目标领域对应的携带标签信息的样本的数量大于或等于数量阈值,所述方法包括:采用所述目标领域对应的携带标签信息的样本训练第二实体识别模型,得到训练好的第二实体识别模型;基于所述训练好的第二实体识别模型对所述待识别文本执行实体识别处理,得到实体识别结果。7.如权利要求1所述的实体识别方法,其特征在于,所述转移概率的计算公式为:其中,t
    i-j
    为标签类别集中第i个标签类别转移为第j个标签类别的转移概率,p(c
    i
    ,c
    j
    )为样本集中同时含有标签类别集中第i个标签类别及第j个标签类别的样本的数量,p(c
    i
    )为样本集中含有标签类别集中第i个标签类别的样本的数量。8.一种实体识别装置,其特征在于,所述装置包括:接收模块,用于接收待识别文本,确定所述待识别文本对应的目标领域;获取模块,用于当所述目标领域对应的携带标签信息的样本的数量小于数量阈值时,从预设数据库获取多个领域中每个领域对应的携带标签信息的样本,得到样本集;计算模块,用于基于所述样本集的标签信息确定所述样本集对应的标签类别集,并计算所述标签类别集中标签类别之间的转移概率,基于所述转移概率确定所述标签类别集对应的标签转移矩阵;编码模块,用于对所述待识别文本及所述样本集执行编码处理,得到所述待识别文本中每个字符对应的第一特征向量,及所述样本集对应的字符集中每个字符对应的第二特征向量;确定模块,用于基于所述第一特征向量、所述第二特征向量及所述样本集的标签信息确定所述待识别文本中每个字符对应的标签分布数组,基于所述标签分布数组确定所述待识别文本对应的标签分布矩阵;识别模块,用于将所述标签分布矩阵及所述标签转移矩阵输入第一实体识别模型,得到实体识别结果。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,
    与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的实体识别程序,所述实体识别程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的实体识别方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有实体识别程序,所述实体识别程序可被一个或者多个处理器执行,以实现如权利要求1至7任一项所述的实体识别方法。

    技术总结
    本发明涉及人工智能领域,揭露一种实体识别方法,包括:当目标领域对应的携带标签信息的样本的数量小于数量阈值时,获取多个领域对应的携带标签信息的样本,得到样本集;基于样本集的标签信息确定标签类别集对应的标签转移矩阵;对待识别文本及样本集执行编码处理,得到待识别文本中每个字符对应的第一特征向量,及样本集对应的字符集中每个字符对应的第二特征向量;基于第一特征向量、第二特征向量及样本集的标签信息确定待识别文本对应的标签分布矩阵;将标签分布矩阵及标签转移矩阵输入第一实体识别模型,得到实体识别结果。本发明还提供一种实体识别装置、电子设备及存储介质。本发明提高了实体识别准确度。本发明提高了实体识别准确度。本发明提高了实体识别准确度。


    技术研发人员:刘欢
    受保护的技术使用者:平安普惠企业管理有限公司
    技术研发日:2022.02.17
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-10169.html

    最新回复(0)