多语言内容打标方法及模型训练方法、装置、设备及介质与流程

    专利查询2022-08-13  118



    1.本发明涉及信息处理领域,尤其涉及一种多语言内容打标方法和多语言内容打标模型的训练方法。


    背景技术:

    2.在线服务平台场景下,经常要给用户推荐其感兴趣的内容。旅游成为如今人们工作缓解压力的首选,在出行之前,用户经常会在在线旅游平台中搜索感兴趣的出游地并做攻略规划,但是可供选择的旅游地点很多,用户往往需要花费大量时间和精力无目的浏览和选择意向旅游地,不仅浪费时间,体验感也很差,此时就要求在线旅游平台需要根据用户的喜好推荐地点和攻略内容,尤其是针对不同用户如何准确推荐多语言内容推送,目前内容的推荐技术仅限于中文场景,无法直接复用于多语言场景,因此如何在最短时间内,对不同语言内容打标准确推送给用户,帮助不同用户找到最符合其偏好的出游地是急需解决的问题。


    技术实现要素:

    3.本发明要解决的技术问题是为了克服现有技术中无法针对不同国家的用户推荐其感兴趣的内容缺陷,提供一种多语言内容打标方法和多语言内容打标模型的训练方法及装置、电子设备、存储介质。
    4.本发明是通过下述技术方案来解决上述技术问题:
    5.作为本发明的第一方面,提供一种多语言内容打标方法,包括:
    6.获取多语言关键词,所述多语言关键词根据标签拆分组词提取得到;
    7.从多语言内容数据库中召回待打标数据,所述待打标数据是与所述多语言关键词匹配的多语言内容数据;
    8.将所述待打标数据输入至多语言内容打标模型,以由所述多语言内容打标模型的拼接层将所述标签与所述待打标数据进行拼接,由所述多语言内容打标模型的特征提取层对所述拼接层的输出结果进行特征提取,由所述多语言内容打标模型的判断层对所述特征提取层的输出结果进行归一化指数函数计算,得到的数值作为所述判断层的输出结果;其中,所述多语言内容打标模型由多个待打标数据样本训练得到;
    9.根据所述数值,判断所述标签与所述待打标内容数据是否匹配。
    10.较佳地,所述从多语言内容数据库中召回待打标数据的步骤之后包括:
    11.判断召回数量是否在预设阈值内,若所述召回数量在预设阈值内,则进行所述将所述待打标数据输入至多语言内容打标模型的步骤;
    12.所述召回数量表示所述待打标数据的数量。
    13.较佳地,若所述召回数量不在预设阈值内,则调整所述多语言关键词,并再次从多语言内容数据库中召回待打标数据。
    14.较佳地,所述根据所述数值,判断所述标签与所述待打标数据是否匹配的步骤包
    括:
    15.判断所述数值是否高于可信阈值,若所述数值高于所述可信阈值,则输出判断结果匹配,若所述数值低于所述可信阈值,则输出判断结果不匹配。
    16.较佳地,所述从多语言内容数据库中召回待打标数据的步骤之前还包括:
    17.获取外部调整指令,以根据所述外部调整指令调整所述可信阈值。
    18.作为本发明的第二方面,提供一种多语言内容打标模型的训练方法,所述多语言内容打标模型包括拼接层、特征提取层和判断层,所述训练方法包括:
    19.获取多个待打标数据样本,每个待打标数据样本标注有标注信息,所述标注信息表征所述待打标数据样本的标签;
    20.将所述待打标数据样本输入拼接层,以由所述拼接层将所述标签与所述待打标数据样本进行拼接,由所述特征提取层对所述拼接层的输出结果进行特征提取,由所述判断层对所述特征提取层的输出结果进行归一化指数函数计算,得到一数值作为所述判断层的输出结果;
    21.根据所述判断层的输出结果和所述标注信息计算损失误差,并根据所述损失误差调节所述拼接层、所述特征提取层和所述判断层的网络参数,直至达到迭代停止条件。
    22.作为本发明的第三方面,提供一种多语言内容打标装置,包括:
    23.获取模块,用于获取多语言关键词,所述多语言关键词根据标签拆分组词提取得到;
    24.调整模块,用于获取外部调整指令,以根据所述外部调整指令调整所述可信阈值;
    25.召回模块,用于从多语言内容数据库中召回待打标数据,所述待打标数据是与所述多语言关键词匹配的多语言内容数据;
    26.输入模块,用于将所述待打标数据输入至多语言内容打标模型;
    27.第一判断模块,用于判断召回数量是否在预设阈值内;
    28.第二判断模块,用于判断所述数值是否高于所述可信阈值。
    29.作为本发明的第四方面,提供一种多语言内容打标模型的训练装置,所述多语言内容打标模型包括拼接层、特征提取层和判断层,包括:
    30.获取样本模块,用于获取多个待打标数据样本,每个待打标数据样本标注有标注信息,所述标注信息表征所述待打标数据样本的标签;
    31.输入样本模块,用于将所述待打标数据样本输入拼接层,以由所述拼接层将所述标签与所述待打标数据样本进行拼接,由所述特征提取层对所述拼接层的输出结果进行特征提取,由所述判断层对所述特征提取层的输出结果进行归一化指数函数计算,得到一数值作为所述判断层的输出结果;
    32.计算模块,用于根据所述判断层的输出结果和所述标注信息计算损失误差;
    33.调节模块,根据所述损失误差调节所述拼接层、所述特征提取层和所述判断层的网络参数,直至达到迭代停止条件。
    34.作为本发明的第五方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述的方法。
    35.作为本发明的第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,
    所述计算机程序被处理器执行时实现上述任一项所述的方法。
    36.本发明的积极进步效果在于:本发明能够根据不同国家用户的实际感兴趣的主题提供相关内容推荐,为用户的行前决策提供参考,设置不同的判断精度阈值,得到最优解给多语言内容进行打标,从而向用户推荐最合适的内容。
    附图说明
    37.图1为本发明一示例性实施例提供的一种多语言内容打标方法的流程图;
    38.图2为本发明一示例性实施例提供的一种多语言内容打标模型训练方法的流程图;
    39.图3为本发明一示例性实施例提供的一种多语言内容打标装置的模块示意图;
    40.图4为本发明一示例性实施例提供的一种多语言内容打标模型训练装置的模块示意图;
    41.图5为本发明一示例性实施例提供的一种电子设备的结构示意图。
    具体实施方式
    42.下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
    43.图1为本发明一示例性实施例提供的一种多语言内容打标方法的流程图,该方法包括以下步骤:
    44.步骤101、获取多语言关键词。
    45.多语言关键词是根据获得的标签拆分组词提取得到的,其中,组词的方法包括但不限于以下的一种或多种:直接组词、近义词、同义词。
    46.步骤102、从多语言内容数据库中召回待打标数据。
    47.多语言内容数据库中存储着许多不同标签的关键词的内容数据,在多语言内容数据库中召回与标签拆分组词得到的关键词相匹配的内容数据,作为待打标数据,有效地降低了数据量,加快后续内容打标的速度。
    48.在一个实施例中,在步骤102之后,还会进行步骤1022、判断召回数量是否在预设阈值内,召回数量表示待打标数据的数量,若召回数量在预设阈值内,则进行步骤103,若召回数量不在预设阈值内,则调整多语言关键词,如变换关键词、增加或减少关键词,并执行步骤102。其中,关键词数量越多,得到的召回数量越多,关键词数量越少,得到的召回数量越少。本步骤可以避免召回数量不在预设阈值内时执行后续任务,造成计算资源的浪费。
    49.在一个实施例中,执行步骤102之前,先执行步骤1021、获取外部调整指令,以根据外部调整指令调整可信阈值,用户可以根据需要随时调整可信阈值,控制判断精度。
    50.步骤103、将待打标数据输入至多语言内容打标模型。由多语言内容打标模型的拼接层将标签与待打标数据进行拼接,由多语言内容打标模型的特征提取层对拼接层的输出结果进行特征提取,由多语言内容打标模型的判断层对特征提取层的输出结果进行归一化指数函数计算,得到的数值作为判断层的输出结果;其中,多语言内容打标模型由多个待打标数据样本训练得到。
    51.步骤104、判断数值是否高于可信阈值,可信阈值以概率表征。若数值高于可信阈
    值,则输出判断结果匹配,若数值低于可信阈值,则输出判断结果不匹配。
    52.在一个实施例中,如可信阈值设置为0.5,多语言内容打标模型的判断层输出数值结果为0.6,由于判断层输出结果高于可信阈值,因此结果输出1,1可以表示为匹配,0表示为不匹配。
    53.多语言内容数据量庞杂,运用上述方法先从多语言数据库中召回与关键词相关的待打标数据进行后续打标处理,降低了模型的训练量,提升了处理速度,并且能调整可信阈值,控制打标结果的精度,得到最优的打标结果。
    54.图2为本发明一示例性实施例提供的一种多语言内容打标模型训练方法的流程图,其中多语言内容打标模型包括依次级联的拼接层、特征提取层和判断层,训练方法包括以下步骤:
    55.步骤201、获取多个待打标数据样本,每个待打标数据样本都标注有标注信息,标注信息表征待打标数据样本的标签。
    56.步骤202、将待打标数据样本输入拼接层。
    57.拼接层会将标签与待打标数据样本进行编码拼接,将拼接后的数据输入至特征提取层,特征提取层对拼接后的数据进行特征提取,再由判断层对特征提取层的结果进行归一化指数函数计算,得到一数值作为判断层的输出结果。
    58.其中,多语言内容打标模型可以但不限于以下模型:xlm-roberta模型(一种多语言预训练模型)。
    59.在一个实施例中,判断层的输出结果以概率的形式表征,用于后续与可信阈值进行比较,进而判断输出结果是否匹配。
    60.步骤203、根据判断层的输出结果和标注信息计算损失误差。
    61.步骤204、根据损失误差调节拼接层、特征提取层和那层的网络参数,直到达到迭代停止条件。
    62.其中迭代停止条件可以但不限于包括:多语言内容打标模型的损失误差收敛;或者,迭代次数达到次数阈值。其中,次数阈值可以根据实际情况自行设置。
    63.训练完成,即可得到多语言内容打标模型。该多语言内容打标模型用于实现对多语言内容的有效打标,训练过程中,根据判断层的输出结果和标注信息计算损失误差,用该损失误差来约束多语言内容打标模型的训练,使多语言内容打标模型的结果更加准确。
    64.与前述多语言内容打标方法、多语言内容模型训练方法实施例相对应,本发明还提供了多语言内容打标装置、多语言内容打标模型的训练装置的实施例。
    65.图3为本发明一示例性实施例提供的一种多语言内容打标装置的模块示意图,所述装置包括:
    66.获取模块301,用于获取多语言关键词,所述多语言关键词根据标签拆分组词提取得到;
    67.调整模块302,用于获取外部调整指令,以根据所述外部调整指令调整所述可信阈值;
    68.召回模块303,用于从多语言内容数据库中召回待打标数据,所述待打标数据是与所述多语言关键词匹配的多语言内容数据;
    69.输入模块304,用于将所述待打标数据输入至多语言内容打标模型,以由多语言内
    容打标模型的拼接层将标签与待打标数据进行拼接,由多语言内容打标模型的特征提取层对拼接层的输出结果进行特征提取,由多语言内容打标模型的判断层对特征提取层的输出结果进行归一化指数函数计算,得到的数值作为所述判断层的输出结果。
    70.第一判断模块305,用于判断召回数量是否在预设阈值内,若所述召回数量在预设阈值内,则调用输入模块304,若所述召回数量不在预设阈值内,则调用调整模块302,再调用召回模块303。
    71.第二判断模块306,用于判断所述数值是否高于可信阈值。
    72.图4为本发明一示例性实施例提供的一种多语言内容打标模型训练装置的模块示意图,所述装置包括:
    73.获取样本模块401,用于获取多个待打标数据样本;
    74.输入样本模块402,用于将所述待打标数据样本输入拼接层,以由拼接层将标签与待打标数据样本进行拼接,由特征提取层对拼接层的输出结果进行特征提取,由判断层对特征提取层的输出结果进行归一化指数函数计算,得到一数值作为所述判断层的输出结果;
    75.计算模块403,用于根据所述判断层的输出结果和所述标注信息计算损失误差;
    76.调节模块404,根据所述损失误差调节所述拼接层、所述特征提取层和所述判断层的网络参数,直至达到迭代停止条件,其中迭代停止条件可以但不限于包括:多语言内容打标模型的损失误差收敛;或者,迭代次数达到次数阈值。其中,次数阈值可以根据实际情况自行设置。
    77.对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
    78.图5为本发明一示例实施例示出的一种电子设备的结构示意图,示出了适于用来实现本发明实施方式的示例性电子设备50的框图。图5显示的电子设备50仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
    79.如图5所示,电子设备50可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备50的组件可以包括但不限于:上述至少一个处理器51、上述至少一个存储器52、连接不同系统组件(包括存储器52和处理器51)的总线53。
    80.总线53包括数据总线、地址总线和控制总线。
    81.存储器52可以包括易失性存储器,例如随机存取存储器(ram)521和/或高速缓存存储器522,还可以进一步包括只读存储器(rom)523。
    82.存储器52还可以包括具有一组(至少一个)程序模块524的程序工具525(或实用工具),这样的程序模块524包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
    83.处理器51通过运行存储在存储器52中的计算机程序,从而执行各种功能应用以及数据处理,例如上述任一实施例所提供的方法。
    84.电子设备50也可以与一个或多个外部设备54(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口55进行。并且,模型生成的电子设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器56通过总线53与模型生成的电子设备50的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的电子设备50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
    85.应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
    86.本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所提供的方法的步骤。
    87.其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
    88.在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现上述任一实施例提供的方法的步骤。
    89.其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
    90.虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

    技术特征:
    1.一种多语言内容打标方法,其特征在于,包括:获取多语言关键词,所述多语言关键词根据标签拆分组词提取得到;从多语言内容数据库中召回待打标数据,所述待打标数据是与所述多语言关键词匹配的多语言内容数据;将所述待打标数据输入至多语言内容打标模型,以由所述多语言内容打标模型的拼接层将所述标签与所述待打标数据进行拼接,由所述多语言内容打标模型的特征提取层对所述拼接层的输出结果进行特征提取,由所述多语言内容打标模型的判断层对所述特征提取层的输出结果进行归一化指数函数计算,得到的数值作为所述判断层的输出结果;其中,所述多语言内容打标模型由多个待打标数据样本训练得到;根据所述数值,判断所述标签与所述待打标内容数据是否匹配。2.如权利要求1所述的多语言内容打标方法,其特征在于,所述从多语言内容数据库中召回待打标数据的步骤之后包括:判断召回数量是否在预设阈值内,若所述召回数量在预设阈值内,则进行所述将所述待打标数据输入至多语言内容打标模型的步骤;所述召回数量表示所述待打标数据的数量。3.如权利要求2所述的多语言内容打标方法,其特征在于,若所述召回数量不在预设阈值内,则调整所述多语言关键词,并再次从多语言内容数据库中召回待打标数据。4.如权利要求1所述的多语言内容打标方法,其特征在于,所述根据所述数值,判断所述标签与所述待打标数据是否匹配的步骤包括:判断所述数值是否高于可信阈值,若所述数值高于所述可信阈值,则输出判断结果匹配,若所述数值低于所述可信阈值,则输出判断结果不匹配。5.如权利要求4所述的多语言内容打标方法,其特征在于,所述从多语言内容数据库中召回待打标数据的步骤之前还包括:获取外部调整指令,以根据所述外部调整指令调整所述可信阈值。6.一种多语言内容打标模型的训练方法,其特征在于,所述多语言内容打标模型包括拼接层、特征提取层和判断层,所述训练方法包括:获取多个待打标数据样本,每个待打标数据样本标注有标注信息,所述标注信息表征所述待打标数据样本的标签;将所述待打标数据样本输入拼接层,以由所述拼接层将所述标签与所述待打标数据样本进行拼接,由所述特征提取层对所述拼接层的输出结果进行特征提取,由所述判断层对所述特征提取层的输出结果进行归一化指数函数计算,得到一数值作为所述判断层的输出结果;根据所述判断层的输出结果和所述标注信息计算损失误差,并根据所述损失误差调节所述拼接层、所述特征提取层和所述判断层的网络参数,直至达到迭代停止条件。7.一种多语言内容打标装置,其特征在于,包括:获取模块,用于获取多语言关键词,所述多语言关键词根据标签拆分组词提取得到;调整模块,用于获取外部调整指令,以根据所述外部调整指令调整可信阈值;召回模块,用于从多语言内容数据库中召回待打标数据,所述待打标数据是与所述多语言关键词匹配的多语言内容数据;
    输入模块,用于将所述待打标数据输入至多语言内容打标模型;第一判断模块,用于判断召回数量是否在预设阈值内;第二判断模块,用于判断所述数值是否高于所述可信阈值。8.一种多语言内容打标模型的训练装置,所述多语言内容打标模型包括拼接层、特征提取层和判断层,其特征在于,包括:获取样本模块,用于获取多个待打标数据样本,每个待打标数据样本标注有标注信息,所述标注信息表征所述待打标数据样本的标签;输入样本模块,用于将所述待打标数据样本输入拼接层,以由所述拼接层将所述标签与所述待打标数据样本进行拼接,由所述特征提取层对所述拼接层的输出结果进行特征提取,由所述判断层对所述特征提取层的输出结果进行归一化指数函数计算,得到一数值作为所述判断层的输出结果;计算模块,用于根据所述判断层的输出结果和所述标注信息计算损失误差;调节模块,根据所述损失误差调节所述拼接层、所述特征提取层和所述判断层的网络参数,直至达到迭代停止条件。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法。

    技术总结
    本发明公开了一种多语言内容打标方法及模型训练方法、装置、设备及介质,多语言内容打标方法包括:获取多语言关键词,所述多语言关键词根据标签拆分组词提取得到;从多语言内容数据库中召回待打标数据,所述待打标数据是与所述多语言关键词匹配的多语言内容数据;将所述待打标数据输入至多语言内容打标模型,以由拼接层将所述标签与所述待打标数据进行拼接,由特征提取层对所述拼接层的输出结果进行特征提取,由判断层对所述特征提取层的输出结果进行归一化指数函数计算;根据所述数值,判断所述标签与所述待打标内容数据是否匹配。由此得到最符合标签的多语言内容,给用户精确推送内容,提升用户的体验。提升用户的体验。提升用户的体验。


    技术研发人员:甘恬 郭子嘉 孙玉霞 高一宸
    受保护的技术使用者:携程旅游信息技术(上海)有限公司
    技术研发日:2022.02.18
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-7316.html

    最新回复(0)