文本处理方法、装置、电子设备和存储介质与流程

    专利查询2024-06-17  36



    1.本技术涉及人工智能技术领域,尤其涉及一种文本处理方法、装置、电子设备和存储介质。


    背景技术:

    2.目前在电商行业,智能客服机器人应用非常广泛。准确识别用户意图,解决用户问题是问答机器人的核心内容,而准确理解用户意图的基础是建立一个完备的知识库。
    3.但在线用户问法层出不穷,一个完备的知识库近乎不可能存在。例如目前采用单点表示的知识回流方法流程大致为:当线上问法无法识别到意图时,会被判定为需要回流的知识点,但是仅根据意图类别进行判断,粒度是比较粗糙的,存在部分较相似的问法被误召回,使得知识挖掘的准确度较差。


    技术实现要素:

    4.本技术提出一种文本处理方法、装置、电子设备和存储介质。
    5.本技术第一方面实施例提出了一种文本处理方法,包括:获取待处理文本问题;将所述待处理文本问题输入至多分类模型中,得到预测结果,所述预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型;所述预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则将所述待处理文本问题和对应的所述预测结果添加至所述知识库中。
    6.本技术实施例的文本处理方法,将待处理文本问题输入至多分类模型中,得到预测结果,预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型,若预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则将待处理文本问题和对应的预测结果添加至知识库中。本实施例中,待处理文本问题通过多分类模型得到多因子的预测结果,并与知识库中的文本问题对应的多因子的实际结果比较来选择添加至知识库中,基于多因子框架更准确地表示了知识点,为挖掘知识点提供了更多辅助信息,提高了知识挖掘的准确度。
    7.本技术第二方面实施例提出一种文本处理装置,包括:获取模块,被配置为获取待处理文本问题;第一输入模块,被配置为将所述待处理文本问题输入至多分类模型中,得到预测结果,所述预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型;添加模块,被配置为所述预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则将所述待处理文本问题和对应的所述预测结果添加至所述知识库中。
    8.本技术实施例的文本处理装置,将待处理文本问题输入至多分类模型中,得到预测结果,预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型,若预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实
    际对象、实际条件和实际问题类型的组合不一致,则将待处理文本问题和对应的预测结果添加至知识库中。本实施例中,待处理文本问题通过多分类模型得到多因子的预测结果,并与知识库中的文本问题对应的多因子的实际结果比较来选择添加至知识库中,基于多因子框架更准确地表示了知识点,为挖掘知识点提供了更多辅助信息,提高了知识挖掘的准确度。
    9.本技术第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述第一方面实施例所述的文本处理方法。
    10.本技术第四方面实施例提出了一种存储有计算机指令的计算机可读存储介质,所述计算机指令用于使所述计算机执行如上述第一方面实施例所述的文本处理方法。
    11.本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
    附图说明
    12.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
    13.图1为本技术一实施例提供的文本处理方法的流程示意图;
    14.图2为多分类bert模型的框架图;
    15.图3为本技术另一实施例提供的文本处理方法的流程示意图;
    16.图4为本技术一实施例提供的文本处理装置的结构示意图;
    17.图5为本技术另一实施例提供的文本处理装置的结构示意图;
    18.图6为本技术一实施例提供的电子设备的框图。
    具体实施方式
    19.下面详细描述本技术的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
    20.人工智能(artificial intelligence,简称ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前,ai技术具有自动化程度高、精确度高、成本低的优点,得到了广泛的应用。
    21.智能客服(chat bot,简称cb)又叫智能客服机器人、在线客服机器人、用于客服的聊天机器人,基于自然语言处理技术、大规模机器学习技术、深度学习技术、语音识别和合成技术、意图识别、知识图谱技术、推理技术等人工智能技术,使用海量数据建立对话模型,结合多轮对话与实时反馈自主学习,精准识别用户意图,支持文字、语音、图片等富媒体交互,可实现语义解析和多形式的对话。一般与人工客服协作,为访客提供全天候的问答服务。
    22.文本分类(text classification,简称tc)用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。它根据一个已经被标注的训练文档集合,
    找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。在自然语言处理领域中,文本分类是重要的技术模块,其应用非常广泛,比如:垃圾邮件分类,新闻分类,情感分类等等。根据不同领域的文本特点,文本分类一般流程为:1、数据预处理;2、文本表示以及特征选择;3、构建分类模型;4、分类得结果。现有分类方法主要分为传统机器学习方法如决策树和支持向量机等;以及深度网络学习方法如:fasttext(快速文本分类算法)、textcnn(文本卷积神经网络)和预训练模型bert等。
    23.下面参考附图描述本技术实施例的文本处理方法、装置、电子设备和存储介质。
    24.图1为本技术一实施例提供的文本处理方法的流程示意图。本技术实施例的文本处理方法,可由本技术实施例提供的文本处理装置执行,该文本处理装置可设置于智能对话系统中。如图1所示,本技术实施例的文本处理方法具体可包括以下步骤:
    25.s101,获取待处理文本问题。
    26.具体的,通过智能客服系统获取待处理的文本问题,智能客服系统可以是各种客户端,包括但不限于网页端、应用程序端和微信小程序端等,本技术实施例对此不做过多限定。待处理文本问题即当前待分类的文本问题。
    27.s102,将待处理文本问题输入至多分类模型中,得到预测结果,预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型。
    28.具体的,将步骤s101获取的待处理文本问题输入至多分类模型,例如多分类bert模型中,多分类模型输出该待处理文本问题对应的包括预测意图和四因子(即预测动作、预测对象、预测条件和预测问题类型)等在内的预测结果。例如预测意图可以包括预测的多个可能的意图及每个意图对应的置信度得分。图2为多分类bert模型的框架图,如图2所示,对原始的分类bert模型进行了修改,以适配多任务分类的形式,模型在接收到在线用户的文本问题后,自动按字粒度进行分词,加入预测标记[cls]和分隔符[sep],接着对每一个字进行词嵌入,得到向量表示,经过多层transformer(转换模块)变换后,得到文本问题的分类表示t[cls],最终得到包括预测意图、预测动作、预测对象、预测条件和预测问题类型的预测结果。
    [0029]
    s103,预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则将待处理文本问题和对应的预测结果添加至知识库中。
    [0030]
    具体的,知识库,由经过业务经验累积的真实用户问法(即文本问题)组成,用以明确其所在意图边界的代表性问法,但这样的知识库难以覆盖线上用户多种多样的问法,因此我们需要发现新知识,并进行知识回流。知识库中的每个文本问题都通过因子拆分人工标注有对应的实际动作、实际对象、实际条件和实际问题类型。因子拆分,基于多因子框架,该多因子框架是一种语义表示框架,该框架对文本问题进行四因子拆分,分别为动作、对象、条件以及问题类型,对比单点表示框架,语义信息更为丰富,对比完全表示框架,标注人力可以得到大大节省,多因子框架从一定程度上结合了其余两种框架的优点,本技术实施例中对知识库中每一个文本问题进行四因子拆分,分别为动作、对象、条件和问题类型,例如将文本问题“我要申请专票”,拆分为“申请”动作、“发票”对象、“专用”条件和“first-command-positive”问题类型。
    [0031]
    将步骤s102获取的预测结果中的预测动作、预测对象、预测条件和预测问题类型
    的组合与知识库中的文本问题对应的采用人工标注的方式得到的实际动作、实际对象、实际条件和实际问题类型的组合进行比较,若比较结果为不一致则将待处理文本问题和对应的预测结果作为需要挖掘的知识添加至知识库中。若比较结果为一致则认为知识库中已经存在该知识,不需要将该知识进行回流,即无需将待处理文本问题和对应的预测结果添加至知识库中。例如待处理文本问题“发货时不要放有价格的单据哦”,预测得到预测动作、预测对象、预测条件和预测问题类型的四因子组合为“提供
    ‑‑
    清单
    ‑‑
    none
    ‑‑
    statement-negative”,现有知识库仅包括四因子组合为“提供
    ‑‑
    清单
    ‑‑
    none
    ‑‑
    yesno”的文本问题,即只存在是否问法,不存在否定问法,因此需要将待处理文本问题“发货时不要放有价格的单据哦”和对应的四因子组合“提供
    ‑‑
    清单
    ‑‑
    none
    ‑‑
    statement-negative”添加至知识库中。
    [0032]
    此处需要说明的是,通过上述步骤,我们可以把需要做回流判断的文本问题的范围大大缩小。另外,因为因子之间排列组合数量远多于意图的数量,筛选得到的文本问题可以更好地丰富知识库。
    [0033]
    本技术实施例的文本处理方法,将待处理文本问题输入至多分类模型中,得到预测结果,预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型,若预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则将待处理文本问题和对应的预测结果添加至知识库中。本实施例中,待处理文本问题通过多分类模型得到多因子的预测结果,并与知识库中的文本问题对应的多因子的实际结果比较来选择添加至知识库中,基于多因子框架更准确地表示了知识点,为挖掘知识点提供了更多辅助信息,提高了知识挖掘的准确度。基于多因子框架筛选得到的文本问题可以更好地丰富知识库。
    [0034]
    图3为本技术另一实施例提供的文本处理方法的流程示意图。如图3所示,在上述图1所示实施例的基础上,本技术实施例的文本处理方法具体可包括以下步骤:
    [0035]
    s301,将知识库中的文本问题输入至待训练的多分类模型中,得到样本预测结果,样本预测结果包括样本预测意图、样本预测动作、样本预测对象、样本预测条件和样本预测问题类型。
    [0036]
    具体的,将知识库中的文本问题输入至待训练的多分类模型中,待训练的多分类模型输出包括样本预测意图、样本预测动作、样本预测对象、样本预测条件和样本预测问题类型等在内的样本预测结果。
    [0037]
    s302,根据样本预测结果和知识库中的文本问题对应的实际意图、实际动作、实际对象、实际条件和实际问题类型,对待训练的多分类模型进行训练,得到多分类模型。
    [0038]
    具体的,根据步骤s301获取的样本预测结果和知识库中的文本问题对应的人工标注的实际结果,对待训练的多分类模型中的参数进行调整,将训练结束时对应的待训练的多分类模型作为训练好的多分类模型。
    [0039]
    s303,获取待处理文本问题。
    [0040]
    具体的,本实施例中的步骤s303与上述实施例中的步骤s101相同,此处不再赘述。
    [0041]
    s304,对待处理文本问题进行预处理,以使预处理后的待处理文本问题符合多分类模型的数据输入格式。
    [0042]
    具体的,对步骤s303获取的待处理文本问题进行预处理,使其符合多分类模型的数据输入格式,将预处理后的数据作为步骤s302得到的多分类模型的训练数据。
    [0043]
    s305,将待处理文本问题输入至多分类模型中,得到预测结果,预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型。
    [0044]
    具体的,将步骤s304获取的预处理后的待处理文本问题输入至步骤s302获取的训练好的多分类模型中,得到包括预测意图、预测动作、预测对象、预测条件和预测问题类型等在内的预测结果。具体过程参见上述实施例中的步骤s102,此处不再赘述。
    [0045]
    s306,筛选出置信度得分超过预设的置信度得分阈值的预测动作、预测对象、预测条件和预测问题类型。
    [0046]
    具体的,预测结果还包括预测动作、预测对象、预测条件和预测问题类型对应的置信度得分,根据步骤s305获取的预测结果,筛选出置信度得分超过预设的置信度得分阈值的预测结果,将置信度得分未超过预设的置信度得分阈值的预测结果剔除。
    [0047]
    上述实施例中的步骤s103“预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则将待处理文本问题和对应的预测结果添加至知识库中”具体可包括以下步骤s307-s308。
    [0048]
    s307,预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则获取待处理文本问题的人工判断结果。
    [0049]
    具体的,若待处理文本问题对应的预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的采用人工标注的方式得到的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则需要对待处理文本问题进行进一步的人工判断,根据人工判断结果确定待处理文本问题是否为新知识。
    [0050]
    s308,人工判断结果为需回流的文本问题,则将待处理文本问题和对应的预测结果添加知识库中。
    [0051]
    具体的,若人工判断结果为需回流的文本问题,即待处理文本问题为新知识,则将待处理文本问题和对应的预测结果添加至知识库中。若人工判断结果为无需回流的文本问题,则无需将待处理文本问题和对应的预测结果添加至知识库中。
    [0052]
    本技术实施例的文本处理方法,根据知识库中的文本问题和对应的实际意图、实际动作、实际对象、实际条件和实际问题类型,对待训练的多分类模型进行训练,得到多分类模型,对待处理文本问题进行预处理,以使预处理后的待处理文本问题符合多分类模型的数据输入格式,,将待处理文本问题输入至多分类模型中,得到预测结果,预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型,筛选出置信度得分超过预设的置信度得分阈值的预测动作、预测对象、预测条件和预测问题类型,若预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则获取待处理文本问题的人工判断结果,人工判断结果为需回流的文本问题,则将待处理文本问题和对应的预测结果添加知识库中。本实施例中,待处理文本问题通过多分类模型得到多因子的预测结果,并与知识库中的文本问题对应的多因子的实际结果比较来选择添加至知识库中,基于多因子框架更准确地表示了知识点,为挖掘知识点提供了更多辅助信息,提高了知识挖掘的准确度。基于多因子框架筛选得到的文本问题可以更好地丰富知识库。同时,通过置信度筛选和模型训练提高了预测结果
    和知识挖掘的准确度。
    [0053]
    为了实现上述实施例,本技术实施例还提出一种文本处理装置。图4为本技术一实施例的文本处理装置的结构示意图。如图4所示,本技术实施例的文本处理装置400具体可包括:获取模块401、第一输入模块402和添加模块403。
    [0054]
    获取模块401,被配置为获取待处理文本问题。
    [0055]
    第一输入模块402,被配置为将待处理文本问题输入至多分类模型中,得到预测结果,预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型。
    [0056]
    添加模块403,被配置为预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则将待处理文本问题和对应的预测结果添加至所述知识库中。
    [0057]
    需要说明的是,上述对文本处理方法实施例的解释说明,也适用于本技术实施例的文本处理装置,具体过程此处不再赘述。
    [0058]
    本技术实施例的文本处理装置,将待处理文本问题输入至多分类模型中,得到预测结果,预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型,若预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则将待处理文本问题和对应的预测结果添加至知识库中。本实施例中,待处理文本问题通过多分类模型得到多因子的预测结果,并与知识库中的文本问题对应的多因子的实际结果比较来选择添加至知识库中,基于多因子框架更准确地表示了知识点,为挖掘知识点提供了更多辅助信息,提高了知识挖掘的准确度。基于多因子框架筛选得到的文本问题可以更好地丰富知识库。
    [0059]
    为了实现上述实施例,本技术实施例还提出一种文本处理装置。图5为本技术另一实施例的文本处理装置的结构示意图。如图5所示,在图4所示实施例的基础上,添加模块403具体可包括:获取单元4031,被配置为获取待处理文本问题的人工判断结果。添加单元4032,被配置为人工判断结果为需回流的文本问题,则将待处理文本问题和对应的预测结果添加至知识库中。
    [0060]
    在本技术的一个实施例中,所述预测结果还包括:所述预测动作、预测对象、预测条件和预测问题类型对应的置信度得分,本技术实施例的文本处理装置400还包括:筛选模块,被配置为筛选出置信度得分超过预设的置信度得分阈值的预测动作、预测对象、预测条件和预测问题类型。
    [0061]
    在本技术的一个实施例中,本技术实施例的文本处理装置400还包括:预处理模块,被配置为对待处理文本问题进行预处理,以使预处理后待处理文本问题符合所述分类模型的数据输入格式。
    [0062]
    在本技术的一个实施例中,知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合采用人工标注的方式得到。
    [0063]
    在本技术的一个实施例中,本技术实施例的文本处理装置400还包括:第二输入模块,被配置为将知识库中的文本问题输入至待训练的多分类模型中,得到样本预测结果,样本预测结果包括样本预测意图、样本预测动作、样本预测对象、样本预测条件和样本预测问题类型。训练模块,被配置为根据样本预测结果和知识库中的文本问题对应的实际意图、实际动作、实际对象、实际条件和实际问题类型,对待训练的多分类模型进行训练,得到多分
    类模型。
    [0064]
    需要说明的是,上述对文本处理方法实施例的解释说明,也适用于本技术实施例的文本处理装置,具体过程此处不再赘述。
    [0065]
    本技术实施例的文本处理装置,根据知识库中的文本问题和对应的实际意图、实际动作、实际对象、实际条件和实际问题类型,对待训练的多分类模型进行训练,得到多分类模型,对待处理文本问题进行预处理,以使预处理后的待处理文本问题符合多分类模型的数据输入格式,将待处理文本问题输入至多分类模型中,得到预测结果,预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型,筛选出置信度得分超过预设的置信度得分阈值的预测动作、预测对象、预测条件和预测问题类型,若预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则获取待处理文本问题的人工判断结果,人工判断结果为需回流的文本问题,则将待处理文本问题和对应的预测结果添加知识库中。本实施例中,待处理文本问题通过多分类模型得到多因子的预测结果,并与知识库中的文本问题对应的多因子的实际结果比较来选择添加至知识库中,基于多因子框架更准确地表示了知识点,为挖掘知识点提供了更多辅助信息,提高了知识挖掘的准确度。基于多因子框架筛选得到的文本问题可以更好地丰富知识库。同时,通过置信度筛选和模型训练提高了预测结果和知识挖掘的准确度。
    [0066]
    根据本技术的实施例,本技术还提供了一种电子设备和一种可读存储介质。
    [0067]
    如图6所示,是根据本技术实施例的文本处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,智能语音交互设备、个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本技术的实现。
    [0068]
    如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器601可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
    [0069]
    存储器602即为本技术所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本技术所提供的文本处理方法。本技术的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本技术所提供的文本处理方法。
    [0070]
    存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本技术实施例中的文本处理方法对应的程序指令/模块(例如,附图4所示的获取模块401、第一输入模块402和添加模块403。处理器601通过运行
    存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本处理方法。
    [0071]
    存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本处理方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至文本处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
    [0072]
    文本处理方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
    [0073]
    输入装置603可接收输入的数字或字符信息,以及产生与文本处理方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
    [0074]
    此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
    [0075]
    这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
    [0076]
    为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
    [0077]
    可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据
    服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
    [0078]
    计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtual private server",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。
    [0079]
    应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本技术中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本技术公开的技术方案所期望的结果,本文在此不进行限制。
    [0080]
    在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
    [0081]
    尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。

    技术特征:
    1.一种文本处理方法,其特征在于,包括:获取待处理文本问题;将所述待处理文本问题输入至多分类模型中,得到预测结果,所述预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型;所述预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则将所述待处理文本问题和对应的所述预测结果添加至所述知识库中。2.根据权利要求1所述的文本处理方法,其特征在于,所述将所述待处理文本问题和对应的所述预测结果添加至所述知识库中,包括:获取所述待处理文本问题的人工判断结果;所述人工判断结果为需回流的文本问题,则将所述待处理文本问题和对应的所述预测结果添加至所述知识库中。3.根据权利要求1所述的文本处理方法,其特征在于,所述预测结果还包括:所述预测动作、预测对象、预测条件和预测问题类型对应的置信度得分,所述文本处理方法还包括:筛选出所述置信度得分超过预设的置信度得分阈值的所述预测动作、预测对象、预测条件和预测问题类型。4.根据权利要求1所述的文本处理方法,其特征在于,所述将所述待处理文本问题输入至多分类模型中之前,还包括:对所述待处理文本问题进行预处理,以使预处理后的所述待处理文本问题符合所述多分类模型的数据输入格式。5.根据权利要求1所述的文本处理方法,其特征在于,所述知识库中的文本问题对应的所述实际动作、实际对象、实际条件和实际问题类型的组合采用人工标注的方式得到。6.根据权利要求1所述的文本处理方法,其特征在于,还包括:将所述知识库中的文本问题输入至待训练的多分类模型中,得到样本预测结果,所述样本预测结果包括样本预测意图、样本预测动作、样本预测对象、样本预测条件和样本预测问题类型;根据所述样本预测结果和所述知识库中的文本问题对应的实际意图、所述实际动作、实际对象、实际条件和实际问题类型,对所述待训练的多分类模型进行训练,得到所述多分类模型。7.一种文本处理装置,其特征在于,包括:获取模块,被配置为获取待处理文本问题;第一输入模块,被配置为将所述待处理文本问题输入至多分类模型中,得到预测结果,所述预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型;添加模块,被配置为所述预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则将所述待处理文本问题和对应的所述预测结果添加至所述知识库中。8.根据权利要求7所述的文本处理装置,其特征在于,所述添加模块,包括:获取单元,被配置为获取所述待处理文本问题的人工判断结果;添加单元,被配置为所述人工判断结果为需回流的文本问题,则将所述待处理文本问
    题和对应的所述预测结果添加至所述知识库中。9.根据权利要求7所述的文本处理装置,其特征在于,所述预测结果还包括:所述预测动作、预测对象、预测条件和预测问题类型对应的置信度得分,所述文本处理装置还包括:筛选模块,被配置为筛选出所述置信度得分超过预设的置信度得分阈值的所述预测动作、预测对象、预测条件和预测问题类型。10.根据权利要求7所述的文本处理装置,其特征在于,还包括:预处理模块,被配置为对所述待处理文本问题进行预处理,以使预处理后的所述待处理文本问题符合所述多分类模型的数据输入格式。11.根据权利要求7所述的文本处理装置,其特征在于,所述知识库中的文本问题对应的所述实际动作、实际对象、实际条件和实际问题类型的组合采用人工标注的方式得到。12.根据权利要求7所述的文本处理装置,其特征在于,还包括:第二输入模块,被配置为将所述知识库中的文本问题输入至待训练的多分类模型中,得到样本预测结果,所述样本预测结果包括样本预测意图、样本预测动作、样本预测对象、样本预测条件和样本预测问题类型;训练模块,被配置为根据所述样本预测结果和所述知识库中的文本问题对应的实际意图、所述实际动作、实际对象、实际条件和实际问题类型,对所述待训练的多分类模型进行训练,得到所述多分类模型。13.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6中任一项所述的文本处理方法。14.一种存储有计算机指令的计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如权利要求1-6中任一项所述的文本处理方法。

    技术总结
    本申请提出一种文本处理方法、装置、电子设备和存储介质,其中,文本处理方法包括:获取待处理文本问题,将待处理文本问题输入至多分类模型中,得到预测结果,预测结果包括预测意图、预测动作、预测对象、预测条件和预测问题类型,预测动作、预测对象、预测条件和预测问题类型的组合与知识库中的文本问题对应的实际动作、实际对象、实际条件和实际问题类型的组合不一致,则将待处理文本问题和对应的预测结果添加至知识库中。本实施例中,基于多因子框架更准确地表示了知识点,为挖掘知识点提供了更多辅助信息,提高了知识挖掘的准确度。提高了知识挖掘的准确度。提高了知识挖掘的准确度。


    技术研发人员:吴良庆 王阳阳
    受保护的技术使用者:京东科技信息技术有限公司
    技术研发日:2022.02.07
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-22924.html

    最新回复(0)