工单文本的分类方法、装置、存储介质及计算机设备与流程

    专利查询2022-07-07  190



    1.本发明涉及自然语言处理技术领域,尤其是涉及一种工单文本的分类方法、装置、存储介质及计算机设备。


    背景技术:

    2.工单,即工作单据的简称。在很多领域中,工单都是一种较为重要的工作凭证性文件。一般来说,在工单制作完成后,都需要工作人员对工单进行质检或审核,关键信息不全的工单会被认为是无效工单。当工单的数量较为庞大时,工单质检将是一项非常耗时的工作,目前,较为惯用的工单质检策略是利用文本分类模型对工单进行分类处理,从而过滤掉部分无效的工单,以降低人工质检的工作量。
    3.然而,由于工单的制作方式和具体内容差异性较大,时常就会出现工单文本的段落长短不一致和工单文本中的关键信息较为稀疏和离散等问题。此时,利用文本分类模型直接对工单文本进行分类操作,就会出现文本长度超过模型限制而无法分类或分类不准确等问题。以往,针对文本长度超过限制的工单文本,都会采用由句首向后截取或由句尾向前截取等方式进行预处理,然而,这样的工单文本预处理方式会造成工单文本中的关键词丢失,最终导致工单文本的分类结果被误判。


    技术实现要素:

    4.有鉴于此,本技术提供了一种工单文本的分类方法、装置、存储介质及计算机设备,主要目的在于解决工单文本分类结果不准确的技术问题。
    5.根据本发明的第一个方面,提供了一种工单文本的分类方法,该方法包括:
    6.获取待处理的工单文本,并对工单文本进行关键词标注处理,得到工单文本的关键词标注信息;
    7.根据工单文本的关键词标注信息,对工单文本中的文字信息进行排序处理,得到排序后的工单文本;
    8.按照预设的文本长度,对排序后的工单文本进行截取处理,得到预处理后的工单文本;
    9.对预处理后的工单文本进行分类处理,得到工单文本的分类结果。
    10.可选的,获取待处理的工单文本,并对工单文本进行关键词标注处理,得到工单文本的关键词标注信息,包括:获取待处理的录音文件,并对录音文件进行文字转换处理,得到待处理的工单文本;通过预训练的命名实体识别模型,对工单文本中的关键词进行标注,得到工单文本的关键词标注信息。
    11.可选的,工单文本的关键词标注信息包括关键词在工单文本中的位置信息,工单文本包括多个字符串;则根据工单文本的关键词标注信息,对工单文本中的文字信息进行排序处理,得到排序后的工单文本,包括:根据关键词在工单文本中的位置信息,确定工单文本中每个字符串包含的关键词数量;按照工单文本中每个字符串包含的关键词数量,对
    工单文本中的多个字符串进行降序排列,得到排序后的工单文本。
    12.可选的,工单文本的关键词标注信息包括关键词在工单文本中的位置信息和关键词的权重信息,工单文本包括多个字符串;则根据工单文本的关键词标注信息,对工单文本中的文字信息进行排序处理,得到排序后的工单文本,包括:根据关键词在工单文本中的位置信息和关键词的权重信息,确定工单文本中每个字符串对应的关键词权重信息;按照工单文本中每个字符串对应的关键词权重信息,对工单文本中的多个字符串进行降序排列,得到排序后的工单文本。
    13.可选的,关键词的权重信息的确定方法,包括:获取多个工单文本样本,并分别对每个工单文本样本进行关键词标注处理,得到每个工单文本样本的关键词标注信息;根据每个工单文本样本的关键词标注信息,对多个工单文本样本中的关键词进行数量统计,得到每个关键词的出现频次;根据每个关键词的出现频次,确定每个关键词的权重信息。
    14.可选的,工单文本的关键词标注信息包括关键词在工单文本中的位置信息和关键词的属性信息,工单文本包括多个字符串;则根据工单文本的关键词标注信息,对工单文本中的文字信息进行排序处理,得到排序后的工单文本,包括:根据关键词在工单文本中的位置信息和关键词的属性信息,确定工单文本中每个字符串对应的属性信息;根据工单文本中每个字符串对应的属性信息,按照预定的属性信息排列顺序,对工单文本中的多个字符串进行排序,得到排序后的工单文本。
    15.可选的,根据工单文本的关键词标注信息,对工单文本中的文字信息进行排序处理,得到排序后的工单文本,包括:根据工单文本的关键词标注信息,按照预定的关键词信息截取规则,对工单文本中的关键词信息进行截取;对截取后的工单文本中的关键词信息进行排序处理,得到排序后的工单文本。
    16.根据本发明的第二个方面,提供了一种工单文本的分类装置,该装置包括:
    17.关键词标注模块,用于获取待处理的工单文本,并对工单文本进行关键词标注处理,得到工单文本的关键词标注信息;
    18.文本排序模块,用于根据工单文本的关键词标注信息,对工单文本中的文字信息进行排序处理,得到排序后的工单文本;
    19.文本截取模块,用于按照预设的文本长度,对排序后的工单文本进行截取处理,得到预处理后的工单文本;
    20.文本分类模块,用于对预处理后的工单文本进行分类处理,得到工单文本的分类结果。
    21.根据本发明的第三个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述工单文本的分类方法。
    22.根据本发明的第四个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述工单文本的分类方法。
    23.本发明提供的一种工单文本的分类方法、装置、存储介质及计算机设备,首先对工单文本中的关键词进行标注,然后根据工单文本中的关键词标注信息对工单文本中的文字信息进行重新排序,进而对排序后的文本进行截取,最后通过分类处理得到工单文本的分类结果。上述方法可以将工单文本中的关键信息聚集在一起,避免了工单文本中的关键信
    息被截取掉的问题,有效降低了工单文本中关键信息损失的概率,最大限度的保证了工单文本的信息完整性,且保证了工单文本的长度不超过模型限制的长度,最终有效的降低了工单文本被误判的概率,此外,由于预处理后的工单文本中的关键信息较为集中,因此也有效的提高了工单文本的分类准确性。
    24.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
    附图说明
    25.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
    26.图1示出了本发明实施例提供的一种工单文本的分类方法的流程示意图;
    27.图2示出了本发明实施例提供的一种工单文本的分类方法的场景示意图;
    28.图3示出了本发明实施例提供的一种工单文本的分类方法的场景示意图;
    29.图4示出了本发明实施例提供的一种工单文本的分类装置的结构示意图。
    具体实施方式
    30.下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
    31.如背景技术所述,在很多领域中,工单都是一种较为重要的工作凭证性文件,且需要人工审核,其中,大批量的工单往往需要借助于文本分类模型进行辅助筛选,然而,受限于工单文本长度的不确定性和文本内容中的关键信息的离散型,会导致工单文本的分类准确性较低。
    32.举例来说,在个人大病筹款领域,业务员需要与筹款人以语音对话的方式了解筹款人家庭收入、固定资产等信息,并录音记录,每一个筹款人对应一个工单。因存在关键信息不全、无效沟通等情况,工单质检人员需要对这类语音工单逐一审核。关键信息不全的工单被认为是无效工单。当筹款人数达到一定量时,工单质检将是非常耗时的工作。惯用的工单质检策略是将筹款人录音转换成文本,再利用bert文本分类方法过滤掉部分无效工单,以降低人工工作量。
    33.然而,在语音的录制过程中,除操作失误导致语言记录和噪声等外部干扰外,还会存在一定量的闲聊语句,如寒暄、问候等等。这就导致与语音对应的文本段落长短非常悬殊,长文本很长,短文本寥寥数语。质检的过程中,质检人员只关心关键信息是否完整和准确。排除不相关的闲聊内容,关键信息在整条文本中的存在较为稀疏和离散。并且,利用bert对工单进行有效-无效二分类时,由于模型对输入文本的长度有限制,因此,还需要对长文本进行预处理。较常用的长文本处理方法有由句首向后截取、由句尾向前截取等。但是这种直接截取长文本的方法显然不适合工单质检场景。
    34.针对上述问题,在一个实施例中,如图1所示,提供了一种工单文本的分类方法,以该方法应用于计算机设备为例进行说明,包括以下步骤:
    35.101、获取待处理的工单文本,并对工单文本进行关键词标注处理,得到工单文本
    的关键词标注信息。
    36.具体的,计算机设备可以通过数据接口或网络等途径,获取到待处理的工单文本,其中,工单文本可以被处理成一个包含若干个字符串的列表,并且,每个字符串都可以表达一个完整的语义含义。例如,个人大病筹款领域,每个字符串可以为一句对话。举例来说,在工单文本[

    哈喽’,

    好久不见’,

    我最进买了一辆车’,

    什么牌子的?’,

    比亚迪’,

    你有几套房?’,

    两套,别墅和平层’,

    你真有钱啊!’,

    还好啦’]中,每一个单引号内的一句对话都是一个字符串。进一步的,可以通过命名实体识别模型等文本识别模型,对工单文本中的关键词进行标注,从而得到工单文本的关键词标注信息。在本实施例中,关键词可以是通过学习大批量的工单文本样本选定的,也可以是预先人为确定的。其中,关键词的范围较为广泛,例如,在个人大病筹款领域,工单文本中的关键词可以是与个人信息、家庭收入和固定资产有关的词汇,如工资、汽车和房产等,也可以是围绕这些词汇的房屋地址、汽车品牌和数量信息等等。
    [0037]
    102、根据工单文本的关键词标注信息,对工单文本中的文字信息进行排序处理,得到排序后的工单文本。
    [0038]
    具体的,在工单文本的关键词标注信息中,至少包括关键词在工单文本中的位置信息,根据这一信息,即可以确定工单文本中每一个字符串中涵盖的关键词数量,进一步的,通过工单文本中每一个字符串中涵盖的关键词数量,即可确定工单文本中关键词的分布情况,进而可以根据关键词在工单文本中的分布情况,对工单文本中的文字信息进行重新排序,从而将工单文本中包含关键词的文字进行聚合处理,得到排序后的工单文本。在本实施例中,工单文本的关键词标注信息中除包含关键词在工单文本中的位置信息之外,也可以包括关键词的权重信息和属性信息等其他信息,根据这些信息,可以进一步确定工单文本中各关键词之间的关联关系以及各字符串中关键词的分布情况,从而提升排序的准确性和文本分类的准确性。
    [0039]
    103、按照预设的文本长度,对排序后的工单文本进行截取处理,得到预处理后的工单文本。
    [0040]
    具体的,根据工单文本分类模型规定的文本长度,可以预先设定一个文本长度,然后可以按照这一预设的文本长度,将排序后的工单文本截取为一个定长的文本,从而得到预处理后的工单文本。在本实施例中,文本的截取处理根据排序后的工单文本中的关键词的位置确定,例如,如果排序后的工单文本中的关键词集中在句首,则截取文本时可以从句首向后截取定长,得到预处理后的工单文本;如果排序后的工单文本中的关键词集中在句尾,则截取文本时可以从句尾向前截取定长,得到预处理后的工单文本。
    [0041]
    104、对预处理后的工单文本进行分类处理,得到工单文本的分类结果。
    [0042]
    具体的,可以通过预训练的文本分类模型,对预处理后的工单文本进行分类处理,得到工单文本的分类结果。在本实施例中,文本分类模型可以基于elmo模型(deep contextualized word representatio)和bert模型(bidirectional encoder representation from transformer)等语义模型训练得到,且工单文件的分类处理可以是多标签的分类处理,也可以是二标签的分类处理等等。以个人大病筹款领域为例,其工单文本的分类结果为一个有效-无效的二分类结果,其中,对于无效的分类结果,可以直接剔除掉以提升人工审核的效率,而对于有效的分类结果,可以进行人工审核以确定文件的合规
    性。
    [0043]
    本实施例提供的工单文本的分类方法,首先对工单文本中的关键词进行标注,然后根据工单文本中的关键词标注信息对工单文本中的文字信息进行重新排序,进而对排序后的文本进行截取,最后通过分类处理得到工单文本的分类结果。上述方法可以将工单文本中的关键信息聚集在一起,避免了工单文本中的关键信息被截取掉的问题,有效降低了工单文本中关键信息损失的概率,最大限度的保证了工单文本的信息完整性,且保证了工单文本的长度不超过模型限制的长度,最终有效的降低了工单文本被误判的概率,此外,由于预处理后的工单文本中的关键信息较为集中,因此也有效的提高了工单文本的分类准确性。
    [0044]
    在一个实施例中,步骤101具体可以通过以下方法实现:首先获取待处理的录音文件,然后对录音文件进行文字转换处理,得到待处理的工单文本,进而通过预训练的的命名实体识别模型(named entity recognition,ner),对工单文本中的关键词进行标注,得到工单文本的关键词标注信息。在本实施例中,工单文本可以通过录音文件进行文字转换得到,因此,工单文本具体可以是一个对话文本。进一步的,命名实体识别模型可以通过基于规则的方法、无监督学习的方法和基于特征的监督学习方法等方法训练得到,经过关键词标注处理后,即可得到工单文本的关键词标注信息,其中,工单文本的关键词标注信息中至少包括关键词在工单文本中的位置信息,从而可以通过关键词标注信息,确定工单文本中的关键词分布情况。
    [0045]
    在一个实施例中,工单文本的关键词标注信息中包括关键词在工单文本中的位置信息,工单文本包括多个字符串;则步骤102具体可以通过以下方法实现:首先根据关键词在工单文本中的位置信息,确定工单文本中每个字符串包含的关键词数量,然后按照工单文本中每个字符串包含的关键词数量,对工单文本中的多个字符串进行降序排列,得到排序后的工单文本。在本实施例中,根据关键词在工单文本中的位置信息,即可确定每个字符串包含的关键词数量,按照每个字符串包含的关键词数量,对每个字符串进行降序排列,即可将关键词数量较多的字符串置换到工单文本的前端位置,使得关键信息可以在工单文本的前端集中。这样一来,在进行文本截取的时候,就可以从句首向后截取定长,截取后的文本仍然会保留有大量的关键信息,从而减低了有效的关键信息损失的概率,保证了工单文本中关键信息的完整性,进而提高了工单文本分类的准确性。
    [0046]
    在一个实施例中,工单文本的关键词标注信息中包括关键词在工单文本中的位置信息和关键词的权重信息,工单文本包括多个字符串;则步骤102具体可以通过以下方法实现:首先根据关键词在工单文本中的位置信息和关键词的权重信息,确定工单文本中每个字符串对应的关键词权重信息,然后按照工单文本中每个字符串对应的关键词权重信息,对工单文本中的多个字符串进行降序排列,得到排序后的工单文本。在本实施例中,根据关键词在工单文本中的位置信息和关键词的权重信息,即可确定每个字符串对应的关键词权重信息,其中,字符串对应的关键词权重信息可以为字符串中每个关键词的权重信息之和。进一步的,按照每个字符串对应的关键词权重信息对多个字符串进行降序排列,即可将关键词权重较大的字符串置换到工单文本的前端位置,并使得相似权重的字符串的位置相对集中。这样一来,在进行文本截取的时候,就可以从句首向后截取定长,截取后的文本仍然会保留有大量的关键信息,且相似的关键信息的位置较为集中,从而有效的减低了关键信
    息损失的概率,保证了工单文本中关键信息的完整性,并且还提高了工单文本分类的准确性。
    [0047]
    在上述实施例中,关键词的权重信息可以通过以下方法确定:首先获取多个工单文本样本,并分别对每个工单文本样本进行关键词标注处理,得到每个工单文本样本的关键词标注信息,然后根据每个工单文本样本的关键词标注信息,对多个工单文本样本中的关键词进行数量统计,得到每个关键词的出现频次,最后根据每个关键词的出现频次,确定每个关键词的权重信息。在本实施例中,通过对多个工单文本样本中的关键词进行统计,可以得到每个关键词在样本中出现的频次,通过关键词出现的频次确定关键词的权重信息,可以使工单文本中较为重要的信息被赋予较高的权值,较为次要的信息被赋予较低的权值,进一步的,通过按照关键词的权重信息对工单文本中的文字信息进行排序,可以使得重要信息的位置较为集中,从而有利于模型训练过程中提升模型的性能,以及在模型推理的过程中提升文本分类的准确性。
    [0048]
    在一个实施例中,工单文本的关键词标注信息包括关键词在工单文本中的位置信息和关键词的属性信息,工单文本包括多个字符串;则步骤102具体可以通过以下方法实现:首先根据关键词在工单文本中的位置信息和关键词的属性信息,确定工单文本中每个字符串对应的属性信息,然后根据工单文本中每个字符串对应的属性信息,按照预定的属性信息排列顺序,对工单文本中的多个字符串进行排序,得到排序后的工单文本。在本实施例中,根据关键词在工单文本中的位置信息和关键词的属性信息,即可确定每个字符串对应的属性信息,其中,字符串对应的属性信息可以根据字符串中的关键词的属性信息确定,例如,可以将字符串中数量最多的关键词的属性信息确定为字符串对应的属性信息。进一步的,按照每个字符串对应的属性信息,对每个字符串进行预定顺序的排列,即可将具有属性信息的字符串置换到工单文本的前端位置,并使得具有相同属性的字符串的位置相对集中。这样一来,在进行文本截取的时候,就可以从句首向后截取定长,截取后的文本仍然会保留有大量的关键信息,且相同属性的关键信息的位置较为集中,从而有效的减低了关键信息损失的概率,保证了工单文本中关键信息的完整性,提高了工单文本分类的准确性。
    [0049]
    在一个实施例中,步骤102具体可以通过以下方法实现:首先根据工单文本的关键词标注信息,按照预定的关键词信息截取规则,对工单文本中的关键词信息进行截取,然后对截取后的工单文本中的关键词信息进行排序处理,得到排序后的工单文本。在本实施例中,关键词信息截取规则指的是对关键词及其相关信息进行截取的规则,例如,关键词信息截取规则可以是将每个关键词以及关键词前后4个字符截取下来作为关键词信息。进一步的,通过对关键词信息进行截取并将截取后的关键词信息进行排序,可以将工单文本的文本长度进一步缩减,并保留更多的关键词,从而降低了关键信息损失的概率,且保证了关键信息的完整性。此外,本实施例提出的方法还可以与上述各个实施例提出的方法进行结合使用,例如,可以按照关键词信息的权重信息和属性信息进行排序等,从而进一步提升工单文本分类的准确性。
    [0050]
    进一步的,作为上述实施例各个实施方式的细化和扩展,为了完整说明本实施例的实施过程,提供了一种工单文本的分类方法,该方法包括以下步骤:
    [0051]
    201、获取一例工单文本,并使用命名实体识别技术,标注出工单文本中的关键词。
    [0052]
    202、按照文本中每个字符串中关键词出现的次数,对工单文本按照降序的方式进
    行重新排列,对于未出现关键词的句子,依次排列在文本后面。
    [0053]
    203、对于超过文本分类模型输入长度上限的工单文本,由句首向后截取定长,得到预处理后的文本。
    [0054]
    204、将预处理后的文本输入到预训练的文本分类模型中,得到工单文本的分类结果。
    [0055]
    参照图2和图3,下面以一段谈论个人资产信息的对话来说明上述方法:
    [0056]
    text=[

    哈喽’,

    好久不见’,

    我最进买了一辆车’,

    什么牌子的?’,

    比亚迪’,

    你有几套房?’,

    两套,别墅和平层’,

    你真有钱啊!’,

    还好啦’]
    [0057]
    首先,利用训练好的ner模型标注工单文本数据,得到关键词的标注信息。其中,工单文本中的关键词包括“辆车”“比亚迪”“几套房”“两套,别墅和平层”等等,在得到关键词的标注信息之后,按照每个字符串中关键词出现的次数,将工单文本中的字符串进行降序排列。进一步的,对于超过bert输入长度上限的文本由句首向后截取定长,完成预处理,最后,将预处理后的文本输入到预训练的文本分类模型中,得到工单文本的分类结果。
    [0058]
    本实施例提出的工单文本的分类方法,首先利用命名实体识别技术标注出工单文本中的关键词,然后以文本中每个字符串含有关键词的数量为指标,以降序排列的方式对文本进行重新排序。重排的所有新文本中,对长度超过bert指定范围的文本采取从前往后截取,这便完成了文本预处理的全过程,就可以送入bert模型进行训练或推理了。预处理过程中,首先将关键信息置换到文本前端,避免了关键信息被截取掉,降低了信息损失的概率。上述方法最大限度保证了训练文本信息的完整性,有助于提升模型效果,更好的辅助质检人员完成工作。此外,上述方法也在一定程度上克服了文本截取造成的信息丢失的问题,减少了混入训练数据中的噪声,提升了算法的分类效果。
    [0059]
    进一步的,作为图1至图3所示方法的具体实现,本实施例提供了一种工单文本的分类装置,如图4所示,该装置包括:关键词标注模块31、文本排序模块32、文本截取模块33和文本分类模块34,其中:
    [0060]
    关键词标注模块31,可用于获取待处理的工单文本,并对工单文本进行关键词标注处理,得到工单文本的关键词标注信息;
    [0061]
    文本排序模块32,可用于根据工单文本的关键词标注信息,对工单文本中的文字信息进行排序处理,得到排序后的工单文本;
    [0062]
    文本截取模块33,可用于按照预设的文本长度,对排序后的工单文本进行截取处理,得到预处理后的工单文本;
    [0063]
    文本分类模块34,可用于对预处理后的工单文本进行分类处理,得到工单文本的分类结果。
    [0064]
    在具体的应用场景中,关键词标注模块31,具体可用于获取待处理的录音文件,并对录音文件进行文字转换处理,得到待处理的工单文本;通过预训练的命名实体识别模型,对工单文本中的关键词进行标注,得到工单文本的关键词标注信息。
    [0065]
    在具体的应用场景中,工单文本的关键词标注信息包括关键词在工单文本中的位置信息,工单文本包括多个字符串;文本排序模块32,具体可用于根据关键词在工单文本中的位置信息,确定工单文本中每个字符串包含的关键词数量;按照工单文本中每个字符串包含的关键词数量,对工单文本中的多个字符串进行降序排列,得到排序后的工单文本。
    [0066]
    在具体的应用场景中,工单文本的关键词标注信息包括关键词在工单文本中的位置信息和关键词的权重信息,工单文本包括多个字符串;文本排序模块32,具体可用于根据关键词在工单文本中的位置信息和关键词的权重信息,确定工单文本中每个字符串对应的关键词权重信息;按照工单文本中每个字符串对应的关键词权重信息,对工单文本中的多个字符串进行降序排列,得到排序后的工单文本。
    [0067]
    在具体的应用场景中,文本排序模块32,具体可用于获取多个工单文本样本,并分别对每个工单文本样本进行关键词标注处理,得到每个工单文本样本的关键词标注信息;根据每个工单文本样本的关键词标注信息,对多个工单文本样本中的关键词进行数量统计,得到每个关键词的出现频次;根据每个关键词的出现频次,确定每个关键词的权重信息。
    [0068]
    在具体的应用场景中,工单文本的关键词标注信息包括关键词在工单文本中的位置信息和关键词的属性信息,工单文本包括多个字符串;文本排序模块32,具体可用于根据关键词在工单文本中的位置信息和关键词的属性信息,确定工单文本中每个字符串对应的属性信息;根据工单文本中每个字符串对应的属性信息,按照预定的属性信息排列顺序,对工单文本中的多个字符串进行排序,得到排序后的工单文本。
    [0069]
    在具体的应用场景中,文本排序模块32,具体可用于根据工单文本的关键词标注信息,按照预定的关键词信息截取规则,对工单文本中的关键词信息进行截取;对截取后的工单文本中的关键词信息进行排序处理,得到排序后的工单文本。
    [0070]
    需要说明的是,本实施例提供的一种工单文本的分类装置所涉及各功能单元的其它相应描述,可以参考图1至图3中的对应描述,在此不再赘述。
    [0071]
    基于上述如图1至图3所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1至图3所示的工单文本的分类方法。
    [0072]
    基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该待标注软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施场景所述的方法。
    [0073]
    基于上述如图1至图3所示的方法,以及图4所示的工单文本的分类装置实施例,为了实现上述目的,本实施例还提供了一种工单文本的分类的计算机设备,具体可以为个人计算机、服务器、智能手机、平板电脑、智能手表、或者其它网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序和操作系统;处理器,用于执行计算机程序以实现上述如图1至图3所示的方法。
    [0074]
    可选的,该计算机设备还可以包括内存储器、通信接口、网络接口、摄像头、射频(radio frequency,rf)电路,传感器、音频电路、wi-fi模块、显示屏(display)、输入装置比如键盘(keyboard)等,可选的,通信接口还可以包括usb接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如wi-fi接口)等。
    [0075]
    本领域技术人员可以理解,本实施例提供的一种操作动作的标注的计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
    [0076]
    存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和待标注软件资源的程序,支持信息处理程序以及其它待标注软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理计算机设备中其它硬件和软件之间通信。
    [0077]
    通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本技术可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本技术的技术方案,首先对工单文本中的关键词进行标注,然后根据工单文本中的关键词标注信息对工单文本中的文字信息进行重新排序,进而对排序后的文本进行截取,最后通过分类处理得到工单文本的分类结果。与现有技术相比,上述方法可以将工单文本中的关键信息聚集在一起,避免了工单文本中的关键信息被截取掉的问题,有效降低了工单文本中关键信息损失的概率,最大限度的保证了工单文本的信息完整性,且保证了工单文本的长度不超过模型限制的长度,最终有效的降低了工单文本被误判的概率,此外,由于预处理后的工单文本中的关键信息较为集中,因此也有效的提高了工单文本的分类准确性。
    [0078]
    本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本技术所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
    [0079]
    上述本技术序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本技术的几个具体实施场景,但是,本技术并非局限于此,任何本领域的技术人员能思之的变化都应落入本技术的保护范围。
    转载请注明原文地址:https://tc.8miu.com/read-922.html

    最新回复(0)