本申请涉及数据处理,尤其涉及一种工单数据的分类方法、装置、设备、存储介质及产品。
背景技术:
1、当前对客户投诉工单的智能化处理手段比较少,但是智能化分析和处理投诉工单的需求却是与日俱增。通过智能化分析和处理投诉工单,能极大的减小客服工作量,提高工作效率;能快速找到相似投诉的解决办法,解决客户问题;能找到投诉频率比较高的问题,从而加以预防或者提前解决,避免资源浪费。目前的技术方案在工单数据的数据量比较小的情况下比较适合部署,但是在电信领域投诉工单的数量可能不会限制在百万以下,因为电信领域的用户量巨大,数亿的用户,即使每天的投诉工单量很少,在经过一段时间的积累后,投诉工单的文本数据很可能达到一个相当巨大的数量,此时单纯的聚类无法满足海量的工单数据。因此,如何高效准确地对海量的工单数据进行分类,成为一个亟待解决的问题。
技术实现思路
1、本申请的主要目的在于提供了一种工单数据的分类方法、装置、设备、存储介质及产品,旨在解决如何高效准确地对海量的工单数据进行分类的技术问题。
2、为实现上述目的,本申请提供了一种工单数据的分类方法,所述工单数据的分类方法包括以下步骤:
3、根据投诉工单数据中的工单标题对所述投诉工单数据进行粗分类,获得多类第一工单数据;
4、通过预设语言模型对各类第一工单数据分别进行细分类,获得多类第二工单数据;
5、根据各类第二工单数据对应的关键词对所述各类第二工单数据分别进行分类,获得多类第三工单数据。
6、可选地,所述通过预设语言模型对各类第一工单数据分别进行细分类,获得多类第二工单数据的步骤之前,还包括:
7、对初始工单数据进行分类,获得多类训练数据;
8、从所述多类训练数据中选取训练样本;
9、通过所述训练样本对初始语言模型中的特征表示层和分类层进行训练,获得预设语言模型,所述初始语言模型为对bert模型进行知识蒸馏的模型。
10、可选地,所述从所述多类训练数据中选取训练样本的步骤,具体包括:
11、从同一类别的训练数据中选取初始正例样本,并对所述初始正例样本进行数据增强,获得增强后的正例样本;
12、确定所述初始正例样本对应的目标类别,并从所述多类训练数据中选取除所述目标类别之外的剩余类别对应的剩余训练数据;
13、通过文本相似度算法计算所述正例样本与所述剩余训练数据之间的相似度,并根据所述相似度从所述剩余训练数据中选取负例样本;
14、根据所述增强后的正例样本和所述负例样本确定训练样本。
15、可选地,所述通过所述训练样本对初始语言模型中的特征表示层和分类层进行训练,获得预设语言模型的步骤,具体包括:
16、从所述训练样本中选取原样本对应的目标正例样本和目标负例样本;
17、确定所述原样本对应的原向量、所述目标正例样本对应的正向量和所述目标负例样本对应的负向量;
18、计算所述原向量和所述正向量之间的第一余弦相似度,并计算所述原向量和随机高斯噪声向量之间的第二余弦相似度;
19、根据所述第一余弦相似度、温度参数以及所述第二余弦相似度构建目标函数,并基于所述目标函数对初始语言模型中的特征表示层和分类层进行训练,获得预设语言模型。
20、可选地,所述根据各类第二工单数据对应的关键词对所述各类第二工单数据分别进行分类,获得多类第三工单数据的步骤,具体包括:
21、提取各类第二工单数据中的工单标题和工单内容对应的关键词;
22、对所述关键词进行组合,获得组合关键词;
23、根据所述组合关键词对所述各类第二工单数据分别进行分类,获得多类第三工单数据。
24、可选地,所述根据所述组合关键词对所述各类第二工单数据分别进行分类,获得多类第三工单数据的步骤之后,还包括:
25、对于各类第三工单数据,获取所述预设语言模型输出的特征向量,所述特征向量表示工单标题和工单内容进行拼接后的特征向量;
26、计算所述特征向量之间的余弦相似度,并根据所述余弦相似度对所述各类第三工单数据进行分区存储。
27、此外,为实现上述目的,本申请还提供一种工单数据的分类装置,所述工单数据的分类装置包括:
28、数据粗分类模块,用于根据投诉工单数据中的工单标题对所述投诉工单数据进行粗分类,获得多类第一工单数据;
29、数据细分类模块,用于通过预设语言模型对各类第一工单数据分别进行细分类,获得多类第二工单数据;
30、数据分类模块,用于根据各类第二工单数据对应的关键词对所述各类第二工单数据分别进行分类,获得多类第三工单数据。
31、此外,为实现上述目的,本申请还提出一种工单数据的分类设备,所述工单数据的分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如上文所述的工单数据的分类方法的步骤。
32、此外,为实现上述目的,本申请还提出一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的工单数据的分类方法的步骤。
33、此外,为实现上述目的,本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上文所述的工单数据的分类方法的步骤。
34、本申请根据投诉工单数据中的工单标题对投诉工单数据进行粗分类,获得多类第一工单数据,然后通过预设语言模型对各类第一工单数据分别进行细分类,获得多类第二工单数据,再根据各类第二工单数据对应的关键词对各类第二工单数据分别进行分类,获得多类第三工单数据。本申请先对投诉工单数据进行粗分类,然后对各类第一工单数据分别进行细分类,针对每个粗分类别,都能够进一步将各类第一工单数据进行更深入的细分类,以实现更加精确的分类效果,再根据关键词对各类第二工单数据分别进行分类,能够通过采用分层分类的方法,高效处理海量的工单数据,提高处理效率并保持工单数据分类的准确性。
1.一种工单数据的分类方法,其特征在于,所述工单数据的分类方法包括以下步骤:
2.如权利要求1所述的工单数据的分类方法,其特征在于,所述通过预设语言模型对各类第一工单数据分别进行细分类,获得多类第二工单数据的步骤之前,还包括:
3.如权利要求2所述的工单数据的分类方法,其特征在于,所述从所述多类训练数据中选取训练样本的步骤,具体包括:
4.如权利要求2所述的工单数据的分类方法,其特征在于,所述通过所述训练样本对初始语言模型中的特征表示层和分类层进行训练,获得预设语言模型的步骤,具体包括:
5.如权利要求1所述的工单数据的分类方法,其特征在于,所述根据各类第二工单数据对应的关键词对所述各类第二工单数据分别进行分类,获得多类第三工单数据的步骤,具体包括:
6.如权利要求5所述的工单数据的分类方法,其特征在于,所述根据所述组合关键词对所述各类第二工单数据分别进行分类,获得多类第三工单数据的步骤之后,还包括:
7.一种工单数据的分类装置,其特征在于,所述工单数据的分类装置包括:
8.一种工单数据的分类设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如权利要求1至6中任一项所述的工单数据的分类方法的步骤。
9.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的工单数据的分类方法的步骤。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的工单数据的分类方法的步骤。