1.本技术涉及人工智能技术领域,尤其涉及一种标点预测模型的训练方法、标点添加方法及装置。
背景技术:
2.现阶段的语音交互,除了简单场景下可以直接利用语音信号进行识别以外,绝大多数场景都需要将语音信号转换为文字,然后再进行相应的研究分析。但是,通过现有的语音转录引擎转录的文本并不包含标点,而标点对于人类情感的表达往往起着重要的作用,比如同一文本被标上不同的标点,所表达的情感往往不同。因此,给文本添加正确的标点,对于计算机理解人类的真实意图,实现更好的人机交互,有着重要的作用。
3.目前常见的标点添加方案主要基于声学特征和/或文本特征实现标点的添加。基于声学特征的方案,是根据人在说话时的停顿时长预测标点,但在真实的自动语音识别(automatic speech recognition,asr)系统中,如果出现不自然的停顿,则会影响对标点的预测能力;基于文本特征的方案,由于文本数据间往往来源不同,利用来源于a场景的文本训练出的标点预测模型在来源于b场景的文本上难以奏效;基于声学特征和文本特征的方案,要求训练数据集同时包含语音数据及其经asr转录后的文本数据,这不仅增加了训练数据集的获取难度,还增加了预测过程的复杂度,预测效率低。
技术实现要素:
4.本技术实施例提供一种标点预测模型的训练方法、标点添加方法及装置,用于实现准确、高效地为文本添加标点,且具有广泛的适用性。
5.第一方面,本技术实施例提供一种标点预测模型的训练方法,包括:
6.将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出第一特征向量和第二特征向量,其中,所述标点信息包括标点的数量、位置及类型,所述第一特征向量用于表征所述样本文本中标点的数量,所述第二特征向量用于表征所述样本文本中标点的位置及类型;
7.将所述第一特征向量和所述第二特征向量输入所述标点预测模型的多任务网络,输出第一标点预测信息,其中,所述第一标点预测信息包括所述样本文本中标点的预测数量、预测位置及预测类型,所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对所述第一特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量,所述特征融合层用于对所述第一特征向量和所述第二特征向量进行融合处理得到第一融合特征向量,所述第二任务层用于对所述第一融合特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型;
8.基于标注的标点信息和所述第一标点预测信息,调整所述标点预测模型中各网络的网络参数。
9.可以看出,在本技术实施例中,通过采用多任务学习架构的标点预测模型,将标注
有标点信息的样本文本输入到标点预测模型的特征提取网络进行特征提取,得到表征标点数量的第一特征向量和表征标点位置及类型的第二特征向量;接着,将第一特征向量和第二特征向量输入到标点预测模型的多任务网络中,由其中的第一任务层基于第一特征向量预测样本文本中标点的数量,由其中的特征融合层对第一特征向量和第二特征向量进行融合后输入到第二任务层,再由第二任务层基于融合所得的第一融合特征向量预测样本文本中标点的位置及类型;最后,基于标注的标点信息和经标点预测模型预测出的标点信息,调整标点预测模型中各网络的网络参数。可见,训练出的标点预测模型具有联合学习标点数量预测和标点位置及类型预测这两个任务的能力,且经特征融合层融合处理后的融合特征向量中融合了两个任务各自所需的特征信息,这些特征信息中既包含了两个任务之间的关联信息,又包含了两个任务之间彼此不相关的信息,关联信息使得标点预测模型能够充分学习两个任务之间的关联性,由此可以提升标点预测模型的预测准确率;不相关信息则相当于在每个任务学习过程中引入的噪声,进而可以提升每个任务学习的泛化效果,使得标点预测模型具有广泛的适用性,能够适用于多种业务场景、多种来源的文本数据,进一步地,利用训练得到的标点预测模型可以实现准确地为文本添加标点。
10.第二方面,本技术实施例提供一种标点添加方法,包括:
11.将待处理文本输入标点预测模型,输出第二标点预测信息,所述第二标点预测信息包括所述待处理文本中标点的预测数量、预测位置及预测类型,其中,所述标点预测模型包括特征提取网络和多任务网络,所述特征提取网络用于对所述待处理文本进行特征提取,得到第三特征向量和第四特征向量,所述第三特征向量用于表征所述待处理文本中标点的数量,所述第四特征向量用于表征所述待处理文本中标点的位置及类型;所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对输入的所述第三特征向量进行标点数量识别处理,得到所述待处理文本中标点的预测数量,所述特征融合层用于对所述第三特征向量和所述第四特征向量进行融合处理得到第二融合特征向量,所述第二任务层用于对输入的所述第二融合特征向量进行标点类型位置识别处理,得到所述待处理文本中标点的预测位置及预测类型;
12.基于所述第二标点预测信息,为所述待处理文本添加标点。
13.可以看出,在本技术实施例中,通过将待处理文本输入到训练得到的标点预测模型,即可得到待处理文本中的标点信息,而后完成标点添加,实现简便快捷,效率高;此外,训练出的标点预测模型具有联合学习标点数量预测和标点位置及类型预测这两个任务的能力,且经标点预测模型中的特征融合层融合处理后的融合特征向量中融合了两个任务各自所需的特征信息,这些特征信息中既包含了两个任务之间的关联信息,又包含了两个任务之间彼此不相关的信息,关联信息使得标点预测模型能够充分学习两个任务之间的关联性,由此可以提升标点预测模型的预测准确率;不相关信息则相当于在每个任务学习过程中引入的噪声,进而可以提升每个任务学习的泛化效果,使得标点预测模型具有广泛的适用性,能够适用于多种业务场景、多种来源的文本数据,基于训练得到的标点预测模型可以提高对待处理文本中的标点信息进行预测的准确率。
14.第三方面,本技术实施例提供一种标点预测模型的训练装置,包括:
15.第一输入模块,用于将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出第一特征向量和第二特征向量,其中,所述标点信息包括标点的数量、位置及类
型,所述第一特征向量用于表征所述样本文本中标点的数量,所述第二特征向量用于表征所述样本文本中标点的位置及类型;
16.第二输入模块,用于将所述第一特征向量和所述第二特征向量输入所述标点预测模型的多任务网络,输出第一标点预测信息,其中,所述第一标点预测信息包括所述样本文本中标点的预测数量、预测位置及预测类型,所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对所述第一特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量,所述特征融合层用于对所述第一特征向量和所述第二特征向量进行融合处理得到第一融合特征向量,所述第二任务层用于对所述第一融合特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型;
17.调整模块,用于基于标注的标点信息和所述第一标点预测信息,调整所述标点预测模型中各网络的网络参数。
18.第四方面,本技术实施例提供一种标点添加装置,包括:
19.第三输入模块,用于将待处理文本输入标点预测模型,输出第二标点预测信息,所述第二标点预测信息包括所述待处理文本中标点的预测数量、预测位置及预测类型,其中,所述标点预测模型包括特征提取网络和多任务网络,所述特征提取网络用于对所述待处理文本进行特征提取,得到第三特征向量和第四特征向量,所述第三特征向量用于表征所述待处理文本中标点的数量,所述第四特征向量用于表征所述待处理文本中标点的位置及类型;所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对输入的所述第三特征向量进行标点数量识别处理,得到所述待处理文本中标点的预测数量,所述特征融合层用于对所述第三特征向量和所述第四特征向量进行融合处理得到第二融合特征向量,所述第二任务层用于对输入的所述第二融合特征向量进行标点类型位置识别处理,得到所述待处理文本中标点的预测位置及预测类型;
20.标点添加模块,用于基于所述第二标点预测信息,为所述待处理文本添加标点。
21.第五方面,本技术实施例提供一种电子设备,包括:
22.处理器;
23.用于存储所述处理器可执行指令的存储器;
24.其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法。
25.第六方面,本技术实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的方法。
附图说明
26.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
27.图1为本技术的一个实施例提供的一种标点预测模型的训练方法的流程示意图;
28.图2为本技术的一个实施例提供的一种样本数据的标注方法的流程示意图;
29.图3为本技术的一个实施例提供的一种标点预测模型的结构示意图;
30.图4为本技术的一个实施例提供的一种标点添加方法的流程示意图;
31.图5为本技术的另一个实施例提供的一种标点添加方法的流程示意图;
32.图6为本技术的一个实施例提供的一种标点预测模型的训练装置的结构示意图;
33.图7为本技术的一个实施例提供的一种标点添加装置的结构示意图;
34.图8为本技术的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
35.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
36.本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当情况下可以互换,以便本技术实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
37.部分概念说明:
38.asr:一种将语音转换为文本的技术。
39.多任务学习(multi-task learning,mtl):通过使用包含在相关任务的监督信号中的领域知识来改善泛化性能,其目标是利用多个学习任务中所包含的有用信息来帮助每个任务学习得到更为准确的学习器。假设所有任务(至少其中一部分任务)是相关的,在此基础上,联合学习多个任务能比单独学习每个任务得到更好的性能。根据任务的性质,mtl可以被划分为多种类型,例如包括多任务监督学习、多任务无监督学习、多任务半监督学习、多任务主动学习、多任务强化学习、多任务在线学习和多任务多视角学习等。
40.为了解决现有的标点添加方案存在的预测准确率和效率低的问题,本技术实施例提出了一种基于多任务学习的文本预测模型的训练方法以及后续基于训练好的文本预测模型所执行的标点添加方案,通过采用多任务学习架构的标点预测模型,将标注有标点信息的样本文本输入到标点预测模型的特征提取网络进行特征提取,得到表征标点数量的第一特征向量和表征标点位置及类型的第二特征向量;接着,将第一特征向量和第二特征向量输入到标点预测模型的多任务网络中,由其中的第一任务层基于第一特征向量预测样本文本中标点的数量,由其中的特征融合层对第一特征向量和第二特征向量进行融合后输入到第二任务层,再由第二任务层基于融合所得的第一融合特征向量预测样本文本中标点的位置及类型;最后,基于标注的标点信息和经标点预测模型预测出的标点信息,调整标点预测模型中各网络的网络参数。可见,训练出的标点预测模型具有联合学习标点数量预测和标点位置及类型预测这两个任务的能力,且经特征融合层融合处理后的融合特征向量中融合了两个任务各自所需的特征信息,这些特征信息中既包含了两个任务之间的关联信息,又包含了两个任务之间彼此不相关的信息,关联信息能够使标点预测模型在学习过程中充分学习两个任务之间的关联性;不相关信息则相当于在每个任务学习过程中引入的噪声,进而可以提升每个任务学习的泛化效果,由此可以提升标点预测模型的预测准确率,进一步地,利用训练得到的标点预测模型可以实现准确地为文本添加标点;此外,通过将待处理文本输入到训练得到的标点预测模型,即可得到待处理文本中的标点信息,而后完成标点添加,实现简单,效率高。
41.应理解,本技术实施例提供的标点预测模型的训练方法及标点添加方法可以由电子设备执行或安装在电子设备中的软件执行,具体可以由终端设备或服务端设备执行。
42.以下结合附图,详细说明本技术各实施例提供的技术方案。
43.请参考图1,为本技术的一个实施例提供的一种标点预测模型的训练方法的流程示意图,该方法可以包括如下步骤:
44.s102,将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出第一特征向量和第二特征向量。
45.其中,标点信息包括标点的数量、位置及类型。具体而言,标点的位置是指标点在所属的文本中的位置,比如在所属文本的某个字符之后。标点的类型可以例如包括但不限:逗号、句号、感叹号、冒号等。
46.本技术实施例中,标注有标点信息的样本文本可以是在训练标点预测模型之前,基于文本中的标点信息对文本进行标注处理得到。其中,标注有标点信息的样本文本可通过任意适当的标注处理方式得到,具体可根据实际需要进行选择,本技术实施例对此不作限定。
47.为准确、直观地反映样本文本中的标点信息,在一种可选的实现方式中,如图2所示,获取标注有标点信息的样本文本具体可实现为:获取包含标点信息的文本;然后,基于该文本包含的标点信息,去除该文本中的标点,得到样本文本;接着,在样本文本的首字符之前添加包含标点的文本中标点的数量,以及基于包含标点的文本中标点的位置及类型,生成与样本文本中各字符对应的标注信息,其中,标注信息用于指示所对应字符之后是否存在标点及存在的标点的类型。
48.例如,以包含标点的文本“你好,这里是马上消费金融。请问您是张先生吗?”为例,该文本包含3个标点(即1个逗号“,”、1个句号“。”和1个问号“?”),其中,逗号位于该文本的第2个字符之后,句号位于该文本的第12个字符之后,问号位于该文本的第21个字符之后,进一步基于标点类型及记录标识之间的预设对应关系(如表1所示),将该文本中标点的位置及类型以字典的形式进行记录,即punctuation_dict={“2”:comma;“12”:period;“21”:question}。
49.表1
[0050][0051]
接着,遍历上述字典punctuation_dict,基于该字典中记录的标点位置及类型,依次去掉该文本中第2个字符之后的逗号、第12个字符之后的句号和第21个字符之后的问号,得到样本文本“你好这里是马上消费金融请问您是张先生吗”;进一步地,以字符为单位,按照每个字符单独一行的格式,对样本文本进行格式转换;最后,在该样本文本的首字符之前添加上述包含标点的文本“你好,这里是马上消费金融。请问您是张先生吗?”中标点的数量“3”,以及基于上述以字典的形式记录的标点的位置及类型,生成如下所述的与样本文本中各字符对应的标注信息,其中,标注信息“n”表示所对应的字符之后不存在标点,标注信息“y_x”中的“y”表示所对应的字符之后有标点,标注信息“y_x”中的“x”表示标点的类型,字
符及其对应的标注信息之间可以空格相隔。
[0052]3[0053]
你n
[0054]
好y_comma
[0055]
这n
[0056]
里n
[0057]
是n
[0058]
马n
[0059]
上n
[0060]
消n
[0061]
费n
[0062]
金n
[0063]
融y_period
[0064]
请n
[0065]
问n
[0066]
您n
[0067]
是n
[0068]
张n
[0069]
先n
[0070]
生n
[0071]
吗y_question
[0072]
在得到标注有标点信息的样本文本后,即可执行上述步骤s102,得到第一特征向量和第二特征向量。其中,第一特征向量用于表征样本文本中标点的数量,第二特征向量用于表征样本文本中标点的位置及类型。
[0073]
本技术实施例中,标点预测模型的特征提取网络可以是根据经验预先设置好的,其能够对输入的文本进行特征提取。特征提取网络可以具有任意适当的网络结构,具体可根据实际需要进行设置,本技术实施例对此不作限定。
[0074]
在一种可选的实现方式中,特征提取网络可以是一种神经网络,其网络结构可基于卷积核个数、网络层数、每层中的通道数以及每层与上一层的连接方式等因素确定,换句话说,其网络参数可以包括但不限于卷积核个数、网络层数、每层中的通道数以及每层与上一层的连接方式等。
[0075]
为确保提取的特征向量更准确、更全面,在另一种可选的实现方式中,如图3所示,特征提取网络可以包括第一特征提取层和第二特征提取层,其中,第一特征提取层和第二特征提取层具有不同的网络结构。第一特征提取层可用于按照第一特征提取方式,对输入的文本进行特征提取,在上述s102中,则是按照第一特征提取方式,对输入的标注有标点信息的样本文本进行特征提取,得到第一子特征向量。第二特征提取层可用于按照第二特征提取方式对输入的文本进行特征提取,在上述s102中,则是按照第二特征提取方式,对输入的标注有标点信息的样本文本进行特征提取,得到第二子特征向量和第二特征向量。其中,第一特征向量包括第一子特征向量和第二子特征向量,第一特征提取方式和第二特征提取
方式不同。
[0076]
例如,第一特征提取方式可以是基于非深度学习的特征提取方式,第二特征提取方式可以是基于深度学习的特征提取方式。
[0077]
又如,第一特征提取层可以按照one-hot编码方式对样本文本上标注的标点数量进行编码,得到表征标点数量的第一子特征向量;第二特征提取层可以是语言表示模型,比如双向编码器表示(bidirectional encoder representations from transformers,bert)预训练模型,其可对输入的样本文本进行特征提取,得到表征标点数量的第二子特征向量和表征标点位置及类型的第二特征向量。
[0078]
s104,将第一特征向量和第二特征向量输入标点预测模型的多任务网络,输出第一标点预测信息。
[0079]
其中,第一标点预测信息包括样本文本中标点的预测数量、预测位置及预测类型。
[0080]
本技术实施例中,多任务网络包括第一任务层、第二任务层和特征融合层,其中,第一任务层用于对第一特征向量进行标点数量识别处理,得到样本文本中标点的预测数量;特征融合层用于对第一特征向量和第二特征向量进行融合处理得到第一融合特征向量;第二任务层用于对第一融合特征向量进行标点类型位置识别处理,得到样本文本中标点的预测位置及预测类型。
[0081]
在一种可选的实现方式中,特征提取网络与多任务网络之间的连接关系以及多任务网络中各网络层之间的连接关系可参见图3。图3为本技术的一个实施例提供的一种标点预测模型的结构示意图,如图3所示,为方便描述,下面以一个标注有标点信息的样本文本进行说明。
[0082]
具体而言,标注有标点信息的样本文本输入到特征提取网络后,经特征提取网络进行特征提取后,得到表征标点数量的第一特征向量和表征标点位置及类型的第二特征向量,其中,第一特征向量包括第一子特征向量和第二子特征向量。
[0083]
一方面,第一特征向量输入到第一任务层,经第一任务层进行标点数量识别处理后,输出样本文本中标点的预测数量;另一方面,第一特征向量与第二特征向量一起输入到特征融合层,经特征融合层进行融合处理后,输出第一融合特征向量,这样,第一融合特征向量中既包含样本文本的标点数量与标点位置及类型这两者之间的关联信息,又包含了两者之间彼此不相关的信息。
[0084]
进一步地,第一融合特征向量输入到第二任务层,经第二任务层进行标点类型位置识别处理,得到样本文本中标点的预测位置及预测类型,其中,第一融合特征向量中包含的样本文本的标点数量与标点位置及类型这两者之间的关联信息,使得第二任务层能够充分学习两个任务之间的关联性,第一融合特征向量中包含的样本文本的标点数量与标点位置及类型这两者之间彼此不相关的信息,相当于在标点位置及类型预测任务的学习过程中引入了噪声,进而可以提升第二任务层的泛化效果,从而提升第二任务层对标点位置及类型进行预测的准确率。
[0085]
更为具体地,特征融合层在对第一特征向量和第二特征向量进行融合处理时,可以先将第一特征向量与第二特征向量进行拼接,使得样本文本的标点数量特征与标点位置及类型特征被包含在拼接所得的特征向量中;然后,特征融合层对拼接所得的特征向量与第二特征向量进行相乘,使得样本文本的标点数量特征与标点位置及类型特征被更紧密的
融合在一起,由此得到第一融合特征向量。
[0086]
进一步地,为使第一任务层能够更有针对性地学习标点数量特征,如图3所示,本技术实施例的标点预测模型中,多任务网络还可以包括第一注意力机制层,其中,第一注意力机制层的输出端分别与第一任务层的输入端及特征融合层的输入端连接。第一注意力机制层用于对第一子特征向量和第二子特征向量进行特征增强处理,得到第一注意力特征向量。相应地,第一任务层用于对第一注意力特征向量进行标点数量识别处理,得到样本文本中标点的预测数量;特征融合层用于对第一注意力特征向量和第二特征向量进行融合处理,得到第一融合特征向量。
[0087]
具体而言,仍以一个标注有标点信息的样本文本进行说明。该样本文本分别输入到特征提取网络中的第一特征提取层和第二特征提取层后,得到第一子特征向量、第二子特征向量以及第二特征向量;第一子特征向量和第二子特征向量输入到第一注意力机制层后,第一注意力机制层首先对第一子特征向量和第二子特征向量进行拼接,然后基于注意力机制(attention mechanism)对拼接所得的特征向量进行编码,使得对于标点数量预测这一任务而言更重要的标点数量特征信息被增强,而后输出第一注意力特征向量。
[0088]
一方面,第一注意力特征向量被输入到第一任务层,经第一任务层进行标点数量识别处理后,得到样本文本中标点的预测数量,由于第一注意力特征向量表征的标点数量特征相较于原始的第一特征向量被增强,使得第一任务层能够更有针对性地学习样本文本的标点数量特征,从而提高第二任务层对文本中标点数量进行预测的准确率。
[0089]
另一方面,第一注意力特征向量和第二特征向量一起被输入到特征融合层,特征融合层首先对第一注意力特征向量和第二特征向量进行拼接,使得样本文本的标点数量特征与标点位置及类型特征被包含在拼接所得的特征向量中,然后使用sigmod函数对拼接所得的特征向量进行计算后再与第二特征向量相乘,使得样本文本的标点数量特征与标点位置及类型特征被更紧密的融合在一起,得到第一融合特征向量,由此得到的第一融合特征向量相较于对原始的第一特征向量和第二特征向量进行融合所得的融合特征向量,所包含的样本文本的标点数量与标点位置及类型这两者之间的关联信息及不相关信息更全面、准确,从而进一步提升第二任务层对标点位置及类型进行预测的准确率。
[0090]
进一步地,为使第二任务层能够更有针对性地学习标点位置特征及类型特征,如图3所示,本技术实施例的标点预测模型中,多任务网络还可以包括第二注意力机制层,其中,第二注意力机制层的输入端分别与特征融合层的输出端及特征融合网络的输出端连接,第二注意力机制层的输出端与第二任务层的输入端连接。第二注意力机制层用于对输入的第一特征融合向量和第二特征向量进行特征增强处理,得到第二注意力特征向量。相应地,第二任务层用于对输入的第二注意力特征向量进行标点类型位置识别处理,得到样本文本中标点的预测位置及预测类型。
[0091]
具体而言,第二注意力机制层首先对第一特征融合向量和第二特征向量进行拼接,然后基于注意力机制对拼接所得的特征向量进行编码,使得对于标点位置及类型预测这一任务而言更重要的标点位置及类型特征信息被增强,而后输出第二注意力特征向量;接着,第二注意力特征向量被输入到第二任务层,经第二任务层进行标点类型位置识别处理后,得到样本文本中标点的预测位置及预测类型。由于第二注意力特征向量包含的标点位置及类型特征相较于原始的第一融合特征向量而言被增强,使得第二任务层能够更有针
对性学习样本文本的标点数量特征,从而进一步提升第二任务层对标点位置及类型进行预测的准确率。
[0092]
s106,基于标注的标点信息和第一标点预测信息,调整标点预测模型中各网络的网络参数。
[0093]
其中,对于标点预测模型中的各网络而言,其网络参数可以包括但不限于各网络层中的神经元数量、不同网络层中的神经元之间的连接关系及连接边权重、各网络层中的神经元对应的偏置等。
[0094]
本技术实施例中,由于标注的标点信息表征样本文本的实际标点信息,第一标点预测信息是标点预测模型对样本文本进行学习预测得到的,因而标注的标点信息和第一标点预测信息之间的差异可以反映出标点预测模型的预测准确率,进而可以基于此对标点预测模型中各网络的网络参数进行调整,以提高标点预测模型的预测准确率。
[0095]
考虑到标点预测模型的预测准确率受到其针对每个任务的输出结果的影响,基于此,为提高标点预测模型的预测准确率,在一种可选的实现方式中,可基于标点预测模型针对每个任务输出的预测结果与实际结果之间的差异,调整标点预测模型中各网络的网络参数。具体而言,上述s106具体可实现为:
[0096]
步骤a1,基于标注的标点数量和样本文本中标点的预测数量,确定样本文本对应的第一损失值,。
[0097]
其中,第一损失值用于表征预测标点的数量所产生的损失值,其反映了标注的标点数量与预测的标点数量之间的差异。
[0098]
步骤a2,基于标注的标点位置及标点类型以及样本文本中标点的预测位置及预测类型,确定样本文本对应的第二损失值。
[0099]
其中,第二损失值用于表征预测标点的位置及类型所产生的损失值,其反映了标注的标点位置及类型与预测的标点位置及类型之间的差异。
[0100]
步骤a3,基于第一损失值和第二损失值,确定样本文本对应的预测损失值。
[0101]
其中,预测损失值用于表征对样本文本的标点信息进行预测所产生的损失值,其反映了标注的标点信息与第一标点预测信息之间的差异;最后,基于样本文本对应的预测损失值,采用反向传播算法调整标点预测模型中各网络的网络参数。
[0102]
具体应用中,在采用反向传播算法调整标点预测模型中各网络的网络参数的过程中,可基于样本文本对应的预测损失值,采用反向传播算法确定标点预测模型中各网络对应的损失值,然后,将使样本文本对应的预测损失值下降为目标,逐层调整各网络的网络参数。
[0103]
进一步地,由于预测标点数量和预测标点位置及类型这两个任务之间具有一定的关联性,为使样本文本的预测损失值能够更准确、客观地反映标注的标点信息与第一标点预测信息之间的差异,上述步骤a3具体可实现为:基于第一损失值和第二损失值,确定样本文本对应的第三损失值,其中,第三损失值用于表征预测标点的数量、位置及类型所产生的损失值;接着,对第一损失值、第二损失值和第三损失值进行加权求和,得到样本文本对应的预测损失值。
[0104]
例如,loss3=n
·
loss1·
(1-n)
·
loss2,其中,loss3表示第三损失值,loss1表示第一损失值,loss2表示第二损失值,n表示预设系数,其可根据实际需要进行设置。
[0105]
需要说明的是,实际应用中,第一损失值和第二损失值均可采用任意适当的损失函数确定,本技术实施例对此不作限定。其次,第一损失值、第二损失值及第三损失值各自对应的权重可根据实际需要进行设置,并且可以在标点预测模型的训练过程中进行调整,本技术实施例对此不作限定。
[0106]
还需要说明的是,上述过程仅为一次训练过程,实际应用中,可能需要进行多次训练,因而可重复执行上述步骤s102至s106多次,直到满足训练停止条件。其中,训练停止条件可以是迭代次数达到预设次数阈值、样本文本对应的预测损失值位于预设范围内,等等,本技术实施例对此不作限定。另外,对于标点预测模型中各网络的网络参数的调整,可以采用梯度下降算法,以各网络的网络参数的负梯度方向对网络参数进行调整。
[0107]
本技术实施例提供的标点预测模型的训练方法,将标注有标点信息的样本文本输入到标点预测模型的特征提取网络进行特征提取,得到表征标点数量的第一特征向量和表征标点位置及类型的第二特征向量;接着,将第一特征向量和第二特征向量输入到标点预测模型的多任务网络中,由其中的第一任务层基于第一特征向量预测样本文本中标点的数量,由其中的特征融合层对第一特征向量和第二特征向量进行融合后输入到第二任务层,再由第二任务层基于融合所得的第一融合特征向量预测样本文本中标点的位置及类型;最后,基于标注的标点信息和经标点预测模型预测出的标点信息,调整标点预测模型中各网络的网络参数。可见,训练出的标点预测模型具有联合学习标点数量预测和标点位置及类型预测这两个任务的能力,且经特征融合层融合处理后的融合特征向量中融合了两个任务各自所需的特征信息,这些特征信息中既包含了两个任务之间的关联信息,又包含了两个任务之间彼此不相关的信息,关联信息使得标点预测模型能够充分学习两个任务之间的关联性,由此可以提升标点预测模型的预测准确率;不相关信息则相当于在每个任务学习过程中引入的噪声,进而可以提升每个任务学习的泛化效果,使得标点预测模型具有广泛的适用性,能够适用于多种业务场景、多种来源的文本数据,进一步地,利用训练得到的标点预测模型可以实现准确地为文本添加标点;此外,通过将待处理文本输入到训练得到的标点预测模型,即可得到待处理文本中的标点信息,而后完成标点添加,实现简便快捷,效率高。
[0108]
本技术实施例还提供一种标点添加方法,能够基于图1所示方法训练出的标点预测模型为文本自动添加标点。
[0109]
请参考图4,为本技术的一个实施例提供的一种标点添加方法的流程示意图,该方法可以包括如下步骤:
[0110]
s402,将待处理文本输入标点预测模型,输出第二标点预测信息。
[0111]
其中,待处理文本是指无标点的文本,其可以基于asr技术对语音信号进行语音转换处理得到。第二标点预测信息包括待处理文本中标点的预测数量、预测位置及预测类型。
[0112]
其中,本实施例中的标点预测模型可以是基于上述图1所示的训练方法训练得到的,例如图3所示的标点预测模型。标点预测模型包括特征提取网络和多任务网络,特征提取网络用于对待处理文本进行特征提取,得到第三特征向量和第四特征向量,第三特征向量用于表征待处理文本中标点的数量,第四特征向量用于表征待处理文本中标点的位置及类型;多任务网络包括第一任务层、第二任务层和特征融合层,第一任务层用于对第三特征向量进行标点数量识别处理,得到待处理文本中标点的预测数量,特征融合层用于对第三
特征向量和第四特征向量进行融合处理得到第二融合特征向量,第二任务层用于对第二融合特征向量进行标点类型位置识别处理,得到待处理文本中标点的预测位置及预测类型。
[0113]
s404,基于第二标点预测信息,为待处理文本添加标点。
[0114]
在得到待处理文本中标点的预测数量、预测类型及预测位置后,可基于这些信息,为待处理文本添加标点。
[0115]
考虑到标点预测模型输出的预测信息可能有误而导致对待处理文本漏加标点或添加错误标点而影响后续其他处理任务的处理效果,在一种可选的实现方式中,上述s404具体可实现为:基于第二标点预测信息中的预测位置及预测类型,确定待处理文本中标点的数量;检测确定出的待处理文本中标点的数量与第二标点预测信息中的预测数量是否一致;若一致,则基于第二标点预测信息中的预测位置及预测类型,为待处理文本添加标点。
[0116]
例如,待处理文本为“感谢您的接听谢谢再见”,将该待处理文本输入标点预测模型,输出的第二标点预测信息包括:待处理文本中标点的预测数量n=3,以列表形式记录的待处理文本中标点的预测位置及预测类型p_pos_sty_lis=[["y_period",6],["y_comma",8],["y_exclamation",10]],即待处理文本中的第6个字符后(即“听”)为句号“。”,第8个字符(即“谢”)后为逗号“,”,第10个字符(即“见”)后为感叹号“!”。基于待处理文本中标点的预测位置及预测类型,可确定出标点数量为3个,与第二标点预测信息中的预测数量一致,则可待处理文本中标点的预测位置及预测类型,为待处理文本添加标点,得到如下文本“感谢您的接听。谢谢,再见!”[0117]
为进一步确保为待处理文本添加标点的准确性,在上述s404中,若确定出的待处理文本中标点的数量与第二标点预测信息中的预测数量不一致,则可确定第二标点预测信息有误,进而将第二标点预测信息发送给审核平台,由审核平台对第二标点预测信息进行审核和修正;进一步地,基于审核平台返回的修正后的第二标点预测信息,为待处理文本添加标点。
[0118]
例如,仍以待处理文本为“感谢您的接听谢谢再见”为例,将该待处理文本输入标点预测模型,输出的第二标点预测信息包括:待处理文本中标点的预测数量n=3,以列表形式记录的待处理文本中标点的预测位置及预测类型p_pos_sty_lis=[["y_period",6],["y_comma",8]],即待处理文本中的第6个字符后(即“听”)为句号“。”,第8个字符(即“谢”)后为逗号“,”。基于待处理文本中标点的预测位置及预测类型,可确定出标点数量为2个,与第二标点预测信息中的预测数量不一致,则可将第二标点预测信息发送给审核平台,经审核平台进行审核和修正后返回的第二标点预测信息包括:n=3,p_pos_sty_lis=[["y_period",6],["y_comma",8],["y_exclamation",10]],进一步可基于该修正后的第二标点预测信息中的预测位置及预测类型,为待处理文本添加标点,得到如下文本“感谢您的接听。谢谢,再见!”[0119]
本技术实施例提供的标点添加方法,通过将待处理文本输入到训练得到的标点预测模型,即可得到待处理文本中的标点信息,而后完成标点添加,实现简便快捷,效率高;此外,训练出的标点预测模型具有联合学习标点数量预测和标点位置及类型预测这两个任务的能力,且经标点预测模型中的特征融合层融合处理后的融合特征向量中融合了两个任务各自所需的特征信息,这些特征信息中既包含了两个任务之间的关联信息,又包含了两个任务之间彼此不相关的信息,关联信息使得标点预测模型能够充分学习两个任务之间的关
联性,由此可以提升标点预测模型的预测准确率;不相关信息则相当于在每个任务学习过程中引入的噪声,进而可以提升每个任务学习的泛化效果,使得标点预测模型具有广泛的适用性,能够适用于多种业务场景、多种来源的文本数据,基于训练得到的标点预测模型可以提高对待处理文本中的标点信息进行预测的准确率。
[0120]
本技术实施例提供的标点预测方法任意具有标点添加需求的场景,例如包括但不限于文本情感分类、用户意图识别、基于问答知识库的自动应答等。下面结合基于问答知识库的自动应答这一应用场景为例,对本技术实施例提供的标点预测方法进行详细说明。
[0121]
用户需要咨询某一领域的问题时,可以通过语音交互方式向问答系统提出问题,问答系统利用asr技术将接收到的语音信号转换为文本,由于通过asr技术转换得到的文本未带标点而无法准确理解用户所咨询的问题,进一步,问答系统可将转换得到的文本输入标点预测模型进行标点预测,得到该文本的标点预测信息,其中,得到的标点预测信息包括该文本中标点的预测数量、预测位置及预测类型;接着,问答系统基于该文本中标点的预测位置及预测类型,确定该文本中标点的数量,若确定出的文本中标点的数量与预测数量一致,则基于该文本中标点的预测位置及预测类型为该文本添加标点;若确定出的文本中标点的数量与预测数量不一致,则将该文本的标点预测信息发送给审核平台进行审核和修正,并基于审核平台返回的修正后的标点预测信息,为该文本添加标点。由于添加标点后的文本有利于准确表达用户的真实意图,问答系统可基于添加标点后的文本分析和识别用户的意图,以理解用户所要咨询的问题,而后从问答知识库中召回与用户所要咨询的问题匹配的应答语句并返回给用户,从而对用户所要咨询的问题进行应答。
[0122]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0123]
此外,与上述图1所示的标点预测模型的训练方法相对应地,本技术实施例还提供一种标点预测模型的训练装置。图6为本技术的一个实施例提供的一种标点预测模型的训练装置600的结构示意图,该装置包括:
[0124]
第一输入模块610,用于将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出第一特征向量和第二特征向量,其中,所述标点信息包括标点的数量、位置及类型,所述第一特征向量用于表征所述样本文本中标点的数量,所述第二特征向量用于表征所述样本文本中标点的位置及类型;
[0125]
第二输入模块620,用于将所述第一特征向量和所述第二特征向量输入所述标点预测模型的多任务网络,输出第一标点预测信息,其中,所述第一标点预测信息包括所述样本文本中标点的预测数量、预测位置及预测类型,所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对所述第一特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量,所述特征融合层用于对所述第一特征向量和所述第二特征向量进行融合处理得到第一融合特征向量,所述第二任务层用于对所述第一融合特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型;
[0126]
调整模块630,用于基于标注的标点信息和所述第一标点预测信息,调整所述标点
预测模型中各网络的网络参数。
[0127]
本技术实施例提供的标点预测模型的训练装置,将标注有标点信息的样本文本输入到标点预测模型的特征提取网络进行特征提取,得到表征标点数量的第一特征向量和表征标点位置及类型的第二特征向量;接着,将第一特征向量和第二特征向量输入到标点预测模型的多任务网络中,由其中的第一任务层基于第一特征向量预测样本文本中标点的数量,由其中的特征融合层对第一特征向量和第二特征向量进行融合后输入到第二任务层,再由第二任务层基于融合所得的第一融合特征向量预测样本文本中标点的位置及类型;最后,基于标注的标点信息和经标点预测模型预测出的标点信息,调整标点预测模型中各网络的网络参数。可见,训练出的标点预测模型具有联合学习标点数量预测和标点位置及类型预测这两个任务的能力,且经特征融合层融合处理后的融合特征向量中融合了两个任务各自所需的特征信息,这些特征信息中既包含了两个任务之间的关联信息,又包含了两个任务之间彼此不相关的信息,关联信息使得标点预测模型能够充分学习两个任务之间的关联性,由此可以提升标点预测模型的预测准确率;不相关信息则相当于在每个任务学习过程中引入的噪声,进而可以提升每个任务学习的泛化效果,使得标点预测模型具有广泛的适用性,能够适用于多种业务场景、多种来源的文本数据,进一步地,利用训练得到的标点预测模型可以实现准确地为文本添加标点;此外,通过将待处理文本输入到训练得到的标点预测模型,即可得到待处理文本中的标点信息,而后完成标点添加,实现简便快捷,效率高。
[0128]
可选地,所述第一特征向量包括第一子特征向量和第二子特征向量,所述第一子特征向量和所述第二子特征向量为所述特征提取网络按照不同的特征提取方式对所述样本文本进行特征提取得到;
[0129]
所述多任务网络还包括第一注意力机制层,所述第一注意力机制层用于对输入的所述第一子特征向量和所述第二子特征向量进行特征增强处理,得到第一注意力特征向量;
[0130]
所述第一任务层用于对所述第一注意力特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量;
[0131]
所述特征融合层用于对所述第一注意力特征向量和所述第二特征向量进行融合处理,得到所述第一融合特征向量。
[0132]
可选地,所述特征提取网络包括第一特征提取层和第二特征提取层,所述第一特征提取层和所述第二特征提取层具有不同的网络结构;
[0133]
所述第一特征提取层用于按照第一特征提取方式对所述样本文本进行特征提取,得到所述第一子特征向量;
[0134]
所述第二特征提取网络用于按照第二特征提取方式对所述样本文本进行特征提取,得到所述第二子特征向量和所述第二特征向量。
[0135]
可选地,所述多任务网络还包括第二注意力机制层,所述第二注意力机制层用于对输入的所述第一特征融合向量和所述第二特征向量进行特征增强处理,得到第二注意力特征向量;
[0136]
所述第二任务层用于对所述第二注意力特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型。
[0137]
可选地,所述调整模块包括:
[0138]
第一损失值确定子模块,用于基于标注的标点数量和所述样本文本中标点的预测数量,确定所述样本文本对应的第一损失值,所述第一损失值用于表征预测标点的数量所产生的损失值;
[0139]
第二损失值确定子模块,用于基于标注的标点位置及标点类型以及所述样本文本中标点的预测位置及预测类型,确定所述样本文本对应的第二损失值,所述第二损失值用于表征预测标点的位置及类型所产生的损失值;
[0140]
预测损失值确定子模块,用于基于所述第一损失值和所述第二损失值,确定所述样本文本对应的预测损失值;
[0141]
调整子模块,用于基于所述预测损失值,采用反向传播算法调整所述标点预测模型中各网络的网络参数。
[0142]
可选地,所述预测损失值确定子模块用于:
[0143]
基于所述第一损失值和所述第二损失值,确定所述样本文本对应的第三损失值,所述第三损失值用于表征预测标点的数量、位置及类型所产生的损失值;
[0144]
对所述第一损失值、所述第二损失值和所述第三损失值进行加权求和,得到所述样本文本对应的预测损失值。
[0145]
可选地,所述标点预测模型的训练装置还包括:
[0146]
第一获取模块,用于在所述第一输入模块将标注有标点信息的样本文本输入标点预测模型的特征提取网络之前,获取包含标点的文本;
[0147]
标点去除模块,用于基于所述包含标点的文本中标点的位置及类型,去除所述包含标点的文本中的标点,得到样本文本;
[0148]
添加模块,用于在所述样本文本的首字符之前添加所述包含标点的文本中标点的数量;
[0149]
生成模块,用于基于所述包含标点的文本中标点的位置及类型,生成与所述样本文本中各字符对应的标注信息,所述标注信息用于指示所对应的字符之后是否存在标点及存在的标点的类型。
[0150]
显然,本技术实施例的标点预测模型的训练装置可以作为上述图1所示的标点预测模型的训练方法的执行主体,因此能够实现标点预测模型的训练方法在图1所实现的功能。由于原理相同,在此不再重复说明。
[0151]
此外,与上述图4所示的标点添加方法相对应地,本技术实施例还提供一种标点添加装置。图7为本技术的一个实施例提供的一种标点添加装置700的结构示意图,该装置包括:
[0152]
第三输入模块710,用于将待处理文本输入标点预测模型,输出第二标点预测信息,所述第二标点预测信息包括所述待处理文本中标点的预测数量、预测位置及预测类型,其中,所述标点预测模型包括特征提取网络和多任务网络,所述特征提取网络用于对所述待处理文本进行特征提取,得到第三特征向量和第四特征向量,所述第三特征向量用于表征所述待处理文本中标点的数量,所述第四特征向量用于表征所述待处理文本中标点的位置及类型;所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对输入的所述第三特征向量进行标点数量识别处理,得到所述待处理文本中标点的预测
architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0165]
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
[0166]
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成标点预测模型的训练装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
[0167]
将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出第一特征向量和第二特征向量,其中,所述标点信息包括标点的数量、位置及类型,所述第一特征向量用于表征所述样本文本中标点的数量,所述第二特征向量用于表征所述样本文本中标点的位置及类型;
[0168]
将所述第一特征向量和所述第二特征向量输入所述标点预测模型的多任务网络,输出第一标点预测信息,其中,所述第一标点预测信息包括所述样本文本中标点的预测数量、预测位置及预测类型,所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对所述第一特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量,所述特征融合层用于对所述第一特征向量和所述第二特征向量进行融合处理得到第一融合特征向量,所述第二任务层用于对所述第一融合特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型;
[0169]
基于标注的标点信息和所述第一标点预测信息,调整所述标点预测模型中各网络的网络参数。
[0170]
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成标点添加装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
[0171]
将待处理文本输入标点预测模型,输出第二标点预测信息,所述第二标点预测信息包括所述待处理文本中标点的预测数量、预测位置及预测类型,其中,所述标点预测模型包括特征提取网络和多任务网络,所述特征提取网络用于对所述待处理文本进行特征提取,得到第三特征向量和第四特征向量,所述第三特征向量用于表征所述待处理文本中标点的数量,所述第四特征向量用于表征所述待处理文本中标点的位置及类型;所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对输入的所述第三特征向量进行标点数量识别处理,得到所述待处理文本中标点的预测数量,所述特征融合层用于对所述第三特征向量和所述第四特征向量进行融合处理得到第二融合特征向量,所述第二任务层用于对输入的所述第二融合特征向量进行标点类型位置识别处理,得到所述待处理文本中标点的预测位置及预测类型;
[0172]
基于所述第二标点预测信息,为所述待处理文本添加标点。
[0173]
上述如本技术图1所示实施例揭示的标点预测模型的训练装置执行的方法或者如本技术图4所示实施例揭示的标点添加装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理
器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0174]
该电子设备还可执行图1的方法,并实现标点预测模型的训练装置在图1所示实施例的功能,本技术实施例在此不再赘述。该电子设备还可以执行图4的方法,并实现标点添加装置在图4所示实施例的功能,本技术实施例在此不再赘述。
[0175]
当然,除了软件实现方式之外,本技术的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
[0176]
本技术实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
[0177]
将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出第一特征向量和第二特征向量,其中,所述标点信息包括标点的数量、位置及类型,所述第一特征向量用于表征所述样本文本中标点的数量,所述第二特征向量用于表征所述样本文本中标点的位置及类型;
[0178]
将所述第一特征向量和所述第二特征向量输入所述标点预测模型的多任务网络,输出第一标点预测信息,其中,所述第一标点预测信息包括所述样本文本中标点的预测数量、预测位置及预测类型,所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对所述第一特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量,所述特征融合层用于对所述第一特征向量和所述第二特征向量进行融合处理得到第一融合特征向量,所述第二任务层用于对所述第一融合特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型;
[0179]
基于标注的标点信息和所述第一标点预测信息,调整所述标点预测模型中各网络的网络参数。
[0180]
或者,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图4所示实施例的方法,并具体用于执行以下操作:
[0181]
将待处理文本输入标点预测模型,输出第二标点预测信息,所述第二标点预测信息包括所述待处理文本中标点的预测数量、预测位置及预测类型,其中,所述标点预测模型包括特征提取网络和多任务网络,所述特征提取网络用于对所述待处理文本进行特征提取,得到第三特征向量和第四特征向量,所述第三特征向量用于表征所述待处理文本中标
点的数量,所述第四特征向量用于表征所述待处理文本中标点的位置及类型;所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对输入的所述第三特征向量进行标点数量识别处理,得到所述待处理文本中标点的预测数量,所述特征融合层用于对所述第三特征向量和所述第四特征向量进行融合处理得到第二融合特征向量,所述第二任务层用于对输入的所述第二融合特征向量进行标点类型位置识别处理,得到所述待处理文本中标点的预测位置及预测类型;
[0182]
基于所述第二标点预测信息,为所述待处理文本添加标点。
[0183]
总之,以上所述仅为本技术的较佳实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
[0184]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。
[0185]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0186]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0187]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
技术特征:
1.一种标点预测模型的训练方法,其特征在于,包括:将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出第一特征向量和第二特征向量,其中,所述标点信息包括标点的数量、位置及类型,所述第一特征向量用于表征所述样本文本中标点的数量,所述第二特征向量用于表征所述样本文本中标点的位置及类型;将所述第一特征向量和所述第二特征向量输入所述标点预测模型的多任务网络,输出第一标点预测信息,其中,所述第一标点预测信息包括所述样本文本中标点的预测数量、预测位置及预测类型,所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对所述第一特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量,所述特征融合层用于对所述第一特征向量和所述第二特征向量进行融合处理得到第一融合特征向量,所述第二任务层用于对所述第一融合特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型;基于标注的标点信息和所述第一标点预测信息,调整所述标点预测模型中各网络的网络参数。2.根据权利要求1所述的方法,其特征在于,所述第一特征向量包括第一子特征向量和第二子特征向量,所述第一子特征向量和所述第二子特征向量为所述特征提取网络按照不同的特征提取方式对所述样本文本进行特征提取得到;所述多任务网络还包括第一注意力机制层,所述第一注意力机制层用于对输入的所述第一子特征向量和所述第二子特征向量进行特征增强处理,得到第一注意力特征向量;所述第一任务层用于对所述第一注意力特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量;所述特征融合层用于对所述第一注意力特征向量和所述第二特征向量进行融合处理,得到所述第一融合特征向量。3.根据权利要求2所述的方法,其特征在于,所述特征提取网络包括第一特征提取层和第二特征提取层,所述第一特征提取层和所述第二特征提取层具有不同的网络结构;所述第一特征提取层用于按照第一特征提取方式对所述样本文本进行特征提取,得到所述第一子特征向量;所述第二特征提取网络用于按照第二特征提取方式对所述样本文本进行特征提取,得到所述第二子特征向量和所述第二特征向量。4.根据权利要求1所述的方法,其特征在于,所述多任务网络还包括第二注意力机制层,所述第二注意力机制层用于对输入的所述第一特征融合向量和所述第二特征向量进行特征增强处理,得到第二注意力特征向量;所述第二任务层用于对所述第二注意力特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型。5.根据权利要求1所述的方法,其特征在于,所述基于标注的标点信息和所述第一标点预测信息,调整所述标点预测模型中各网络的网络参数,包括:基于标注的标点数量和所述样本文本中标点的预测数量,确定所述样本文本对应的第一损失值,所述第一损失值用于表征预测标点的数量所产生的损失值;基于标注的标点位置及标点类型以及所述样本文本中标点的预测位置及预测类型,确
定所述样本文本对应的第二损失值,所述第二损失值用于表征预测标点的位置及类型所产生的损失值;基于所述第一损失值和所述第二损失值,确定所述样本文本对应的预测损失值;基于所述预测损失值,采用反向传播算法调整所述标点预测模型中各网络的网络参数。6.根据权利要求5所述的方法,其特征在于,所述基于所述第一损失值和所述第二损失值,确定所述样本文本对应的预测损失值,包括:基于所述第一损失值和所述第二损失值,确定所述样本文本对应的第三损失值,所述第三损失值用于表征预测标点的数量、位置及类型所产生的损失值;对所述第一损失值、所述第二损失值和所述第三损失值进行加权求和,得到所述样本文本对应的预测损失值。7.根据权利要求1至6中任一项所述的方法,其特征在于,在将标注有标点信息的样本文本输入标点预测模型的特征提取网络之前,所述方法还包括:获取包含标点的文本;基于所述包含标点的文本中标点的位置及类型,去除所述包含标点的文本中的标点,得到样本文本;在所述样本文本的首字符之前添加所述包含标点的文本中标点的数量;基于所述包含标点的文本中标点的位置及类型,生成与所述样本文本中各字符对应的标注信息,所述标注信息用于指示所对应的字符之后是否存在标点及存在的标点的类型。8.一种标点添加方法,其特征在于,包括:将待处理文本输入标点预测模型,输出第二标点预测信息,所述第二标点预测信息包括所述待处理文本中标点的预测数量、预测位置及预测类型,其中,所述标点预测模型包括特征提取网络和多任务网络,所述特征提取网络用于对所述待处理文本进行特征提取,得到第三特征向量和第四特征向量,所述第三特征向量用于表征所述待处理文本中标点的数量,所述第四特征向量用于表征所述待处理文本中标点的位置及类型;所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对输入的所述第三特征向量进行标点数量识别处理,得到所述待处理文本中标点的预测数量,所述特征融合层用于对所述第三特征向量和所述第四特征向量进行融合处理得到第二融合特征向量,所述第二任务层用于对输入的所述第二融合特征向量进行标点类型位置识别处理,得到所述待处理文本中标点的预测位置及预测类型;基于所述第二标点预测信息,为所述待处理文本添加标点。9.根据权利要求8所述的方法,其特征在于,所述基于所述第二标点预测信息,为所述待处理文本添加标点,包括:基于所述第二标点预测信息中的预测位置及预测类型,确定所述待处理文本中标点的数量;检测确定出的所述待处理文本中标点的数量与所述第二标点预测信息中的预测数量是否一致;若一致,则基于所述第二标点预测信息中的预测位置及预测类型,为所述待处理文本添加标点。
10.根据权利要求9所述的方法,其特征在于,所述基于所述第二标点预测信息,为所述待处理文本添加标点,还包括:若确定出的所述待处理文本中标点的数量与所述第二标点预测信息中的预测数量不一致,则将所述第二标点预测信息发送给审核平台;基于所述审核平台返回的修正后的所述第二标点预测信息,为所述待处理文本添加标点。11.一种标点预测模型的训练装置,其特征在于,包括:第一输入模块,用于将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出第一特征向量和第二特征向量,其中,所述标点信息包括标点的数量、位置及类型,所述第一特征向量用于表征所述样本文本中标点的数量,所述第二特征向量用于表征所述样本文本中标点的位置及类型;第二输入模块,用于将所述第一特征向量和所述第二特征向量输入所述标点预测模型的多任务网络,输出第一标点预测信息,其中,所述第一标点预测信息包括所述样本文本中标点的预测数量、预测位置及预测类型,所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对所述第一特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量,所述特征融合层用于对所述第一特征向量和所述第二特征向量进行融合处理得到第一融合特征向量,所述第二任务层用于对所述第一融合特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型;调整模块,用于基于标注的标点信息和所述第一标点预测信息,调整所述标点预测模型中各网络的网络参数。12.一种标点添加装置,其特征在于,包括:第三输入模块,用于将待处理文本输入标点预测模型,输出第二标点预测信息,所述第二标点预测信息包括所述待处理文本中标点的预测数量、预测位置及预测类型,其中,所述标点预测模型包括特征提取网络和多任务网络,所述特征提取网络用于对所述待处理文本进行特征提取,得到第三特征向量和第四特征向量,所述第三特征向量用于表征所述待处理文本中标点的数量,所述第四特征向量用于表征所述待处理文本中标点的位置及类型;所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对输入的所述第三特征向量进行标点数量识别处理,得到所述待处理文本中标点的预测数量,所述特征融合层用于对所述第三特征向量和所述第四特征向量进行融合处理得到第二融合特征向量,所述第二任务层用于对输入的所述第二融合特征向量进行标点类型位置识别处理,得到所述待处理文本中标点的预测位置及预测类型;标点添加模块,用于基于所述第二标点预测信息,为所述待处理文本添加标点。13.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1至10中任一项所述的方法。14.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至10中任一项所述的方法。
技术总结
本申请公开了一种标点预测模型的训练方法、标点添加方法及装置,用于实现准确、高效地为文本添加标点。所述训练方法包括:将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出表征标点数量的第一特征向量和表征标点位置及类型的第二特征向量;将第一特征向量和第二特征向量输入标点预测模型的多任务网络,输出第一标点预测信息,以及基于标注的标点信息和第一标点预测信息,调整各网络的网络参数,多任务网络包括:第一任务层,基于第一特征向量输出样本文本中标点的预测数量;特征融合层,对第一特征向量和第二特征向量进行融合处理得到第一融合特征向量;第二任务层,基于第一融合特征向量输出标点的预测位置及预测类型。及预测类型。及预测类型。
技术研发人员:李长林 权佳成 曹磊
受保护的技术使用者:马上消费金融股份有限公司
技术研发日:2022.02.16
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-12578.html