一种soe信息的智能监控方法
技术领域
1.本发明涉及计算机技术领域,尤其涉及一种soe信息的智能监控方法。
背景技术:
2.随着信息技术的不断发展,在大部分电厂主机、造纸等重要工业领域中,一旦在系统联调或生产运行过程中发生停机停车等事件,需要通过dcs(distributed controlsystem分布式控制系统)平台来查找事故的原因,而这些项目的工艺过程复杂,实时性高,一般的报警记录及历史趋势无法用来做出准确的事故分析。因此,需要用到事件顺序记录(sequence of event soe)技术对dcs进行事件记录。
3.一种在中国专利文献上公开的“一种soe事件的采集方法及相关装置”,其公告号cn109376878a,包括:包括:控制器进行运算得到状态数据,判断状态数据和上一周期状态数据是否一样;若是,将状态数据作为上一周期状态数据进行保存;若否,根据状态数据进行soe事件记录处理,得到soe事件,将状态数据作为上一周期状态数据进行保存;将soe事件保存至缓存队列,按照预设规则从缓存队列将soe事件上传至上位机,以使上位机获取soe事件。通过判断状态数据减少控制器采集监控数据的数据量,降低了监控软件传输的数据量,保持监控数据全被采集的情况下降低网络负荷。其不足之处是:无法实现soe信息的智能监控、诊断和预警。
技术实现要素:
4.本发明主要是为了解决无法实现soe信息的智能监控、诊断和预警的问题,提供一种soe信息的智能监控方法。
5.为了实现上述目的,本发明采用以下技术方案:一种soe信息的智能监控方法,包括以下步骤:s1:采集故障自诊断图像和文字信息;s2:图文识别,包括图像预处理、文字检测、文本识别;s3:通过识别后的信息实现故障自诊断,将识别后的信息进行全语种语义建模;s4:通过全语种语义建模构建发音体系,通过多语种混合建模和迁移学习,构建语音生成模型。
6.步骤s1中所述采集故障自诊断图像和文字信息,可以使用视频采集、摄像采集等获取所需图像和文字信息。
7.所述图像预处理是针对图像的成像问题进行修正。图像预处理过程包括:几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正等。
8.文字检测即检测文本的所在位置和范围及其布局,包括版面分析和文字行检测等。文字检测主要解决的问题是哪里有文字,文字的范围有多大。
9.文本识别是在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。文字识别主要解决的问题是每个文字是什么。识别出的文本需要再次核对
以保证其正确性。
10.作为优选,步骤s1中所述图像和文字信息包括事故信息、异常信息、变位信息、告知信息,所述异常信息包括重合失败、重合成功、跳闸未重合、接地故障。
11.作为优选,所述步骤s2包括以下步骤:s21:通过神经网络提取图像特征,进行图像预处理;s22:通过候选框框选预处理后图像中的文本区域;s23:引入文本区域中上下文的序列信息,通过依赖于时序关系的神经网络进行文本识别。
12.步骤s21中使用基于cnn(卷积神经网络)的神经网络作为特征提取手段,cnn神经网络可以配合大量的数据增强特征提取的鲁棒性,在面临模糊、扭曲、畸变、复杂背景和光线不清等图像问题均可以表现良好的鲁棒性。
13.步骤s23中所述引入文本区域中上下文的序列信息,确保了条目准确率,可以通过rnn(循环神经网络)和lstm(长短期记忆网络)等依赖于时序关系的神经网络引入文本区域中上下文的序列信息。
14.作为优选,所述步骤s22包括以下步骤:s221:判断框选的文本区域是否为检测目标;s222:调整候选框旋转角度和/或长宽比得到矩形候选框,或计算文本区域与候选框的重合度后得到非矩形候选框;s223:通过分类定位的多任务损失判断检测目标类型。
15.采用辅助生成样本的rpn(区域候选网络)网络,将算法结构分为两个部分,第一部分为步骤s221中判断框选的文本区域是否为检测目标,第二部分为步骤s223中通过分类定位的多任务损失判断检测目标类型。这种形式可以使整个网络流程都能共享卷积神经网络提取的的特征信息,节约计算成本,且解决算法生成正负样本候选框速度慢的问题,同时避免候选框提取过多导致算法准确率下降。
16.步骤s222中可以通过rrpn(基于旋转候选框实现任意方向的场景文本检测),将垂直的候选框进行旋转满足非垂直文本的检测,这样一来就可以满足非垂直文字的检测需求。
17.步骤s222中可以通过textboxes算法调整了候选框的长宽比,以适应文字的高长宽比。
18.步骤s222中可以采用dmpnet(deep matching prior network)算法,通过monte-carlo方法计算标注区域与矩形候选框和旋转候选框的重合度后重新计算顶点坐标,得到非矩形四边形的顶点坐标,得到非矩形候选框。
19.作为优选,步骤s3中所述将识别后的信息进行全语种语义建模包括以下步骤:s31:构建全语种语义预训练模型提取文本语义信息;s32:通过多语言融合的文本预训练方式提取语义变化信息;s33:在预训练模型基础上构建各语种独立情况的文本预测信息分支。
20.采用基于多国语言融合的bert无监督文本预训练模型,提取文本语义信息,降低文本人工标注难度和数量。
21.通过多语言融合的海量文本预训练方式提取语义变化信息,改善文本输入能力偏
弱的现实,提升语音合成表现效果。
22.在统一的bert预训练模型基础上构建各语种独立情况的文本预测信息分支,如中文多音字、日语调核、阿拉伯语元音恢复等问题,实现共享信息的多任务学习。
23.作为优选,步骤s4中所述构建发音体系包括以下步骤:s41:根据物理发音规律覆设计覆盖全部发音体系,预先定义并在数据充足语言上人工确认标注;s42:构建统一单元的发音词典,将语言相关技术模块化,在语言资源有限的条件下得以实现合成系统快速定制;s43:以国际音标为基础,辅音根据发音部位、发音方法做主要区分,元音以发音位置的高低、前后、圆唇/不圆唇三点作为主要区分维度,以时长、鼻化,松紧作为次要区分维度,构建多语言发音体系。
24.所述根据物理发音规律覆设计覆盖全部发音体系,包含孤立语、黏着语、屈折语以及区分音节显赫语言(有调、无调)、音节非显赫语言(有重音、无重音)等各种主要语系里语音发音类型。
25.通过vae半监督聚类方法自动构建统一单元的发音词典,将语言相关技术模块化的方法,在语言资源有限的条件下得以实现合成系统快速定制,解决了小语种或方言等资源受限语种的语音系统需求。
26.作为优选,步骤s41中所述将语言相关技术模块化包括语言相关模块和语言无关模块,所述语言无关模块包括语音合成引擎和语音识别引擎,所述语言相关模块包括语音单元定义及分类模块、文本规整模块、字音转换模块、语料设计模块、分词模块、韵律结构预测模块和语音数据库标注模块。
27.语音识别引擎可共享其中的语音单元定义及分类模块、文本规整模块、字音转换模块、语料设计模块、分词模块、韵律结构预测模块和语音数据库标注模块等。
28.作为优选,步骤s4中所述多语种混合建模和迁移学习包括以下步骤:s44:对语音中的不同属性信息进行听感量化编码,并引入残差编码描述发音人在录制语音数据时由于不同状态下发音上的变化信息;s45:对听感量化编码和声学参数的联合分布进行声学模型建模,对语音的声学参数进行预测。
29.所述听感量化编码包括说话人、语种、情感风格等属性编码,所述不同状态包括情绪、环境、时间差异。通过全连接前馈(feed-forward,ff)网络和长短时记忆网络(lstm-rnn)实现对语音声学参数的预测。针对语料较少的新发音人,采用迁移学习方法,以提高少数据量下的语音合成效果。
30.作为优选,所述对听感量化编码和声学参数的联合分布进行声学模型建模如下所示:p(x,λs,λ
l
,λe,λr|c)=p(λs)p(λ
l
)p(λr)p(λe|c,λ
l
,λs)式中,x为声学参数,c为对应的文本,λs为说话人编码,λ
l
为语种编码,λe为情感风格编码,为残差编码。
31.声学模型使用神经网络进行实现,主要包含两部分:一是主网络部分,在给定文本和听感量化编码时预测声学参数,通过所有数据共享同一个主网络,使模型能够学习到不
同说话人、语种、风格编码对合成语音的影响;二是旁支网络,在给定文本、语种、说话人时,对情感编码进行预测,同样使用神经网络进行实现。
32.在模型训练时,说话人、语种给定,情感量化编码通过人工标记进行定义。残差编码描述的是发音人在录制语音数据时由于情绪、环境、时间差异等不同状态下发音上的变化信息,无法人工标记,为此将每个句子使用一个单独残差编码表示,残差编码随机初始化,通过模型训练进行更新。声学模型使用最小均方误差准则进行训练,使用随机梯度下降算法进行梯度更新。
33.针对语料较少的新发音人,采用迁移学习方法,以提高少数据量下的语音合成效果。首先将训好的多人混合模型的权重作为新发音人模型的初始化,然后使用新发音人的少量数据进行微调,从而达到少数据量、新发音人的快速建模。
34.作为优选,步骤s4中所述构建语音生成模型包括以下步骤:s46:通过声学模型预测出频谱包络;s47:对频谱包络的整体结构进行建模,对频谱包络的局部细节进行建模;s48:生成对抗网络的高质量语音生成模型,通过模型恢复频谱包络中的精细结构,生成语音。
35.使用卷积神经网络构建声学模型预测频谱到自然语音频谱包络的映射,使用gan准则进行模型训练。gan中的生成网络以噪声、文本特征和低维梅尔倒谱作为输入,预测频谱包络特征;判别网络以文本特征作为条件,对生成网络预测的频谱包络和自然的频谱包络进行判别。最终实现在特定语种发音人数据量有限的情况下,通过跨语种gan模型恢复频谱包络中的精细结构,提升语音的主观质量。
36.本发明的有益效果是:(1)基于图像和文字信息采集、文本识别等技术,实现soe信息的智能监控、诊断和预警。
37.(2)实现重合失败、重合成功、跳闸未重合、接地故障等四类状态的自诊断。
38.(3)通过语音合成技术,将重要信息通过语音模型播报,确保重要信息无遗漏。
附图说明
39.图1是本发明的流程示意图。
具体实施方式
40.下面结合附图和具体实施方式对本发明进一步的描述。
41.如图1所示,一种soe信息的智能监控方法,包括以下步骤:s1:采集故障自诊断图像和文字信息;s2:图文识别,包括图像预处理、文字检测、文本识别;s3:通过识别后的信息实现故障自诊断,将识别后的信息进行全语种语义建模;s4:通过全语种语义建模构建发音体系,通过多语种混合建模和迁移学习,构建语音生成模型。
42.步骤s1中采集故障自诊断图像和文字信息,可以使用视频采集、摄像采集等获取所需图像和文字信息。
43.图像预处理是针对图像的成像问题进行修正。图像预处理过程包括:几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正等。
44.文字检测即检测文本的所在位置和范围及其布局,包括版面分析和文字行检测等。文字检测主要解决的问题是哪里有文字,文字的范围有多大。
45.文本识别是在文本检测的基础上,对文本内容进行识别,将图像中的文本信息转化为文本信息。文字识别主要解决的问题是每个文字是什么。识别出的文本需要再次核对以保证其正确性。
46.步骤s1中图像和文字信息包括事故信息、异常信息、变位信息、告知信息,异常信息包括重合失败、重合成功、跳闸未重合、接地故障。
47.步骤s2包括以下步骤:s21:通过神经网络提取图像特征,进行图像预处理;s22:通过候选框框选预处理后图像中的文本区域;s23:引入文本区域中上下文的序列信息,通过依赖于时序关系的神经网络进行文本识别。
48.步骤s21中使用基于cnn(卷积神经网络)的神经网络作为特征提取手段,cnn神经网络可以配合大量的数据增强特征提取的鲁棒性,在面临模糊、扭曲、畸变、复杂背景和光线不清等图像问题均可以表现良好的鲁棒性。
49.步骤s23中引入文本区域中上下文的序列信息,确保了条目准确率,可以通过rnn(循环神经网络)和lstm(长短期记忆网络)等依赖于时序关系的神经网络引入文本区域中上下文的序列信息。
50.步骤s22包括以下步骤:s221:判断框选的文本区域是否为检测目标;s222:调整候选框旋转角度和/或长宽比得到矩形候选框,或计算文本区域与候选框的重合度后得到非矩形候选框;s223:通过分类定位的多任务损失判断检测目标类型。
51.采用辅助生成样本的rpn(区域候选网络)网络,将算法结构分为两个部分,第一部分为步骤s221中判断框选的文本区域是否为检测目标,第二部分为步骤s223中通过分类定位的多任务损失判断检测目标类型。这种形式可以使整个网络流程都能共享卷积神经网络提取的的特征信息,节约计算成本,且解决算法生成正负样本候选框速度慢的问题,同时避免候选框提取过多导致算法准确率下降。
52.步骤s222中可以通过rrpn(基于旋转候选框实现任意方向的场景文本检测),将垂直的候选框进行旋转满足非垂直文本的检测,这样一来就可以满足非垂直文字的检测需求。
53.步骤s222中可以通过textboxes算法调整了候选框的长宽比,以适应文字的高长宽比。
54.步骤s222中可以采用dmpnet(deep matching prior network)算法,通过monte-carlo方法计算标注区域与矩形候选框和旋转候选框的重合度后重新计算顶点坐标,得到非矩形四边形的顶点坐标,得到非矩形候选框。
55.步骤s3中将识别后的信息进行全语种语义建模包括以下步骤:
s31:构建全语种语义预训练模型提取文本语义信息;s32:通过多语言融合的文本预训练方式提取语义变化信息;s33:在预训练模型基础上构建各语种独立情况的文本预测信息分支。
56.采用基于多国语言融合的bert无监督文本预训练模型,提取文本语义信息,降低文本人工标注难度和数量。
57.通过多语言融合的海量文本预训练方式提取语义变化信息,改善文本输入能力偏弱的现实,提升语音合成表现效果。
58.在统一的bert预训练模型基础上构建各语种独立情况的文本预测信息分支,如中文多音字、日语调核、阿拉伯语元音恢复等问题,实现共享信息的多任务学习。
59.步骤s4中构建发音体系包括以下步骤:s41:根据物理发音规律覆设计覆盖全部发音体系,预先定义并在数据充足语言上人工确认标注;s42:构建统一单元的发音词典,将语言相关技术模块化,在语言资源有限的条件下得以实现合成系统快速定制;s43:以国际音标为基础,辅音根据发音部位、发音方法做主要区分,元音以发音位置的高低、前后、圆唇/不圆唇三点作为主要区分维度,以时长、鼻化,松紧作为次要区分维度,构建多语言发音体系。
60.根据物理发音规律覆设计覆盖全部发音体系,包含孤立语、黏着语、屈折语以及区分音节显赫语言(有调、无调)、音节非显赫语言(有重音、无重音)等各种主要语系里语音发音类型。
61.通过vae半监督聚类方法自动构建统一单元的发音词典,将语言相关技术模块化的方法,在语言资源有限的条件下得以实现合成系统快速定制,解决了小语种或方言等资源受限语种的语音系统需求。
62.步骤s41中将语言相关技术模块化包括语言相关模块和语言无关模块,语言无关模块包括语音合成引擎和语音识别引擎,语言相关模块包括语音单元定义及分类模块、文本规整模块、字音转换模块、语料设计模块、分词模块、韵律结构预测模块和语音数据库标注模块。
63.语音识别引擎可共享其中的语音单元定义及分类模块、文本规整模块、字音转换模块、语料设计模块、分词模块、韵律结构预测模块和语音数据库标注模块等。
64.步骤s4中多语种混合建模和迁移学习包括以下步骤:s44:对语音中的不同属性信息进行听感量化编码,并引入残差编码描述发音人在录制语音数据时由于不同状态下发音上的变化信息;s45:对听感量化编码和声学参数的联合分布进行声学模型建模,对语音的声学参数进行预测。
65.听感量化编码包括说话人、语种、情感风格等属性编码,不同状态包括情绪、环境、时间差异。通过全连接前馈(feed-forward,ff)网络和长短时记忆网络(lstm-rnn)实现对语音声学参数的预测。针对语料较少的新发音人,采用迁移学习方法,以提高少数据量下的语音合成效果。
66.对听感量化编码和声学参数的联合分布进行声学模型建模如下所示:
p(x,λs,λ
l
,λe,λr|c)=p(λs)p(λ
l
)p(λr)p(λe|c,λ
l
,λs)式中,x为声学参数,c为对应的文本,λs为说话人编码,λ
l
为语种编码,λe为情感风格编码,为残差编码。
67.声学模型使用神经网络进行实现,主要包含两部分:一是主网络部分,在给定文本和听感量化编码时预测声学参数,通过所有数据共享同一个主网络,使模型能够学习到不同说话人、语种、风格编码对合成语音的影响;二是旁支网络,在给定文本、语种、说话人时,对情感编码进行预测,同样使用神经网络进行实现。
68.在模型训练时,说话人、语种给定,情感量化编码通过人工标记进行定义。残差编码描述的是发音人在录制语音数据时由于情绪、环境、时间差异等不同状态下发音上的变化信息,无法人工标记,为此将每个句子使用一个单独残差编码表示,残差编码随机初始化,通过模型训练进行更新。声学模型使用最小均方误差准则进行训练,使用随机梯度下降算法进行梯度更新。
69.针对语料较少的新发音人,采用迁移学习方法,以提高少数据量下的语音合成效果。首先将训好的多人混合模型的权重作为新发音人模型的初始化,然后使用新发音人的少量数据进行微调,从而达到少数据量、新发音人的快速建模。
70.步骤s4中构建语音生成模型包括以下步骤:s46:通过声学模型预测出频谱包络;s47:对频谱包络的整体结构进行建模,对频谱包络的局部细节进行建模;s48:生成对抗网络的高质量语音生成模型,通过模型恢复频谱包络中的精细结构,生成语音。
71.使用卷积神经网络构建声学模型预测频谱到自然语音频谱包络的映射,使用gan准则进行模型训练。gan中的生成网络以噪声、文本特征和低维梅尔倒谱作为输入,预测频谱包络特征;判别网络以文本特征作为条件,对生成网络预测的频谱包络和自然的频谱包络进行判别。最终实现在特定语种发音人数据量有限的情况下,通过跨语种gan模型恢复频谱包络中的精细结构,提升语音的主观质量。
72.应理解,该实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。
技术特征:
1.一种soe信息的智能监控方法,其特征在于,包括以下步骤:s1:采集故障自诊断图像和文字信息;s2:图文识别,包括图像预处理、文字检测、文本识别;s3:通过识别后的信息实现故障自诊断,将识别后的信息进行全语种语义建模;s4:通过全语种语义建模构建发音体系,通过多语种混合建模和迁移学习,构建语音生成模型。2.根据权利要求1所述的一种soe信息的智能监控方法,其特征在于,步骤s1中所述图像和文字信息包括事故信息、异常信息、变位信息、告知信息,所述异常信息包括重合失败、重合成功、跳闸未重合、接地故障。3.根据权利要求1所述的一种soe信息的智能监控方法,其特征在于,所述步骤s2包括以下步骤:s21:通过神经网络提取图像特征,进行图像预处理;s22:通过候选框框选预处理后图像中的文本区域;s23:引入文本区域中上下文的序列信息,通过依赖于时序关系的神经网络进行文本识别。4.根据权利要求3所述的一种soe信息的智能监控方法,其特征在于,所述步骤s22包括以下步骤:s221:判断框选的文本区域是否为检测目标;s222:调整候选框旋转角度和/或长宽比得到矩形候选框,或计算文本区域与候选框的重合度后得到非矩形候选框;s223:通过分类定位的多任务损失判断检测目标类型。5.根据权利要求1所述的一种soe信息的智能监控方法,其特征在于,步骤s3中所述将识别后的信息进行全语种语义建模包括以下步骤:s31:构建全语种语义预训练模型提取文本语义信息;s32:通过多语言融合的文本预训练方式提取语义变化信息;s33:在预训练模型基础上构建各语种独立情况的文本预测信息分支。6.根据权利要求1所述的一种soe信息的智能监控方法,其特征在于,步骤s4中所述构建发音体系包括以下步骤:s41:根据物理发音规律覆设计覆盖全部发音体系,预先定义并在数据充足语言上人工确认标注;s42:构建统一单元的发音词典,将语言相关技术模块化,在语言资源有限的条件下得以实现合成系统快速定制;s43:以国际音标为基础,辅音根据发音部位、发音方法做主要区分,元音以发音位置的高低、前后、圆唇/不圆唇三点作为主要区分维度,以时长、鼻化,松紧作为次要区分维度,构建多语言发音体系。7.根据权利要求6所述的一种soe信息的智能监控方法,其特征在于,步骤s41中所述将语言相关技术模块化包括语言相关模块和语言无关模块,所述语言无关模块包括语音合成引擎和语音识别引擎,所述语言相关模块包括语音单元定义及分类模块、文本规整模块、字音转换模块、语料设计模块、分词模块、韵律结构预测模块和语音数据库标注模块。
8.根据权利要求1或6所述的一种soe信息的智能监控方法,其特征在于,步骤s4中所述多语种混合建模和迁移学习包括以下步骤:s44:对语音中的不同属性信息进行听感量化编码,并引入残差编码描述发音人在录制语音数据时由于不同状态下发音上的变化信息;s45:对听感量化编码和声学参数的联合分布进行声学模型建模,对语音的声学参数进行预测。9.根据权利要求8所述的一种soe信息的智能监控方法,其特征在于,所述对听感量化编码和声学参数的联合分布进行声学模型建模如下所示:p(x,λ
s
,λ
l
,λ
e
,λ
r
|c)=p(λ
s
)p(λ
l
)p(λ
r
)p(λ
e
|c,λ
l
,λ
s
)式中,x为声学参数,c为对应的文本,λ
s
为说话人编码,λ
l
为语种编码,λ
e
为情感风格编码,λ
r
为残差编码。10.根据权利要求1所述的一种soe信息的智能监控方法,其特征在于,步骤s4中所述构建语音生成模型包括以下步骤:s46:通过声学模型预测出频谱包络;s47:对频谱包络的整体结构进行建模,对频谱包络的局部细节进行建模;s48:生成对抗网络的高质量语音生成模型,通过模型恢复频谱包络中的精细结构,生成语音。
技术总结
本发明公开了一种SOE信息的智能监控方法,为了解决无法实现SOE信息的智能监控、诊断和预警的问题,包括以下步骤:S1:采集故障自诊断图像和文字信息;S2:图文识别,包括图像预处理、文字检测、文本识别;S3:通过识别后的信息实现故障自诊断,将识别后的信息进行全语种语义建模;S4:通过全语种语义建模构建发音体系,通过多语种混合建模和迁移学习,构建语音生成模型。本发明的有益效果是:基于图像和文字信息采集、文本识别等技术,实现SOE信息的智能监控、诊断和预警;实现重合失败、重合成功、跳闸未重合、接地故障等四类状态的自诊断;通过语音合成技术,将重要信息通过语音模型播报,确保重要信息无遗漏。保重要信息无遗漏。保重要信息无遗漏。
技术研发人员:陈超 方景辉 沈红峰 丁磊明 姚强 龚利武 潘白浪 张健 张炜 吴军 徐光年 郭艳东 胡郁 吴佳 顾一星 朱晓晨 江波 黄悦华 孙舒柳
受保护的技术使用者:平湖市通用电气安装有限公司 浙江华云信息科技有限公司 国网浙江省电力有限公司嘉兴供电公司
技术研发日:2021.11.11
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-7847.html