一种离线手写化学反应式图像识别技术的制作方法

    专利查询2022-07-08  140



    1.本发明涉及电子信息技术领域,特别涉及一种离线手写化学反应式图像识别技术。


    背景技术:

    2.随着电子信息化在教育领域的普及,化学研究及在线教育领域中,离线手写化学反应式的识别需求变得越加旺盛。而在手写复杂化学反应式识别的相关领域,目前主要采用的是连接时间分类技术,包含cnn(卷积神经网络) rnn(循环神经网络) ctc算法,其中卷积神经网络负责提取图像的特性信息,形成特征矩阵;循环神经网络负责利用卷积神经网络提取的特征输出文字及符合。而ctc算法是一种损失函数计算方法,用ctc算法代替softmax损失函数能解决训练过程中样本与标签需要严格对齐的问题。但随着注意力机制下的神经网络出现,ctc网络的问题也逐渐暴露出来。相较于注意力网络,由于化学反应式存在角标,反应条件等空间结构,ctc网络存在模型识别准确度不高,模型复杂导致训练时间长,鲁棒性差等问题,导致该模型一直不能在实际环境中成功应用。


    技术实现要素:

    3.本发明要解决的技术问题是克服现有技术的缺陷,提供一种离线手写化学反应式图像识别技术,针对复杂的离线手写化学反应式识别问题,提出一种有效的识别手段,具有较高的准确率和较好的鲁棒性。
    4.本发明提供了如下的技术方案:
    5.本发明提供一种离线手写化学反应式图像识别技术,包括以下步骤:
    6.s1:将离线图像进行统一预处理,确保其在处理完成后有固定的大小及通道;
    7.s2:使用图像编码模块,对s1处理后的图像进行特征提取,生成图像特征矩阵;
    8.s3:使用解耦图像注意力生成模块,以s2图像特征矩阵为输入,通过卷积神经网络,生成对应的注意力特征;
    9.s4:将s2中的图像特征矩阵和s3中的注意力特征相结合,产生包含不同注意力的图像特征向量;相当于给不同的图像特征分配对应的重要性;
    10.s5:使用解耦特征解码模块,此模块以循环神经网络为基础,结合计划采样技术,将s4中包含不同注意力的图像特征和上一个时间步的输出相结合作为输入,经过rnn循环神经网络和全链接网络,得到每个序列位字符输出,最后得到整个序列输出。
    11.作为本发明的一种优选技术方案,步骤s1,包含:
    12.s1.1:使用卷积神经网络,扫描原始离线图像,得到包含图像信息的特征矩阵。
    13.作为本发明的一种优选技术方案,步骤s2,包含:
    14.s2.1:将步骤s1.1中得到的特征矩阵送入注意力特征提取模块,通过卷积和逆卷积操作得到相应的注意力矩阵。
    15.作为本发明的一种优选技术方案,步骤s3,包含:
    16.s3.1:分别将s1.1和s2.1步骤中得到的图像特征矩阵和注意力矩阵进行内积求和,得到具有不同注意力的图像特征中间向量;
    17.s3.2:利用计划采样技术,以一个不断衰减的概率值,选取循环神经网络上一个时间步的输出或者真实标签值中的一个进行编码,并与s3.1中的中间向量一起作为当前时间步的输入,更新循环神经网络中的隐藏态向量;
    18.s3.3:将s3.2中的隐藏态向量经过全连接神经网络,输出每个字符的概率值,选取概率最大的作为当前字符输出;
    19.s3.4:将所有字符输出连接,作为最终化学方程式识别结果。
    20.与现有技术相比,本发明的有益效果如下:
    21.与现有技术相比,本发明可以对复杂的手写化学式直接进行识别,而传统的网络结构需要预先对字符进行分割再识别。同时,本发明对手写文本中常出现的粘连,变形,字体多样等问题也有较高的识别准确率,对化学反应式中存在的空间角标和特殊符号也有良好的识别能力。
    22.本发明应用了注意力机制,通过给图像特征分配不同的权重,增强了网络结构在当前识别过程中的语义信息,提升了识别准确率。然而,传统的注意力框架中,注意力的产生是基于当前输入特征与解码单元的历史输出特征的相似度计算,也就是说,一旦解码单元的历史输出出现错误,当前特征的权重计算也会出错,造成不可避免的链式误差累积出现;
    23.本发明网络结构中,采用了解耦注意力机制,通过断开上一个时间步的输出信息和注意力特征计算过程之间的耦合关系,取而代之地使用注意力特征提取模块,只使用图像特征作为输入,生成注意力矩阵,这样即使当前rnn时间步中输出错误,也不会影响注意力矩阵的计算,更不会影响下一个字符预测过程;
    24.再者,循环神经网络前一个时间步的输出需要作为下一个时间步的输入,并一直循环直到文本行全部识别完成。这就导致会出现当前字符识别错误,并作为输入到下一个时间步,造成后续时间步输出全错,再次形成误差累积的现象。在本发明网络中,通过采用计划采样技术,在训练中,rnn模块当前时间步按照一定概率选择上一个时间步的输出作为输入或当前时刻对应的真实值(即标签),让网络能在训练过程中,学习到上一个时间步输出错误情况下的纠错能力。既能加快训练速度,也能提高训练精度;
    25.最后,本发明将残差网络结构,循环神经网络结构,注意力机制和计划采样技术相结合,应用到化学反应式序列的识别过程,利用卷积模块对原始图像进行特征提取,不需要对文字区域做复杂的图像处理和人工特征提取,只需要将图像缩放到固定大小并进行灰度归一化。将特征提取、识别过程统一到整个网络框架中,真正实现了对离线手写化学反应式的端对端识别,同时相较于先前crnn ctc的网络结构,具有网络参数小,训练时间短,识别准确率和稳定性高的优点。
    附图说明
    26.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
    27.图1是本发明的网络总结构图;
    28.图2是本发明的图像特征提取模块参数图;
    29.图3是本发明的注意力特征提取模块图;
    30.图4是本发明的文本特征解码模块图。
    具体实施方式
    31.以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。
    32.实施例1
    33.如图1-4,本发明实施例提供的基于解耦注意力和计划采样技术相结合的离线手写化学反应式的识别方法,将化学反应式的识别看成是一个文本序列识别问题,因此采用cnn卷积神经网络对图像进行特征提取,采用rnn循环神经网络对文本序列中上下文语义进行提取,并结合注意力机制,给图像特征分配不同的权重系数,提升识别准确率。具体实施时,为表达化学反应式中存在的具有空间关系的角标,及其他表达反应式条件的特殊符号,本发明采用一些其他的常用符号进行表示,如:“h
    2”中存在下角标表示为“h
    _2”;反应条件符表示为“~”;下沉物符
    “↓”
    表示为“!”等等。
    34.图1是网络的总流程图,如图所示,共包含三个模块:图像特征提取模块,注意力特征提取模块,文本特征解码模块。分别对应于图像特征提取,特征注意力权重分配和基于特征的序列识别。具体步骤如下:
    35.s1:输入训练集中的化学反应式图片,将图片转化为单通道,其大小为(w,h,1)
    36.s2:将输入图片进行等比例缩放,确保其长度小于2048,或者宽度小于192。再对缩放后的空白区域填充底色,确保所有图片大小均为(192,2048,1)。
    37.s3:将图片分为训练样本和测试样本随机拆分为两部分,两部分样本均要标注对应标签值。
    38.s4:将训练样本图片输入到cnn卷积模块进行编码,模块结构如图2所示。整个网络基于残差块构建而成,一共48层,相较于流行的resnet50,当前网络经实验证明,在识别精度上没有明显区别,但具有网络结构简单,参数小,网络收敛速度快的优点。网络输入输出大小固定,输入为s2中处理后的单通道图像,大小为(192,2048,1)输出为网络提取的图像特征矩阵,大小为(3,128,512),其中(3,128)为特征矩阵大小,512为通道数。
    39.s4:将s3中提取的图像特征送入注意力特征提取模块,模块结构如图3所示。该模块除最后一层应用sigmoid激活函数的上采用逆卷积层外,其他层为对称网络结构。前半段网络中,通过带relu激活函数的正卷积层对输入特征再次进行特征提取,后半段网络中,将前一层输出和前半段网络相同大小的输出结合后作为当前输入进行逆卷积操作。最后通过应用sigmoid激活函数的上采用逆卷积层得到最终的注意力矩阵。该注意力矩阵大小为(3,128,maxt),其中maxt指当前输入图像标签中文本的长度,也即是rnn模块中最大时间步的步长。
    40.s5:将s3中得到的图像特征矩阵和s4中得到的注意力矩阵相结合,具体结合方式如下:
    [0041][0042]
    其中,c
    t
    中“t”表示rnn中第几个时间步,也表示为识别文本中第t个字符的注意力权重。a
    t,x,y
    表示s4中的注意力矩阵,f
    x,y
    表示s3中得到的图像特征矩阵。
    [0043]
    s6:将s5中得到的具有不同权重的图像特征信息送入rnn循环神经网络单元,具体的,本发明采用gru(gate recurrent unit,门循环单元)作为特征解码器,相较于传统rnn结构,gru能够有效解决rnn中存在的梯度消失和梯度爆炸的现象,从而能保存更多,间隔更长的上下文语义信息。而相较于lstm(long-short termmemory,长短期记忆单元),gru具有结构简单,收敛速度快的优势。
    [0044]
    具体的,如图4所示,输入gru单元的信息一共有两个,一是gru单元上一个时间步的输出或者真实标签进行再编码,表示为“e
    t-1”,本发明中,因为面对的字符类别为固定数量的英文字符和特殊符号,数量不多,因此采用one-hot编码技术,对上一个时间步输出的字符进行编码。另一个输入是s5中得到的具有不同注意力的图像特征,表示为“c
    t”。
    [0045]
    具体的,针对当前步骤中,gru单元上一个时间步的输出和真实标签进行选择的问题,本发明中采用了计划采样的技术。传统rnn循环神经网络结构中,由于都是采用上一个时间步的输出作为当前时间步的输入,所以一旦先前的时间步输出错误,其后的时间步单元输入也会错误,造成后续所有单元全都错误的现象。为了增强网络的鲁棒性,在训练阶段学习到在上一个时间步输出错误情况下,当前时间步的纠错能力。本发明中,采用计划采样的技术,在训练阶段,以一个不断衰减的概率值“ε”,选取真实标签值,以“1-ε”概率值选取上一个时间步的输出进行编码,作为下一个时间步的部分输入。以加强网络的鲁棒性,消除部分误差累积的现象。本发明中“ε”选取线性下降衰减函数,如下:
    [0046]
    εi=max(∈,k-ci)
    [0047]
    其中,∈是一个介于0-1之间的值,表示选择真实标签的最小概率值,k表示截距,c表示函数下降速率,i表示模型的迭代数。
    [0048]
    s7:将s6中gru单元是隐藏态向量输入全连接神经网络,通过softmax函数输出每个字符的预测概率,所输出的模型预测概率为:
    [0049][0050]
    其中,pk表示当前分类类别k的输出概率,n表示总类别数,本发明中,n为所有大小写英文字符及特殊符号的类别数。exp(*)表示对括号内元素求指数,表示所有分类类别通过全连接网络输出得分的指数值的总和。
    [0051]
    得到当前输入字符的模型预测softmax概率后,选取概率值最大的作为当前输入字符的最佳输出。最后通过损失函数计算模型预测的准确性,并将结果通过反向传播算法反馈给前面的网络层,更新网络单元的权值参数。
    [0052]
    具体的,本发明使用的网络中使用对数损失函数(log_loss)作为衡量真实结果与预测结果之间距离的依据。其数学表达如下:
    [0053][0054]
    其中,θ表示所有的网络可训练参数,g
    t
    表示真实标签,t表示当前文本中字符数量,i表示给定的当前输入特征。因为对数损失函数是可微的,可以使用梯度下降法来使其收敛。损失值越小,表明预测序列越接近真实序列。具体训练过程中,可使用adma梯度法不断调整各个神经元的权值和偏置,使得损失函数快速收敛,达到最小值。
    [0055]
    s8:所有训练样本训练完成后,输入测试集样本,计算平均识别准确率,重复步骤s1-s7,不断反复训练及测试验证,直到识别率达到要求,当测试样本准确率稳定后,保存当前模型参数及设置,完成模型构建。
    [0056]
    在本实施例中,作为一种较优的实施方式,步骤s6中选取的线性下降衰减函数,在其他实施例中,也可以根据实际应用需求,采用其他衰减函数。
    [0057]
    进一步的,本发明主要使用基于解耦注意力机制和计划采样技术相结合的框架对离线手写化学式进行文本识别,其技术要点主要有如下两点:
    [0058]
    1.在离线手写化学反应式的识别方案中,应用了注意力机制,使模型不仅考虑到原图像信息,还将不同的图像特征赋予不同的权重,相当于给模型引入了额外的解码信息,提升了模型的识别准确率及稳定性。同时,面对注意力机制网络中固有的误差累积现象,又加入解耦注意力模块和计划采样技术,断开注意力向量与历史解码信息之间的依赖关系,并采用衰减概率来获取真实标签或者上一个解码单元输出,作为下一个解码单元的输入,以此增强网络对误差累积现象的对抗能力。这是本发明在离线手写化学反应式识别方案中有别于其他发明的核心,也是本发明识别效果优于其他发明的根本所在。
    [0059]
    本发明是一种离线端对端的文本识别方案,能准确识别化学反应式中存在的具有空间信息的上下角标和反应条件符,是其它类似发明所不具备的。
    [0060]
    最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
    转载请注明原文地址:https://tc.8miu.com/read-2664.html

    最新回复(0)