一种基于背景漂白校正的文档扫描OCR识别方法及存储介质与流程

专利查询2025-11-11 31

本发明主要涉及到光学字符识别，特指一种基于背景漂白校正的文档扫描ocr识别方法及存储介质。

背景技术：

1、光学字符识别技术ocr(optical character recognition)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

2、从扫描台上获取的文档扫描图像为rgb图像，图像的文档区域记录了需要识别的文字信息，但往往会存在光照不均匀，有阴影等问题，这会降低文字识别的准确率，同时，图像的非文档区域没有文字信息且往往是黑色，像素值接近于0，在文档漂白过程中容易发生颜色变化，对后续的文字识别造成干扰。

技术实现思路

1、本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种原理简单、适用范围广、识别精度高的基于背景漂白校正的文档扫描ocr识别方法及存储介质。

2、为解决上述技术问题，本发明采用以下技术方案：

3、一种基于背景漂白校正的文档扫描ocr识别方法，其包括：

4、步骤s1：获取图像数据；获取文档扫描rgb图像；

5、步骤s2：图像数据处理，对图像数据进行处理和修正；

6、步骤s3：图像文本区域检测；将图像数据输入文本检测网络进行文本检测；

7、步骤s4：图像ocr识别；对检测到的文本区域进行识别，识别出文档扫描图像的文本信息。

8、作为本发明方法的进一步改进：所述步骤s2中包括图像保留对比度去色，使用保留对比度去色的方法，将rgb图像转换为灰度图像。

9、作为本发明方法的进一步改进：在进行图像保留对比度去色时，使用保留对比度去色方法对获取的rgb图像进行去色，得到灰度图像g(x,y)，(x,y)表示的是像素位置信息。

10、作为本发明方法的进一步改进：所述步骤s2中包括图像二值化，对获取的灰度图像进行二值化，得到二值化图像；所述图像二值化的公式如下：

11、

12、上述公式中，g(x,y)是灰度图像像素值，取值范围为0到1。e(x,y)为二值化之后获得的图像。

13、作为本发明方法的进一步改进：所述步骤s2中包括图像形态学填充，使用形态学填充方法对二值化图像进行填充，得到填充后图像。

14、作为本发明方法的进一步改进：所述步骤s2中包括图像高斯滤波，对获取的rgb图像进行高斯滤波，得到滤波后的图像。

15、作为本发明方法的进一步改进：所述高斯滤波方法的公式如下：

16、

17、

18、上述公式中，表示卷积运算，g(x,y)表示高斯模板函数，l(x,y)表示rgb图像三通道值中r(x,y)、g(x,y)与b(x,y)的任一通道值，t(x,y)为对应通道值的滤波输出图像，σ为高斯模板函数的标准差。

19、作为本发明方法的进一步改进：所述步骤s2中包括图像颜色划分和图像背景修正，所述图像颜色划分是使用颜色划分公式，以rgb原图为基色，以滤波后的图像为混合色，进行颜色划分，得到划分后的图像；所述图像背景修正是以填充后的图像为依据对划分后的图像文档外区域像素进行修正。

20、作为本发明方法的进一步改进：在进行图像背景修复时，公式如下：

21、

22、上述公式中，f(x,y)表示填充后的图像，c(x,y)为颜色划分后的输出rgb图像三通道值之一，q(x,y)为对应的背景修复后的图像三通道值之一。

23、作为本发明方法的进一步改进：所述步骤s3中，在进行图像文本区域检测时，对背景修复后的rgb格式图像，使用以resnet50为骨干网络的dbnet++神经网络或以以resnet50为骨干网络的east网络模型进行文本检测。

24、作为本发明方法的进一步改进：所述步骤s4中，所述图像ocr识别是对检测到的文本区域进行文字识别，使用以resnet34_vd为骨干网络的crnn网络模型或resnet45为骨干网络的abinet网络模型。

25、本发明进一步提供一种存储介质，所述存储介质中存储有用来实施上述任意一项方法的计算机程序。

26、与现有技术相比，本发明的优点就在于：

27、1、本发明基于背景漂白校正的文档扫描ocr识别方法及存储介质，原理简单、适用范围广、识别精度高，通过使用基于颜色划分的方法对图像的文档区域背景进行漂白，减弱文档区域的光照不均匀和阴影问题对文字识别的影响，提高文字信息的对比度，从而提高后续的识别准确率。

28、2、本发明基于背景漂白校正的文档扫描ocr识别方法及存储介质，进一步使用基于形态学填充的方法将图像的非文档区域与文档区域区分开，减少没有文字信息的非文档区域对识别过程的干扰。本发明进一步将漂白校正后的图像接入dbnet++文本检测网络与crnn文本识别网络，可以将文档扫描图像中存在的文本信息有效检出并识别，从而完成文档扫描图像信息的电子录入。

技术特征：

1.一种基于背景漂白校正的文档扫描ocr识别方法，其特征在于，包括：

2.根据权利要求1所述的基于背景漂白校正的文档扫描ocr识别方法，其特征在于，所述步骤s2中包括图像保留对比度去色，使用保留对比度去色的方法，将rgb图像转换为灰度图像。

3.根据权利要求2所述的基于背景漂白校正的文档扫描ocr识别方法，其特征在于，在进行图像保留对比度去色时，使用保留对比度去色方法对获取的rgb图像进行去色，得到灰度图像g(x,y)，(x,y)表示的是像素位置信息。

4.根据权利要求2所述的基于背景漂白校正的文档扫描ocr识别方法，其特征在于，所述步骤s2中包括图像二值化，对获取的灰度图像进行二值化，得到二值化图像；所述图像二值化的公式如下：

5.根据权利要求4所述的基于背景漂白校正的文档扫描ocr识别方法，其特征在于，所述步骤s2中包括图像形态学填充，使用形态学填充方法对二值化图像进行填充，得到填充后图像。

6.根据权利要求1-5中任意一项所述的基于背景漂白校正的文档扫描ocr识别方法，其特征在于，所述步骤s2中包括图像高斯滤波，对获取的rgb图像进行高斯滤波，得到滤波后的图像。

7.根据权利要求6所述的基于背景漂白校正的文档扫描ocr识别方法，其特征在于，所述高斯滤波方法的公式如下：

8.根据权利要求1-5中任意一项所述的基于背景漂白校正的文档扫描ocr识别方法，其特征在于，所述步骤s2中包括图像颜色划分和图像背景修正，所述图像颜色划分是使用颜色划分公式，以rgb原图为基色，以滤波后的图像为混合色，进行颜色划分，得到划分后的图像；所述图像背景修正是以填充后的图像为依据对划分后的图像文档外区域像素进行修正。

9.根据权利要求8所述的基于背景漂白校正的文档扫描ocr识别方法，其特征在于，在进行图像背景修复时，公式如下：

10.根据权利要求1-5中任意一项所述的基于背景漂白校正的文档扫描ocr识别方法，其特征在于，所述步骤s3中，在进行图像文本区域检测时，对背景修复后的rgb格式图像，使用以resnet50为骨干网络的dbnet++神经网络或以以resnet50为骨干网络的east网络模型进行文本检测。

11.根据权利要求1-5中任意一项所述的基于背景漂白校正的文档扫描ocr识别方法，其特征在于，所述步骤s4中，所述图像ocr识别是对检测到的文本区域进行文字识别，使用以resnet34_vd为骨干网络的crnn网络模型或resnet45为骨干网络的abinet网络模型。

12.一种存储介质，其特征在于，所述存储介质中存储有用来实施上述权利要求1-11中任意一项方法的计算机程序。

技术总结
本发明公开了一种基于背景漂白校正的文档扫描OCR识别方法及存储介质，该方法包括：步骤S1：获取图像数据；获取文档扫描RGB图像；步骤S2：图像数据处理，对图像数据进行处理和修正；步骤S3：图像文本区域检测；将图像数据输入文本检测网络进行文本检测；步骤S4：图像OCR识别；对检测到的文本区域进行识别，识别出文档扫描图像的文本信息。该存储介质中存储有用来实施上述方法的计算机程序。本发明具有原理简单、适用范围广、识别精度高等优点。

技术研发人员：田野,袁小军,刘昕武,张慧源,黎孟,彭联贴,崔宵洋,董文波,颜家云,李晨
受保护的技术使用者：株洲中车时代电气股份有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-31890.html

专利

最新回复(0)