一种图像角度的识别方法、装置、设备、存储介质和产品与流程

专利查询2025-04-17 29

本说明书实施例涉及图像处理领域，特别地，涉及一种图像角度的识别方法、装置、设备、存储介质和产品。

背景技术：

1、目前，ocr技术广泛应用，大量需要手工录入的纸质文档逐渐被自动化流程取代，改为由用户或其它工作人员对文档扫描或拍照后上传进ocr系统。但是，由于拍摄角度的问题，导致传入的图像比起标准图像可能存在较大角度(90度，180度，270度)的偏差，如果直接处理可能会导致后续步骤中ocr模块无法识别正确的文本内容。

2、为解决大角度偏差的问题，现有技术中一般采用人工识别后调整，将大角度的偏差的图像进行人工识别调整后，再通过机器进行进一步的微调得到标准图像，但对于海量的图像来说，人工进行图像角度的识别又费时费力。

3、因此，现在亟需一种图像角度的识别方法，能够通过机器进行图像角度的识别，以方便后续对大角度偏差进行调整，减少人工成本，提高处理效率。

技术实现思路

1、本说明书实施例的目的在于提供一种图像角度的识别方法、装置、设备、存储介质和产品，以方便后续对大角度偏差进行调整，减少人工成本，提高处理效率。

2、为达到上述目的，一方面，本说明书实施例提供了一种图像角度的识别方法，包括：

3、将待识别图像输入骨干网络模块进行特征提取，输出图像特征；

4、将所述图像特征输入多尺度融合模块，输出基于不同特征尺度融合后的融合图像特征；

5、将所述融合图像特征输入多注意力模块，从多个不同注意力层次对所述融合图像特征进行处理，输出综合图像特征；

6、将所述综合图像特征进行分块，得到多个不同分块的分块图像特征；

7、基于每一分块的分块图像特征和重要性，计算不同预设角度的预测概率值；

8、根据所述不同预设角度的预测概率值，得到所述待识别图像的预测角度。

9、优选的，所述多尺度融合模块由多尺度特征融合模块和通道注意力模块组合得到，其中所述多尺度特征融合模块用于提取图像特征中不同尺度的特征，所述通道注意力模块用于学习不同尺度的特征的权重。

10、优选的，所述将所述图像特征输入多尺度融合模块，输出基于不同特征尺度融合后的融合图像特征进一步包括：

11、所述多尺度特征融合模块设置大小不同的空洞率；

12、所述多尺度特征融合模块基于所述空洞率对所述图像特征进行提取，得到位于图像特征中的不同尺度的特征；

13、所述多尺度特征融合模块将所述不同尺度的特征拼接至多个通道；

14、所述通道注意力模块对多个通道赋权重，基于所述权重对多个通道进行加权计算，得到与所述图像特征尺度相同的融合图像特征。

15、优选的，所述多注意力模块由两个并行的分支模块组成，其中一个分支模块由通道注意力子模块和空间注意力子模块串行组成，其中另一个分支模块由坐标注意力子模块组成。

16、优选的，所述将所述融合图像特征输入多注意力模块，从多个不同注意力层次对所述融合图像特征进行处理，输出综合图像特征进一步包括：

17、将所述融合图像特征同时输入由通道注意力子模块和空间注意力子模块组成的分支模块，由坐标注意力子模块组成的分支模块；

18、所述通道注意力子模块对所述融合图像特征进行处理，输出通道的注意力权重，根据通道的注意力权重对所述融合图像特征进行逐元素乘法计算，输出通道注意力图像特征；

19、所述空间注意力子模块对所述通道注意力图像特征进行处理，输出空间的注意力权重；

20、所述坐标注意力子模块对所述融合图像特征进行处理，输出高度方向的坐标注意力权重和宽度方向的坐标注意力权重；

21、根据所述空间的注意力权重、高度方向的坐标注意力权重和宽度方向的坐标注意力权重对所述融合图像特征进行逐元素乘法计算，输出综合图像特征。

22、优选的，所述基于每一分块的分块图像特征和重要性，计算不同预设角度的预测概率值进一步包括：

23、将每一分块的分块图像特征输入至训练好的角度预测模块，输出每一分块的分块图像特征对应不同预设角度的角度概率值；

24、将所述空间的注意力权重进行平均池化处理后，得到每一分块的分块权重，以表征每一分块的重要性；

25、根据所述每一分块的分块图像特征对应不同预设角度的角度概率值和每一分块的分块权重，加权计算得到不同预设角度的预测概率值。

26、优选的，所述角度预测模块在训练过程中的损失函数为：

27、

28、其中，loss为损失值，n为分块的数目，aj为第j个分块的分块权重，m为预设角度的数目，yi为待识别图像的实际角度，为第j个分块的分块图像特征对应第i个预设角度的角度概率值。

29、另一方面，本说明书实施例提供了一种图像角度的识别装置，所述装置包括：

30、特征提取模块，用于将待识别图像输入骨干网络模块进行特征提取，输出图像特征；

31、特征融合模块，用于将所述图像特征输入多尺度融合模块，输出基于不同特征尺度融合后的融合图像特征；

32、多注意力模块，用于将所述融合图像特征输入多注意力模块，从多个不同注意力层次对所述融合图像特征进行处理，输出综合图像特征；

33、分块模块，用于将所述综合图像特征进行分块，得到多个不同分块的分块图像特征；

34、计算模块，用于基于每一分块的分块图像特征和重要性，计算不同预设角度的预测概率值；

35、识别模块，用于根据所述不同预设角度的预测概率值，得到所述待识别图像的预测角度。

36、又一方面，本说明书实施例还提供了一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时，执行根据上述任意一项所述方法的指令。

37、又一方面，本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被计算机设备的处理器运行时，执行根据上述任意一项所述方法的指令。

38、又一方面，本说明书实施例还提供了一种计算机程序产品，所述计算机程序产品被计算机设备的处理器运行时，执行上述任意一项所述方法的指令。

39、由以上本说明书实施例提供的技术方案可见，本说明书实施例通过设置骨干网络模块、多尺度融合模块和多注意力模块后，采用各分块投票的方式，如此即使遇到了单分块预测错误的情况，如果其它分块预测准确，最终结果也将不受影响，只有在所有分块的结果均不准确时才会出错，因此可以降低图像的预测角度错误率，以方便后续对大角度偏差进行调整，减少人工成本，提高处理效率。

40、为让本说明书的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

技术特征：

1.一种图像角度的识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述多尺度融合模块由多尺度特征融合模块和通道注意力模块组合得到，其中所述多尺度特征融合模块用于提取图像特征中不同尺度的特征，所述通道注意力模块用于学习不同尺度的特征的权重。

3.根据权利要求2所述的方法，其特征在于，所述将所述图像特征输入多尺度融合模块，输出基于不同特征尺度融合后的融合图像特征进一步包括：

4.根据权利要求1所述的方法，其特征在于，所述多注意力模块由两个并行的分支模块组成，其中一个分支模块由通道注意力子模块和空间注意力子模块串行组成，其中另一个分支模块由坐标注意力子模块组成。

5.根据权利要求4所述的方法，其特征在于，所述将所述融合图像特征输入多注意力模块，从多个不同注意力层次对所述融合图像特征进行处理，输出综合图像特征进一步包括：

6.根据权利要求5所述的方法，其特征在于，所述基于每一分块的分块图像特征和重要性，计算不同预设角度的预测概率值进一步包括：

7.根据权利要求6所述的方法，其特征在于，所述角度预测模块在训练过程中的损失函数为：

8.一种图像角度的识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器、以及存储在所述存储器上的计算机程序，其特征在于，所述计算机程序被所述处理器运行时，执行根据权利要求1-7任意一项所述方法的指令。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机设备的处理器运行时，执行根据权利要求1-7任意一项所述方法的指令。

11.一种计算机程序产品，其特征在于，所述计算机程序产品被计算机设备的处理器运行时，执行根据权利要求1-7任意一项所述方法的指令。

技术总结
本说明书实施例提供了一种图像角度的识别方法、装置、设备、存储介质和产品，其中方法包括：将待识别图像输入骨干网络模块进行特征提取，输出图像特征；将所述图像特征输入多尺度融合模块，输出基于不同特征尺度融合后的融合图像特征；将所述融合图像特征输入多注意力模块，从多个不同注意力层次对所述融合图像特征进行处理，输出综合图像特征；将所述综合图像特征进行分块，得到多个不同分块的分块图像特征；基于所述每一分块的分块图像特征和重要性，计算不同预设角度的预测概率值；根据所述不同预设角度的预测概率值，得到所述待识别图像的预测角度。本说明书实施例能够方便后续对大角度偏差进行调整，减少人工成本，提高处理效率。

技术研发人员：武安楠,季鹏,刘建骐,李沛霖,魏大为,孙现超,孟宁吉
受保护的技术使用者：中信银行股份有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-27635.html

专利

最新回复(0)