1.本发明涉及教育技术领域,具体来说,涉及一种试卷倒置识别方法、装置及介质。
背景技术:
2.随着智能阅卷系统的发展,试卷识别显得越来越重要。在智能阅卷时,一般需要先把纸质答题卡或者试卷扫描为电子件后输入只能阅卷系统。扫描试卷时,由于是人为操作,答题卡或试卷不一定按页码顺序排放置,有时还出现上下颠倒放置的现象,使智能阅卷系统无法正确识别扫描电子件。
3.cn 109145894 a公开了一种基于mark点的试卷识别方法需要提前在目标试卷页面设置识别标记,从而对标记进行识别,判断试卷正反,但是存在如下缺点:
4.1)试卷需要打上识别标记,从而试卷需要定制,应用范围受限。2)识别标记容易干扰正常出卷或者在卷面上容易被涂改覆盖,导致识别错误。
5.本文提供的背景描述用于总体上呈现本公开的上下文的目的。除非本文另外指示,在该章节中描述的资料不是该申请的权利要求的现有技术并且不要通过包括在该章节内来承认其成为现有技术。
技术实现要素:
6.针对相关技术中的上述技术问题,本发明提出一种试卷倒置识别方法,其包括如下步骤:
7.s1,对待识别目标进行识别获取所述待识别目标中的文本信息,所述文本信息为:文字、词或/和句子以及对应的坐标信息;
8.s2,获取所述文本信息中的至少两个文本片段word1,word2,所述文本片段包括文本及文本对应的坐标数据信息;
9.s3,根据所述至少两个文本片段,在数据仓库中获取对应所述至少两个文本片段的第二文本信息yword1、yword2;
10.s4、判断所述文本片段word1、word2的位置关系,是否和第二文本信息yword1、yword2的位置关系相同,如果相同,在试卷没有倒置,如果不同,则试卷倒置。
11.具体的,所述步骤s2还包括:
12.所述文本片段word1、word2,判断所述文本片段word1、word2在当前页面中所述文本片段word1、word2是否只出现一次,若出现次数大于一次,则将所述文本片段word1、word2删除。
13.具体的,所述步骤s2还包括:
14.判断所述文本片段word1、word2是否存在上下关系,若不存在上下关系,则将所述文本片段word1、word2删除。
15.具体的,所述步骤s2还包括:
16.判断所述文本片段word1、word2的文字个数是否超过一预设阈值,若未超过,则将
所述文本片段word1、word2删除。
17.具体的,还包括步骤s5,若试卷倒置,则对所试卷进行矫正。
18.第二方面,本发明另一个实施例公开了一种试卷倒置识别装置,其包括如下单元:
19.文本信息获取单元,用于对待识别目标进行识别获取所述待识别目标中的文本信息,所述文本信息为:文字、词或/和句子以及对应的坐标信息;
20.文本片段获取单元,用于获取所述文本信息中的至少两个文本片段word1,word2,所述文本片段包括文本及文本对应的坐标数据信息;
21.第二文本信息获取单元,用于根据所述至少两个文本片段,在数据仓库中获取对应所述至少两个文本片段的第二文本信息yword1、yword2;
22.试卷倒置判断单元,用于判断所述文本片段word1、word2的位置关系,是否和第二文本信息yword1、yword2的位置关系相同,如果相同,在试卷没有倒置,如果不同,则试卷倒置。
23.具体的,所述文本片段获取单元还包括:
24.所述文本片段word1、word2,判断所述文本片段word1、word2在当前页面中所述文本片段word1、word2是否只出现一次,若出现次数大于一次,则将所述文本片段word1、word2删除。
25.具体的,所述文本片段获取单元还包括:
26.判断所述文本片段word1、word2是否存在上下关系,若不存在上下关系,则将所述文本片段word1、word2删除。
27.具体的,所述文本片段获取单元还包括::
28.判断所述文本片段word1、word2的文字个数是否超过一预设阈值,若未超过,则将所述文本片段word1、word2删除。
29.第三方面,本发明的另一个实施例公开了一种非易失性存储器,所述非易失性存储器存储有指令,所述指令在被处理器执行时,用于实现上述的试卷倒置识别方法。
30.本发明根据试卷中的两个文本的位置关系和在数据仓库中预先存储的对应试卷中的两个文本的位置关系是否相同来判断试卷是否倒置,本发明的试卷倒置识别方法,不需要在试卷中设置特殊的标记。此外,在选择文本时,本发明还预先对选择的文本的位置关系进行初步判断,以提高判断的准确性。
附图说明
31.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1是本发明实施例提供的一种试卷倒置识别方法的流程图;
33.图2是本发明实施例提供的文本片段示意图;
34.图3是本发明实施例提供的一种试卷倒置识别装置示意图;
35.图4是本发明实施例提供的一种试卷倒置识别设备示意图。
具体实施方式
36.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
37.实施例一
38.参考图1,本实施例公开一种试卷倒置识别方法,其包括如下步骤:
39.s1,对待识别目标进行识别获取所述待识别目标中的文本信息,所述文本信息为:文字、词或/和句子以及对应的坐标信息;
40.本实施例的待识别目标为纸质试卷。本实施例对待识别目标进行图像采集,所述采集方式不做限制,可以为带摄像头的电子设备,如平板、手机等,亦或者是高拍仪、扫描仪等设备。
41.本实施例可以使用图像采集设备采集纸质试卷以获取试卷图像数据。然后在对采集的试卷图像数据进行ocr识别来获取待识别目标中的文本信息。
42.本领域技术人员知晓,ocr识别是本领域中常用的文字识别工具,本实施例使用ocr识别来获取所述试卷中的文本,并进一步的获取所述文本以及文本对应的坐标数据。
43.具体的,对试卷图像进行图像处理以提高ocr识别的准确性。所述行图像处理进一步是指对采集的图像进行包括但不限于图像分割(如一本教材展开后会分成两页,在识别前需要将两页分割成两个单独的页面进行处理)、曲面平整化(书本打开经常是曲面的,需要拉直变平)、矩形矫正(让图像呈矩形形状)、二值化、滤波去噪等处理操作中的一个或其组合构成。
44.对待识别目标进行识别获取待识别目标的文本信息,进一步是指对经过图像处理后的图片进行ocr识别,从而获得该图片中的文本信息,所述文本信息进一步包括ocr文字识别提取的文字,还进一步包括对应文字、词或句子的坐标信息。
45.参考图2,本实施例从试卷中获取第一文本,以及第一文本对应的坐标(x1,y1),第二文本,以及第二文本对应的坐标(x2,y2)。
46.其中第一文本可以是字、词或句子。本领域技术人员知晓,采用字或词时可能存在大量重复的情况,本领域技术人员为了试卷倒置识别的准确性可以才采集句子。但本实施例不限于采集句子,其也可以采集对应的词或者字,只需要保证所述的词以及字实在试卷中唯一即可。
47.s2,获取所述文本信息中的至少两个文本片段word1,word2,所述文本片段包括文本及文本对应的坐标数据信息;
48.具体的,本实施例从识别出的文本信息中获取至少两个文本片段,其中每一个文本片段对应一个文本信息。例如本实施例从文本信息获取第一文本以及第二文本。
49.在获取所述文本片段word1、word2,可进一步判断在当前页面该文本片段中的文字是否只出现一次,有可能一个页面中包含多个文字相同的句子,故而多个文字相同的句子与另一个文字片段的相对位置关系可能并不唯一,有可能为上下关系、也可能为下上关系。若出现次数大于一次,可将该文本片段进行删除,另选出至少两个在当前页面仅出现一次的文本片段进行位置关系确定。
50.优选的,选择文本片段过程中,需进一步确认两个文本片段是否存在上下关系,若两个句子纵坐标相同,则表示在同一行,这是没办法判断是否倒置的,若不存在上下关系,则需要重选出保持上下结构的至少两个文本片段。
51.优选的,选择文本片段过程中,可进一步确认文本片段文字个数阈值,当且仅当文本片段中文字个数大于预设阈值个数的文本片段才有效。选两个字或词的相对位置进行判断,重复率或误差产生的可能性都将更大。
52.s3,根据所述至少两个文本片段,在数据仓库中获取对应所述至少两个文本片段的第二文本信息yword1、yword2;
53.所述数据仓库预先存储有对应的文本片段信息。
54.本实施例的数据仓库预先存储了对应纸质试卷中的所有文本片段,以及文本片段的坐标信息;具体的,可以在选题出卷时,则可以自动获取对应试卷的文本片段,以及文本片段对应的坐标信息;
55.或者在已经录制好数据的试卷库中选出试卷,那么数据在出卷时就自动获取对应试卷的文本片段,以及文本片段对应的坐标信息。
56.对于纸质试卷,可以先对纸质试卷预先进行ocr识别,通过ocr识别获取文本及坐标信息,然后将对应的信息存储到数据仓库中。
57.具体的数据仓库中还存储对应试卷的页码数据、标题数据、试题数据(题号、题干、题目坐标、答案、解析等)、页面数据(页面宽高等)等数据中的一个或其组合构成。
58.具体的,本实施例可以获取待识别目标的标题数据,从而根据标题数据从数据仓库中查找对应的试卷从而提高检索的准确性和速度。
59.s4、判断所述文本片段word1、word2的位置关系,是否和第二文本信息yword1、yword2的位置关系相同,如果相同,在试卷没有倒置,如果不同,则试卷倒置。
60.如果在数据仓库中(正常试卷),文本片段一在文本片段二的上方,那么待识别目标中提取出的文本片段一也应当在文本片段二的上方才为正常图像采集,否则为倒置。
61.进一步的,所述识别方法还包括步骤s5,若试卷倒置,则对所述试卷图像进行矫正处理。
62.此外,对矫正后的图像可进一步进行二次文本识别及校验,确认矫正后的图像为正常矫正。
63.本实施例根据试卷中的两个文本的位置关系和在数据仓库中预先存储的对应试卷中的两个文本的位置关系是否相同来判断试卷是否倒置,本实施例的试卷倒置识别方法,不需要在试卷中设置特殊的标记。此外,在选择文本时,本实施例还预先对选择的文本的位置关系进行初步判断,以提高判断的准确性。
64.实施例二
65.参考图3,本实施例公开了一种试卷倒置识别装置,其包括如下单元:
66.文本信息获取单元,用于对待识别目标进行识别获取所述待识别目标中的文本信息,所述文本信息为:文字、词或/和句子以及对应的坐标信息;
67.本实施例的待识别目标为纸质试卷。本实施例对待识别目标进行图像采集,所述采集方式不做限制,可以为带摄像头的电子设备,如平板、手机等,亦或者是高拍仪、扫描仪等设备。
68.本实施例可以使用图像采集设备采集纸质试卷以获取试卷图像数据。然后在对采集的试卷图像数据进行ocr识别来获取待识别目标中的文本信息。
69.本领域技术人员知晓,ocr识别是本领域中常用的文字识别工具,本实施例使用ocr识别来获取所述试卷中的文本,并进一步的获取所述文本以及文本对应的坐标数据。
70.具体的,对试卷图像进行图像处理以提高ocr识别的准确性。所述行图像处理进一步是指对采集的图像进行包括但不限于图像分割(如一本教材展开后会分成两页,在识别前需要将两页分割成两个单独的页面进行处理)、曲面平整化(书本打开经常是曲面的,需要拉直变平)、矩形矫正(让图像呈矩形形状)、二值化、滤波去噪等处理操作中的一个或其组合构成。
71.对待识别目标进行识别获取待识别目标的文本信息,进一步是指对经过图像处理后的图片进行ocr识别,从而获得该图片中的文本信息,所述文本信息进一步包括ocr文字识别提取的文字,还进一步包括对应文字、词或句子的坐标信息。
72.参考图2,本实施例从试卷中获取第一文本,以及第一文本对应的坐标(x1,y1),第二文本,以及第二文本对应的坐标(x2,y2)。
73.其中第一文本可以是字、词或句子。本领域技术人员知晓,采用字或词时可能存在大量重复的情况,本领域技术人员为了试卷倒置识别的准确性可以才采集句子。但本实施例不限于采集句子,其也可以采集对应的词或者字,只需要保证所述的词以及字实在试卷中唯一即可。
74.文本片段获取单元,用于获取所述文本信息中的至少两个文本片段word1,word2,所述文本片段包括文本及文本对应的坐标数据信息;
75.具体的,本实施例从识别出的文本信息中获取至少两个文本片段,其中每一个文本片段对应一个文本信息。例如本实施例从文本信息获取第一文本以及第二文本。
76.在获取所述文本片段word1、word2,可进一步判断在当前页面该文本片段中的文字是否只出现一次,有可能一个页面中包含多个文字相同的句子,故而多个文字相同的句子与另一个文字片段的相对位置关系可能并不唯一,有可能为上下关系、也可能为下上关系。若出现次数大于一次,可将该文本片段进行删除,另选出至少两个在当前页面仅出现一次的文本片段进行位置关系确定。
77.优选的,选择文本片段过程中,需进一步确认两个文本片段是否存在上下关系,若两个句子纵坐标相同,则表示在同一行,这是没办法判断是否倒置的,若不存在上下关系,则需要重选出保持上下结构的至少两个文本片段。
78.优选的,选择文本片段过程中,可进一步确认文本片段文字个数阈值,当且仅当文本片段中文字个数大于预设阈值个数的文本片段才有效。选两个字或词的相对位置进行判断,重复率或误差产生的可能性都将更大。
79.第二文本信息获取单元,用于根据所述至少两个文本片段,在数据仓库中获取对应所述至少两个文本片段的第二文本信息yword1、yword2;
80.所述数据仓库预先存储有对应的文本片段信息。
81.本实施例的数据仓库预先存储了对应纸质试卷中的所有文本片段,以及文本片段的坐标信息;具体的,可以在选题出卷时,则可以自动获取对应试卷的文本片段,以及文本片段对应的坐标信息;
82.或者在已经录制好数据的试卷库中选出试卷,那么数据在出卷时就自动获取对应试卷的文本片段,以及文本片段对应的坐标信息。
83.对于纸质试卷,可以先对纸质试卷预先进行ocr识别,通过ocr识别获取文本及坐标信息,然后将对应的信息存储到数据仓库中。
84.具体的数据仓库中还存储对应试卷的页码数据、标题数据、试题数据(题号、题干、题目坐标、答案、解析等)、页面数据(页面宽高等)等数据中的一个或其组合构成。
85.具体的,本实施例可以获取待识别目标的标题数据,从而根据标题数据从数据仓库中查找对应的试卷从而提高检索的准确性和速度。
86.试卷倒置判断单元,用于判断所述文本片段word1、word2的位置关系,是否和第二文本信息yword1、yword2的位置关系相同,如果相同,在试卷没有倒置,如果不同,则试卷倒置。
87.如果在数据仓库中(正常试卷),文本片段一在文本片段二的上方,那么待识别目标中提取出的文本片段一也应当在文本片段二的上方才为正常图像采集,否则为倒置。
88.进一步的,所述识别装置还包括矫正单元,用于若试卷倒置,则对所述试卷图像进行矫正处理。
89.此外,对矫正后的图像可进一步进行二次文本识别及校验,确认矫正后的图像为正常矫正。
90.本实施例根据试卷中的两个文本的位置关系和在数据仓库中预先存储的对应试卷中的两个文本的位置关系是否相同来判断试卷是否倒置,本实施例的试卷倒置识别方法,不需要在试卷中设置特殊的标记。此外,在选择文本时,本实施例还预先对选择的文本的位置关系进行初步判断,以提高判断的准确性。
91.实施例三
92.参考图4,图4是本实施例的一种试卷倒置识别设备的结构示意图。该实施例的试卷倒置识别设备20包括处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述方法实施例中的步骤。或者,所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
93.示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器22中,并由所述处理器21执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述试卷倒置识别设备20中的执行过程。例如,所述计算机程序可以被分割成实施例二中的各个模块,各模块具体功能请参考上述实施例所述的装置的工作过程,在此不再赘述。
94.所述试卷倒置识别设备20可包括,但不仅限于,处理器21、存储器22。本领域技术人员可以理解,所述示意图仅仅是试卷倒置识别设备20的示例,并不构成对试卷倒置识别设备20的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述试卷倒置识别设备20还可以包括输入输出设备、网络接入设备、总线等。
95.所述处理器21可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路
(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器21是所述试卷倒置识别设备20的控制中心,利用各种接口和线路连接整个试卷倒置识别设备20的各个部分。
96.所述存储器22可用于存储所述计算机程序和/或模块,所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块,以及调用存储在存储器22内的数据,实现所述试卷倒置识别设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
97.其中,所述试卷倒置识别设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器21执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
98.需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
99.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种试卷倒置识别方法,其包括如下步骤:s1,对待识别目标进行识别获取所述待识别目标中的文本信息,所述文本信息为:文字、词或/和句子以及对应的坐标信息;s2,获取所述文本信息中的至少两个文本片段word1,word2,所述文本片段包括文本及文本对应的坐标数据信息;s3,根据所述至少两个文本片段,在数据仓库中获取对应所述至少两个文本片段的第二文本信息yword1、yword2;s4、判断所述文本片段word1、word2的位置关系,是否和第二文本信息yword1、yword2的位置关系相同,如果相同,在试卷没有倒置,如果不同,则试卷倒置。2.根据权利要求1所述的方法,所述步骤s2还包括:所述文本片段word1、word2,判断所述文本片段word1、word2在当前页面中所述文本片段word1、word2是否只出现一次,若出现次数大于一次,则将所述文本片段word1、word2删除。3.根据权利要求1所述的方法,所述步骤s2还包括:判断所述文本片段word1、word2是否存在上下关系,若不存在上下关系,则将所述文本片段word1、word2删除。4.根据权利要求1所述的方法,所述步骤s2还包括:判断所述文本片段word1、word2的文字个数是否超过一预设阈值,若未超过,则将所述文本片段word1、word2删除。5.根据权利要求1所述的方法,还包括步骤s5,若试卷倒置,则对所试卷进行矫正。6.一种试卷倒置识别装置,其包括如下单元:文本信息获取单元,用于对待识别目标进行识别获取所述待识别目标中的文本信息,所述文本信息为:文字、词或/和句子以及对应的坐标信息;文本片段获取单元,用于获取所述文本信息中的至少两个文本片段word1,word2,所述文本片段包括文本及文本对应的坐标数据信息;第二文本信息获取单元,用于根据所述至少两个文本片段,在数据仓库中获取对应所述至少两个文本片段的第二文本信息yword1、yword2;试卷倒置判断单元,用于判断所述文本片段word1、word2的位置关系,是否和第二文本信息yword1、yword2的位置关系相同,如果相同,在试卷没有倒置,如果不同,则试卷倒置。7.根据权利要求6所述的装置,所述文本片段获取单元还包括:所述文本片段word1、word2,判断所述文本片段word1、word2在当前页面中所述文本片段word1、word2是否只出现一次,若出现次数大于一次,则将所述文本片段word1、word2删除。8.根据权利要求6所述的装置,所述文本片段获取单元还包括:判断所述文本片段word1、word2是否存在上下关系,若不存在上下关系,则将所述文本片段word1、word2删除。9.根据权利要求6所述的装置,所述文本片段获取单元还包括:判断所述文本片段word1、word2的文字个数是否超过一预设阈值,若未超过,则将所述文本片段word1、word2删除。
10.一种非易失性存储器,所述非易失性存储器存储有指令,所述指令在被处理器执行时,用于实现如权利要求1-5中任一项的试卷倒置识别方法。
技术总结
本发明提供了一种试卷倒置识别方法,其包括如下步骤:S1,对待识别目标进行识别获取所述待识别目标中的文本信息,所述文本信息为:文字、词或/和句子以及对应的坐标信息;S2,获取所述文本信息中的至少两个文本片段word1,word2,所述文本片段包括文本及文本对应的坐标数据信息;S3,根据所述至少两个文本片段,在数据仓库中获取对应所述至少两个文本片段的第二文本信息Yword1、Yword2;S4、判断所述文本片段word1、word2的位置关系,是否和第二文本信息Yword1、Yword2的位置关系相同,如果相同,在试卷没有倒置,如果不同,则试卷倒置。本发明的试卷倒置识别方法,不需要在试卷中设置特殊的标记。的标记。的标记。
技术研发人员:秦曙光
受保护的技术使用者:珠海读书郎软件科技有限公司
技术研发日:2022.02.10
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-19461.html