一种合同数据差异性的比对方法、装置、设备和介质与流程

    专利查询2022-07-08  206



    1.本发明涉及光学字符识别的技术领域,特别涉及一种合同数据差异性的比对方法、装置、设备和介质。


    背景技术:

    2.随着经济的不断发展,商业活动中合同的签署数量急剧增加。为了提升便捷性,传统纸质合同逐渐被电子合同所取代。但是电子合同在经过各个审核节点的审核时,可能会发生合同格式或者内容的修改,而生成多个不同版本的合同。不同节点存储有不同版本的合同,容易造成合同信息紊乱,如签约合同与最终审核通过合同信息不一致,从而引起造成合同管理混乱,造成经济损失。因此,如何解决现有技术中电子合同的版本不一致的问题,成为了目前亟待解决的技术问题。
    3.为了提升合同的真实性,需要比对的合同常以扫描件的形式出现,导致合同存储的形式更加多样,为文件存储和文件分析带来挑战。因此,需要一种行之有效的方式来判别合同的存储形式,并用一种行之有效的方法来加以比对。


    技术实现要素:

    4.本发明要解决的技术问题,在于提供一种合同数据差异性的比对方法、装置、设备和介质,可以读取不同格式的合同文件内容,特别是扫描文本和不可按照pdf的编码格式获取文字信息的pdf文档也可以进行差异性比对。
    5.第一方面,本发明提供了一种合同数据差异性的比对方法,包括下述步骤:
    6.s1、接收到合同比对指令,获取两份合同文件的格式信息;
    7.s2、根据所述格式信息判断是否可按照相应的编码格式直接获取文字信息,若是,则直接读取文档内容,若否,则调用光学字符识别模型获取文档内容,形成全文内容文本;
    8.s3、对两份合同文件的全文内容文本进行比对,获得第二份合同文件相对于第一份合同文件的差异字段及差异字段坐标信息;
    9.s4、判断差异字段的性质,并在第二份合同文件中对应所述坐标信息作出对应性质标记后展示。
    10.第二方面,本发明提供了一种合同数据差异性的比对装置,包括:
    11.格式获取模块,用于接收到合同比对指令,获取两份合同文件的格式信息;
    12.文档内容获取模块,根据所述格式信息判断是否可按照相应的编码格式直接获取文字信息,若是,则直接读取文档内容,若否,则调用光学字符识别模型获取文档内容,形成全文内容文本;
    13.比对模块,用于对两份合同文件的全文内容文本进行比对,获得第二份合同文件相对于第一份合同文件的差异字段及差异字段坐标信息;
    14.差异标记模块,判断差异字段的性质,并在第二份合同文件中对应所述坐标信息作出对应性质标记后展示。
    15.第三方面,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
    16.第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。
    17.本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:在接收到合同比对指令时,先获取两份合同文件的格式信息来确定识别方式,若能按文件的编码格式直接读取文档内容则直接读取,如word文档,和部分pdf文档,否则调用光学字符识别模型获取文档内容,如扫描合同获得的图片格式;在得到全文内容文本时对其进行比对,获得第二份合同文件相对于第一份合同文件的差异字段及差异字段坐标信息;再判断差异字段的性质,并在第二份合同文件中对应所述坐标信息作出对应性质标记后展示。
    18.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
    附图说明
    19.下面参照附图结合实施例对本发明作进一步的说明。
    20.图1为本发明实施例一中方法中的流程图;
    21.图2为本发明实施例中光学字符识别模型获取文档内容的流程图;
    22.图3为本发明实施例中差异字段的标记过程流程图;
    23.图4为本发明实施例二中装置的结构示意图;
    24.图5为本发明实施例二中装置中的差异标记模块的结构示意图;
    25.图6为本发明实施例三中电子设备的结构示意图;
    26.图7为本发明实施例四中介质的结构示意图。
    具体实施方式
    27.本技术实施例通过提供一种合同数据差异性的比对方法、装置、设备和介质,可以读取不同格式的合同文件内容,特别是扫描文本和不可按照pdf的编码格式获取文字信息的pdf文档也可以进行差异性比对。
    28.本技术实施例中的技术方案,总体思路如下:在接收到合同比对指令时,先获取两份合同文件的格式信息来确定识别方式,若能按文件的编码格式直接读取文档内容则直接读取,如word文档和部分pdf文档,否则调用光学字符识别模型获取文档内容,如扫描合同获得的图片格式;在得到全文内容文本时对其进行比对,获得第二份合同文件相对于第一份合同文件的差异字段及差异字段坐标信息;再判断差异字段的性质,并在第二份合同文件中对应所述坐标信息作出对应性质标记后展示。
    29.实施例一
    30.如图1所示,本实施例提供一种合同数据差异性的比对方法,包括下述步骤:
    31.s1、接收到合同比对指令,获取两份合同文件的格式信息;
    32.s2、根据所述格式信息判断是否可按照相应的编码格式直接获取文字信息,若是,则直接读取文档内容,若否,则调用光学字符识别模型获取文档内容,形成全文内容文本;
    33.可先根据所述格式信息判断任一合同文件的格式,进而确定识别方式:
    34.若为word文档,直接读取文档内容,形成全文内容文本;
    35.若是pdf文档,尝试按照pdf的编码格式获取文字信息,若尝试获取成功,则将文档转换为word文档,读取文档内容;若尝试获取失败,则调用光学字符识别模型获取文档内容,形成全文内容文本;
    36.若是图片格式文档,直接调用光学字符识别模型获取文档内容,形成全文内容文本;
    37.s3、对两份合同文件的全文内容文本进行比对,获得第二份合同文件相对于第一份合同文件的差异字段及差异字段坐标信息;
    38.s4、判断差异字段的性质,并在第二份合同文件中对应所述坐标信息作出对应性质标记后展示。
    39.其中,作为本实施例的一种更优或更为具体的实现方式,所述方法中:
    40.如图2所示,所述光学字符识别模型为经过扫描合同数据集强化训练好的智能模型,所述光学字符识别模型获取文档内容的具体过程如下:
    41.通过文字方向模型识别图片格式文档的文字方向,若文字方向不正确,则旋转至正确方向;
    42.通过文本框分割模型对处于正确方向的图片格式文档进行分割,得出包含文字的一个或多个文本框;
    43.通过文字识别模型对各个文本框进行文字识别,将各个文本框识别所得的文字组合后得到全文内容文本,根据识别出来的各行文字的长短特征对全文内容文本进行智能分段。
    44.所述步骤s3具体是:根据全文内容文本的文字信息,表格信息,字体信息,行间距信息以及页边距信息定位得到全文坐标信息;将两份合同文件按照正则规则进行全文比对,获得差异字段,并根据全文坐标信息,获得差异字段在第二份合同文件中所处的坐标信息,即差异字段坐标信息。
    45.如图3所示,所述步骤s4具体是:
    46.s41、判断差异字段的性质,若第一份合同文件有而第二份合同文件中没有,则将差异字段的性质判断为删除字段;若第一份合同文件没有而第二份合同文件中有,则将差异字段的性质判断为添加字段;若删除字段与添加字段紧挨着,则进一步将差异字段的性质判断为修改字段;
    47.s42、将第二份合同文件转换为图片格式文件,根据差异字段坐标信息在图片格式文件上标记出差异文字信息后返回至前端页面进行展示;
    48.但若步骤s3程序无法读取帮助定位的字体信息、行间距信息以及页边距信息,在最后的结果页面中,用户将只能看到差异文字结果。
    49.s43、在前端页面上提供链接,供用户获取后端的具有差异字段标记的word结果文档。
    50.本实施例中,在最终返回比对结果时,先将word文档转换为jpg格式的图片,并根据坐标信息在返回的图片上进行位置标注,同时还会在结果页面上显示差异文字信息。且将结果页面返回至前端页面进行展示,如此,用户可通过远程页面,使用页面控件上传任意
    格式的合同文件进行比对,并在远程服务器完成处理之后返回处理好的结果图片以及文字结果至前端页面展示,即可远程操作并实现一键完成比对,无需人为判断合同格式并在众多的软件中辗转,大大提高了效率。
    51.在前端页面上提供链接,同时用户也可以通过链接获取通过字体颜色标记出差异文字的最终结果文档,在后端进行查看或编辑。
    52.基于同一发明构思,本技术还提供了与实施例一中的方法对应的装置,详见实施例二。
    53.实施例二
    54.如图4所示,在本实施例中提供了一种合同数据差异性的比对装置,包括:
    55.格式获取模块,用于接收到合同比对指令,获取两份合同文件的格式信息;
    56.文档内容获取模块,根据所述格式信息判断是否可按照相应的编码格式直接获取文字信息,若是,则直接读取文档内容,若否,则调用光学字符识别模型获取文档内容,形成全文内容文本;可根据所述格式信息判断任一合同文件的格式,再确定识别方式:
    57.若为word文档,直接读取文档内容,形成全文内容文本;
    58.若是pdf文档,尝试按照pdf的编码格式获取文字信息,若尝试获取成功,则将文档转换为word文档,读取文档内容;若尝试获取失败,则调用光学字符识别模型获取文档内容,形成全文内容文本;
    59.若是图片格式文档,直接调用光学字符识别模型获取文档内容,形成全文内容文本;
    60.比对模块,用于对两份合同文件的全文内容文本进行比对,获得第二份合同文件相对于第一份合同文件的差异字段及差异字段坐标信息;
    61.差异标记模块,判断差异字段的性质,并在第二份合同文件中对应所述坐标信息作出对应性质标记后展示。
    62.其中,作为本实施例的一种更优或更为具体的实现方式,所述装置中:
    63.如图2所示,所述光学字符识别模型为经过扫描合同数据集强化训练好的智能模型,所述光学字符识别模型获取文档内容的具体过程如下:
    64.通过文字方向模型识别图片格式文档的文字方向,若文字方向不正确,则旋转至正确方向;
    65.通过文本框分割模型对处于正确方向的图片格式文档进行分割,得出包含文字的一个或多个文本框;
    66.通过文字识别模型对各个文本框进行文字识别,将各个文本框识别所得的文字组合后得到全文内容文本,根据识别出来的各行文字的长短特征对全文内容文本进行智能分段。
    67.所述比对模块具体是:根据全文内容文本的文字信息,表格信息,字体信息,行间距信息以及页边距信息定位得到全文坐标信息;将两份合同文件按照正则规则进行全文比对,获得差异字段,并根据全文坐标信息,获得差异字段在第二份合同文件中所处的坐标信息,即差异字段坐标信息。
    68.如图3和图5所示,所述差异标记模块进一步包括:
    69.性质判断模块,用于判断差异字段的性质,若第一份合同文件有而第二份合同文
    件中没有,则将差异字段的性质判断为删除字段;若第一份合同文件没有而第二份合同文件中有,则将差异字段的性质判断为添加字段;若删除字段与添加字段紧挨着,则进一步将差异字段的性质判断为修改字段;
    70.标记模块,用于将第二份合同文件转换为图片格式文件,根据差异字段坐标信息在图片格式文件上标记出差异文字信息后返回至前端页面;
    71.链接模块,在前端页面上提供链接,供用户获取后端的具有差异字段标记的word结果文档。
    72.本实施例中,在最终返回比对结果时,先将输入的word文档转换为jpg格式的图片,并根据坐标信息在返回的图片上进行位置标注,同时还会在结果页面上显示差异文字信息。且将结果页面返回至前端页面进行展示,如此,用户可通过远程页面,使用页面控件上传任意格式的合同文件进行比对,并在远程服务器完成处理之后返回处理好的结果图片以及文字结果至前端页面展示,即可远程操作并实现一键完成比对,无需人为判断合同格式并在众多的软件中辗转,大大提高了效率。
    73.在前端页面上提供链接,同时用户也可以通过链接获取通过字体颜色标记出差异文字的最终结果文档,在后端进行查看或编辑。
    74.由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
    75.基于同一发明构思,本技术提供了实施例一对应的电子设备实施例,详见实施例三。
    76.实施例三
    77.本实施例提供了一种电子设备,如图6所示,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。
    78.由于本实施例所介绍的电子设备为实施本技术实施例一中方法所采用的设备,故而基于本技术实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本技术实施例中的方法不再详细介绍。只要本领域所属技术人员实施本技术实施例中的方法所采用的设备,都属于本技术所欲保护的范围。
    79.基于同一发明构思,本技术提供了实施例一对应的存储介质,详见实施例四。
    80.实施例四
    81.本实施例提供一种计算机可读存储介质,如图7所示,其上存储有计算机程序,该计算机程序被处理器执行时,可以实现实施例一中任一实施方式。
    82.本技术实施例提供的方法、装置、设备及介质,至少具有如下技术效果或优点:在接收到合同比对指令时,先获取两份合同文件的格式信息来确定识别方式,若能按文件的编码格式直接读取文档内容则直接读取,如word文档,和部分pdf文档,否则调用光学字符识别模型获取文档内容,如扫描合同获得的图片格式;在得到全文内容文本时对其进行比对,获得第二份合同文件相对于第一份合同文件的差异字段及差异字段坐标信息;再判断
    差异字段的性质,并在第二份合同文件中对应所述坐标信息作出对应性质标记后展示。
    83.本领域内的技术人员应明白,本发明的实施例可提供为方法、装置或系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
    84.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
    85.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
    86.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
    87.虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
    转载请注明原文地址:https://tc.8miu.com/read-2197.html

    最新回复(0)