重复文档的判定方法及计算机可读存储介质与流程

    专利查询2022-07-08  110



    1.本发明涉及计算机技术领域,尤其涉及一种重复文档的判定方法。


    背景技术:

    2.机器翻译技术的发展给人们带来了极大的便利,尤其是专利申请文件的翻译,能极大提高翻译效率。在机器翻译的过程中,可能存在重复内容。目前,机器翻译的使用方会对重复文档进行判定,并据此调整机器翻译的费用,以提高客户的满意度。目前所使用的重复文档的判定方法的执行过程较为耗时。


    技术实现要素:

    3.本发明的目的是提供一种重复文档的判定方法,其利于提高重复文档的判定速度。
    4.本发明的另一个目的是提供一种计算机可读存储介质,其利于提高重复文档的判定速度。
    5.本发明提供了一种重复文档的判定方法,其包括:s10:获取待分析文档;s20:将待分析文档通过单句拆分得到待分析单句;s30:在比对数据库中逐一检索所有待分析单句以得到针对每个待分析单句的检索结果;s40:针对每一个待分析单句,计算检索结果与相应的待分析单句的文本重复率并分析以得到文本重复率的最大值,再将文本重复率的最大值与一个第一设定值进行比较;s50:统计文本重复率的最大值大于或等于第一设定值的待分析单句的数量占所有待分析单句的数量的比例;s60:判断该比例是否大于一个第二设定值;s70:若判断结果为是,则判定该待分析文档为重复文档;以及s80:若判断结果为否,则判定该待分析文档不为重复文档。
    6.该重复文档的判定方法,先在比对数据库中检索得到针对待分析单句的检索结果,再计算检索结果与相应的待分析单句的文本重复率,借此利于提高重复文档的判定速度。
    7.在重复文档的判定方法的另一种示意性实施方式中,在比对数据库中逐一检索所有待分析单句以得到针对每个待分析单句的检索结果的步骤具体为:针对每一个待分析单句,分析比对数据库中每个比对单句与相应的待分析单句的相关性,然后根据相关性排序,再将排序位置小于等于一个第三设定值的比对单句作为检索结果。
    8.在重复文档的判定方法的再一种示意性实施方式中,相关性采用elasticsearch相关性算法计算得到。
    9.在重复文档的判定方法的还一种示意性实施方式中,计算检索结果与相应的待分析单句的文本重复率并分析以得到文本重复率的最大值的步骤具体为:计算检索结果中的每个比对单句与相应的待分析单句的编辑距离,再对比所有编辑距离以得到编辑距离的最小值。
    10.在重复文档的判定方法的还一种示意性实施方式中,编辑距离为莱文斯坦距离。
    11.本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有代码以供系统使用。当处理器执行代码时,系统执行上述的重复文档的判定方法。该计算机可读存储介质,先在比对数据库中检索得到针对待分析单句的检索结果,再计算检索结果与相应的待分析单句的文本重复率,借此利于提高重复文档的判定速度。
    附图说明
    12.以下附图仅对本发明做示意性说明和解释,并不限定本发明的范围。
    13.图1为重复文档的判定方法的一种示意性实施方式的流程图。
    具体实施方式
    14.为了对发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
    15.在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。
    16.在本文中,“第一”、“第二”等并非表示其重要程度或顺序等,仅用于表示彼此的区别,以利文件的描述。
    17.图1为重复文档的判定方法的一种示意性实施方式的流程图。如图1所示,重复文档的判定方法包括如下步骤s10至步骤s80。
    18.s10:获取待分析文档。
    19.s20:将待分析文档通过单句拆分得到待分析单句。具体例如为:如果原文为中文就按照“。”将段落拆分为单句,如果原文为英文就按照“.”将段落拆分为单句。
    20.s30:在比对数据库中逐一检索所有待分析单句以得到针对每个待分析单句的检索结果。
    21.其中,比对数据库中例如包括多个比对单句。此步骤具体例如为:针对每一个待分析单句,分析比对数据库中每个比对单句与相应的待分析单句的相关性,然后根据相关性从大到小排序,再将排序位置小于等于一个第三设定值的比对单句作为检索结果。例如,若第三设定值为3,则将相关性最大的三个比对单句作为检索结果。这样可将检索结果中比对单句的数量限制在一个可控的范围,利于提高运算速度。在不同的实施方式中,第三设定值的大小可根据实际需要调整。其中,相关性例如采用elasticsearch相关性算法计算得到,但不限于此。
    22.s40:针对每一个待分析单句,计算检索结果与相应的待分析单句的文本重复率并分析以得到文本重复率的最大值,再将文本重复率的最大值与一个第一设定值进行比较。
    23.其中,计算检索结果与相应的待分析单句的文本重复率并分析以得到文本重复率的最大值的步骤具体例如为:计算检索结果中的每个比对单句与相应的待分析单句的编辑距离,再对比所有编辑距离以得到编辑距离的最小值。其中,编辑距离例如为莱文斯坦距离,但不限于此。此处,使用编辑距离来反应文本重复率,可便于运算,但不限于此。在不同的实施方式中,第一设定值的大小可根据实际需要调整。
    24.s50:统计文本重复率的最大值大于或等于第一设定值的待分析单句的数量占所有待分析单句的数量的比例。
    25.s60:判断该比例是否大于一个第二设定值。在不同的实施方式中,第二设定值的大小可根据实际需要调整。
    26.s70:若判断结果为是,则判定该待分析文档为重复文档。
    27.s80:若判断结果为否,则判定该待分析文档不为重复文档。
    28.该重复文档的判定方法,先在比对数据库中检索得到针对待分析单句的检索结果,再计算检索结果与相应的待分析单句的文本重复率,借此利于提高重复文档的判定速度。
    29.本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有代码以供系统使用。当处理器执行代码时,系统执行上述的重复文档的判定方法。该计算机可读存储介质,先在比对数据库中检索得到针对待分析单句的检索结果,再计算检索结果与相应的待分析单句的文本重复率,借此利于提高重复文档的判定速度。
    30.应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
    31.上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施例的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方案或变更,如特征的组合、分割或重复,均应包含在本发明的保护范围之内。


    技术特征:
    1.重复文档的判定方法,其特征在于,包括:s10:获取待分析文档;s20:将所述待分析文档通过单句拆分得到待分析单句;s30:在比对数据库中逐一检索所有所述待分析单句以得到针对每个所述待分析单句的检索结果;s40:针对每一个所述待分析单句,计算所述检索结果与相应的所述待分析单句的文本重复率并分析以得到所述文本重复率的最大值,再将所述文本重复率的最大值与一个第一设定值进行比较;s50:统计所述文本重复率的最大值大于或等于所述第一设定值的所述待分析单句的数量占所有所述待分析单句的数量的比例;s60:判断所述比例是否大于一个第二设定值;s70:若判断结果为是,则判定所述待分析文档为重复文档;以及s80:若判断结果为否,则判定所述待分析文档不为重复文档。2.如权利要求1所述的重复文档的判定方法,其特征在于,在比对数据库中逐一检索所有所述待分析单句以得到针对每个所述待分析单句的检索结果的步骤具体为:针对每一个所述待分析单句,分析所述比对数据库中每个比对单句与相应的所述待分析单句的相关性,然后根据所述相关性排序,再将排序位置小于等于一个第三设定值的所述比对单句作为所述检索结果。3.如权利要求2所述的重复文档的判定方法,其特征在于,所述相关性采用elasticsearch相关性算法计算得到。4.如权利要求1所述的重复文档的判定方法,其特征在于,计算所述检索结果与相应的所述待分析单句的文本重复率并分析以得到所述文本重复率的最大值的步骤具体为:计算所述检索结果中的每个比对单句与相应的所述待分析单句的编辑距离,再对比所有所述编辑距离以得到所述编辑距离的最小值。5.如权利要求4所述的重复文档的判定方法,其特征在于,所述编辑距离为莱文斯坦距离。6.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有代码以供系统使用;当处理器执行所述代码时,所述系统执行根据权利要求1至5中任一项所述的重复文档的判定方法。

    技术总结
    重复文档的判定方法,包括:S10:获取待分析文档;S20:将待分析文档拆分得到待分析单句;S30:在比对数据库中检索所有待分析单句以得到针对每个待分析单句的检索结果;S40:针对各待分析单句,计算检索结果与相应的待分析单句的文本重复率并分析以得到文本重复率的最大值,再将文本重复率的最大值与第一设定值进行比较;S50:统计文本重复率的最大值大于或等于第一设定值的待分析单句占所有待分析单句的比例;S60:判断比例是否大于第二设定值;S70:若为是,则判定待分析文档为重复文档;S80:若为否,则判定待分析文档不为重复文档。该方法利于提高重复文档的判定速度。此外还提供了计算机可读存储介质。供了计算机可读存储介质。供了计算机可读存储介质。


    技术研发人员:杨尚为 张方元 杨攀 余畅 杨子辰
    受保护的技术使用者:盐城睿行空间企业孵化器有限公司
    技术研发日:2022.02.28
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-1969.html

    最新回复(0)