专利句对语料库检索系统及方法与流程

    专利查询2022-07-08  156



    1.本发明涉及计算机技术领域,具体涉及专利句对语料库检索系统及方法。


    背景技术:

    2.目前的专利检索系统一般都是以检索到想要的专利文件来开发的,检索结果通常是某种语言的一些专利文件,例如在中国专利数据库中检索出中文专利文件,在日本专利数据库中检索出日文专利文件。虽然有些检索系统能同步提供检索出的专利文件原文的其它语种译文(例如欧洲专利局的检索系统),但这种译文一般是机器翻译而成,并未经过人工严格校对。另外,有些检索系统提供了一些集成功能,例如集成了不同地区不同语言的专利数据库,在用户进行检索时,检索系统能根据用户输入的某一语种的关键词,自动匹配常用的不同语种中的相应词汇,并将用户输入的关键词和自动匹配出的相应词汇分别放到各对应语种的专利数据库中进行检索,将各数据库的检索结果合并呈现给用户。但这种检索结果里不同语种专利文件之间往往没有必然的关联性,用户无法把检索结果中的某种语言的专利文件与另一种语言的专利文件对应起来。
    3.而专利申请文件的翻译人员在进行翻译的过程中,时常会遇到一些罕见的或者自己不熟悉的词语,难以给出准确的译词。此时,到已公开的专利文件中去寻找相同词汇的译法作为参考是一个可行的好办法。现实中,专利申请文件的翻译人员对此存在非常强烈的需求。目前,专利申请文件的翻译人员通常需要通过自己手工检索同族专利,再在同族专利中寻找相应词语的方式来寻找可参考的内容,费时费力,效率非常低下。


    技术实现要素:

    4.本发明致力于解决上述问题,提供了一种专利句对语料库检索系统,包括:检索请求输入模块,用于用户输入检索请求;专利句对语料库,用于存储至少两种语言的专利句对语料;检索引擎,用于根据从检索请求输入模块接收到的检索请求在专利句对语料库中进行检索,并得到初步检索结果;以及去重功能选择模块,用于用户选择是否需要对初步检索结果进行同案去重操作;其中,检索引擎从去重功能选择模块接收关于用户是否需要进行去重操作的信号,如果用户需要进行同案去重操作,则检索引擎对初步检索结果进行同案去重处理,使得属于同一专利文件对的句对在检索结果中只出现一次,并将去重处理后的检索结果作为最终检索结果输出;如果用户不需要进行同案去重操作,则检索引擎将初步检索结果作为最终检索结果输出。
    5.根据本发明一优选实施例,检索请求输入模块包括原文关键词输入项和译文关键词输入项,供用户选择使用。另外,检索请求输入模块还可包括公开号输入项、申请人输入项、代理机构输入项和国际分类号输入项等,供用户选择使用。优选地,用户能在所有供选择的输入项中选择任一项或同时选择多项来使用,各输入项之间的逻辑运算关系可由用户在逻辑“与”、“或”、“非”中进行选择。
    6.优选地,在用户同时选择原文关键词输入项和译文关键词输入项并且这两个输入
    项之间的逻辑运算关系为逻辑“与”的情况下,用户能在原文关键词输入项和译文关键词输入项中分别输入不存在对译关系的关键词。
    7.此外,专利句对语料库中可存储有中日、中英、中德、日英、日德和英德句对语料中的至少一种,用户在进行检索时能指定所要检索的对译语种。
    8.优选地,可基于初步检索结果中句对语料所从属的专利文件的公开号来进行同案去重处理。
    9.本发明还提供了一种专利句对语料库检索方法,包括以下步骤:(1)由用户指定所要检索的句对对译语种并输入检索请求;(2)根据用户输入的检索请求在用户指定的双语句对语料中进行检索,并得到初步检索结果;以及(3)判断用户是否需要进行同案去重操作,如果用户需要进行同案去重操作,则对初步检索结果进行同案去重处理,使得属于同一专利文件对的句对在检索结果中只出现一次,并将去重处理后的检索结果作为最终检索结果输出;如果用户不需要进行同案去重操作,则将初步检索结果作为最终检索结果输出。
    10.根据本发明一优选实施例,用户能通过在原文关键词输入项、译文关键词输入项、公开号输入项、申请人输入项、代理机构输入项和国际分类号输入项中选择任一项或同时选择多项来输入检索请求,各输入项之间的逻辑运算关系可由用户在逻辑“与”、“或”、“非”中进行选择。
    11.利用根据本发明的专利句对语料库检索系统及方法,翻译人员能够便捷快速地检索到包括疑难词语的合适的专利句对,参考专利句对中的译法来确定最终译词,不仅提高了译文用语的准确性,还提高了翻译人员的翻译工作效率。
    附图说明
    12.以下附图仅对本发明做示意性说明和解释,并不限定本发明的范围。
    13.图1示意性示出了根据本发明一优选实施例的专利句对语料库检索系统。
    14.图2示意性示出了根据本发明一优选实施例的专利句对语料库检索方法的总体流程。
    15.图3示意性示出了根据本发明一优选实施例的对初步检索结果进行同案去重处理的具体流程。
    16.标号说明1
    ꢀꢀ
    专利句对语料库检索系统10 检索请求输入模块20 专利句对语料库30 检索引擎40 去重功能选择模块。
    具体实施方式
    17.下面将结合附图,详细描述本发明的示例性实施例。
    18.图1示意性示出了根据本发明一优选实施例的专利句对语料库检索系统1。如图1所示,专利句对语料库检索系统1包括检索请求输入模块10、专利句对语料库20、检索引擎30和去重功能选择模块40。
    19.检索请求输入模块10用于用户输入检索请求,检索请求输入模块10可至少包括原文关键词输入项和译文关键词输入项,供用户选择使用。针对原文关键词输入项和译文关键词输入项,可进一步设定每一项中关键词的输入形式与对应的检索逻辑。举例来说,对单个以双引号引起的关键词(即置于双引号内的检索词,如“智能手机”),可设定为精准检索。对于以空格隔开的多个检索词,可设定为逻辑“或”关系。
    20.检索请求输入模块10还可包括公开号输入项、申请人输入项、代理机构输入项和国际分类号输入项等,供用户选择使用。用户可以在所有这些供选择的输入项中选择任一项或同时选择多项来使用,各输入项之间的逻辑运算关系也可以由用户在逻辑“与”、“或”、“非”中进行选择。这样,一方面,为用户输入检索请求提供了极大的便利性;另一方面,用户能够根据具体需求实现个性化、多样化的检索要素组合。
    21.专利句对语料库20用于存储至少两种语言的专利句对语料。专利句对指的是成对的以不同语言呈现的存在严格对译关系的来自专利文本的句子。专利句对可以由人工来筛选生成,也可以由计算机系统按设定的规则来筛选生成。专利句对例如可选自同族专利文件。句对语料中一并存储有该语料所从属的专利文件的公开号(也就是该语料所摘自的那件专利文件的公开号)。可以理解的是,同一专利文件对(不同语言的存在对译关系的成对专利文件)中可能筛出多对句对语料。此外,专利句对语料库20中可存储例如中日、中英、中德、日英、日德和英德句对语料中的至少一种,用户在进行检索时可以指定所要检索的对译语种。
    22.图2示意性示出了根据本发明一优选实施例的专利句对语料库检索方法的总体流程。
    23.下面,结合图1和图2来具体描述专利句对语料库检索系统1的总体工作过程。
    24.如图2所示,在步骤s10,用户指定所要检索的句对对译语种并输入具体的检索请求。在步骤s20,检索引擎30根据从检索请求输入模块10接收到的检索请求在专利句对语料库20中进行检索,并得到初步检索结果。
    25.在步骤s30,检索引擎30从去重功能选择模块40接收关于用户是否需要进行去重操作的信号,判断用户是否需要进行去重操作;如果用户需要进行同案去重操作,则转至步骤s40;如果用户不需要进行同案去重操作,则检索引擎30将初步检索结果作为最终检索结果,在步骤s50中输出。
    26.在步骤s40,检索引擎30对初步检索结果进行同案去重处理,使得属于同一专利文件对的句对在检索结果中只出现一次,并将去重处理后的检索结果作为最终检索结果,在步骤s50中输出。
    27.图3示意性示出了根据本发明一优选实施例的对初步检索结果进行同案去重处理的具体流程。
    28.参看图3,在步骤s41,定义初步检索结果遍历索引变量i,获取初步检索结果中的句对数量n,同时定义两个空序列,例如第一序列和第二序列。
    29.在步骤s42,判断i≤n是否成立;如果成立,则转至步骤s43;如果不成立,则转至步骤s46。
    30.在步骤s43,获取初步检索结果中的第i条数据,并判断该数据中的专利文件公开号是否存在于第一序列中;如果该数据中的公开号在第一序列中不存在,则转至步骤s45;
    如果该数据中的公开号已存在于第一序列中,则转至步骤s44。
    31.在步骤s45,将第i条数据存储到第二序列中,并将该数据中的公开号存储到第一序列中,然后转至步骤s44。
    32.在步骤s44,将变量i的值加1,然后转至步骤s42继续进行上述处理,直至i≤n不成立,意味着对初始检索结果已完成遍历去重。
    33.在步骤s46,将第二序列中存储的数据作为最终检索结果输出。
    34.此外,值得特别指出的是,在用户同时选择原文关键词输入项和译文关键词输入项并且这两个输入项之间的逻辑运算关系为逻辑“与”的情况下,用户能够在原文关键词输入项和译文关键词输入项中分别输入不存在对译关系的关键词(即,译文关键词输入项中输入的检索词不是原文关键词输入项中输入的检索词在译文语言中的对应翻译)。这种检索方式/方法对于翻译人员在遇到某个疑难词语在某些/某个特定领域的含义显著不同于这个词语在其它领域的常用含义时,特别有用。为了便于充分理解这个检索场景和优点,下面结合一个具体检索例子来进行说明。
    35.众所周知,“手机”通常指的是通信领域的“移动电话”、“便携电话”,但其在医疗器械领域有着明显不同的含义。假设翻译人员想查询医疗器械领域中“手机”在日语里如何确切表达。此时,翻译人员可指定检索中日语料库,如果只在原文关键词输入项中输入“手机”作为检索词,得到的检索结果多为分别包括“手机”及对应的日文“携帯電話機”的专利句对。例如检索到句对原文:“手机例如可以是被称作智能手机的多功能手机,也可以是简易(功能少)的手机。”;句对日文“携帯電話機

    、例
    えばスマートフォンと

    される
    多機能携帯電話機
    であっても

    いし
    、簡易

    (機能

    比較的少
    ない
    )携帯電話機
    であっても


    。”。这样的检索结果并不能为翻译人员提供有价值的参考。
    36.这种情况下,根据本发明的技术方案,翻译人员可以在原文关键词输入项中输入“手机”作为检索词,同时在译文关键词输入项中输入“歯科”(中文“牙科”的日译文)作为检索词,便能检索到有参考价值的专利句对。例如检索到句对原文:“牙科手机用的影像取得设备、牙科手机用摄像装置、牙科手机及牙科手机系统”;句对日文“歯科
    ハンドピース


    映像取得機器、歯科
    ハンドピース
    用撮像装置、歯科
    ハンドピース
    、及

    歯科
    ハンドピースシステム”
    。从检索到的句对中便能得知,“手机”在医疗器械领域可译文日文
    “ハンドピース”

    37.根据本发明的专利句对语料库检索系统可以实施为设备上的特定硬件或者安装于设备上的软件或固件等。
    38.在本发明所提供的实施方式中,应该理解到,所揭露方法和系统,可以通过其它的方式实现。以上所描述的实施方式仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。
    39.另外,在本发明提供的实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
    40.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计
    算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
    41.最后应说明的是:以上所述实施方式,仅为本发明的示例性具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施方式所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施方式技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求限定的保护范围为准。
    转载请注明原文地址:https://tc.8miu.com/read-1944.html

    最新回复(0)