基于人机交互的XML信息提取方法、存储介质及电子设备与流程

    专利查询2023-08-18  120


    基于人机交互的xml信息提取方法、存储介质及电子设备
    技术领域
    1.本发明属于信息提取的技术领域,涉及一种信息提取方法,特别是涉及一种基于人机交互的xml信息提取方法、存储介质及电子设备。


    背景技术:

    2.目前,在数据治理过程中,为了从xml(extensible markup language,可扩展标记语言)格式数据中提取信息,需要人工设定xpath、正则表达式等规则。然而,所要提取的信息字段往往数目繁多,提取不同字段所用的具体规则也各不相同,再者xpath、正则表达式等规则本身更是有一定学习成本。如何让操作人员快速熟悉xpath、正则表达式等规则系统,进而在数据治理现场有效运用,成为了数据治理过程中的一个难点。
    3.针对上述情况,尽管存在各类xml解析器,如python的xml库等,能够可靠对单一xml文件进行解析,进而实现对统一系统下xml文件的批量信息提取,但在面对不同系统或是同一系统的不同版本时,由于数据结构发生了变化,仍然需要人工考察各个系统所用规则与提取到的信息,进而梳理从提取规则到特定字段的映射关系,或是人工设定通用规则。
    4.因此,如何提供一种基于人机交互的xml信息提取方法、存储介质及电子设备,以解决现有技术无法免去相关技术的学习成本,最大限度的减少xml数据中信息提取所用的人力物力等缺陷,成为本领域技术人员亟待解决的技术问题。


    技术实现要素:

    5.鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于人机交互的xml信息提取方法、存储介质及电子设备,用于解决现有技术无法免去相关技术的学习成本,最大限度的减少xml数据中信息提取所用的人力物力的问题。
    6.为实现上述目的及其他相关目的,本发明一方面提供一种基于人机交互的xml信息提取方法,所述基于人机交互的xml信息提取方法包括:获取xml文件中的字段信息;根据所述字段信息生成信息提取规则;按照所述字段信息的路径,对所述信息提取规则进行去重;基于用户的字段标注操作,建立所述信息提取规则到关键字段的映射关系;利用所述映射关系对所述信息提取规则进行迭代更新。
    7.于本发明的一实施例中,所述获取xml文件中的字段信息的步骤,包括:利用解析器获取各系统信息与路径的表单;由所述表单中解析各系统xml中各字段信息。
    8.于本发明的一实施例中,所述按照所述字段信息的路径,对所述信息提取规则进行去重的步骤,包括:查找所述表单中各字段信息的路径;针对相同的路径,仅保留一个。
    9.于本发明的一实施例中,所述基于用户的字段标注操作,建立所述信息提取规则到关键字段的映射关系的步骤,包括:抽取还未进行标注的xml原件,将所述xml原件的信息进行结构化处理;对所述结构化处理的信息进行可视化;获取用户于可视化界面上针对关键字段生成的标注指令;根据所述标注指令确定所述关键字段的路径;判断所述路径是否存在,响应于所述路径不存在,针对同一关键字段,更新所述信息提取规则。
    10.于本发明的一实施例中,所述对所述结构化处理的信息进行可视化的步骤,包括:将所述xml原件的信息按照不同字段进行分行显示;在显示的可视化界面中,框选出于所述关键字段对应的待标注数据;将所述待标注数据关联快捷键指令。
    11.于本发明的一实施例中,所述利用所述映射关系对所述信息提取规则进行迭代更新的步骤,包括:基于所述映射关系确定新增路径,利用编辑距离为基础的聚类算法和/或最长公共子序列算法,生成迭代更新的所述信息提取规则。
    12.于本发明的一实施例中,在利用所述映射关系对所述信息提取规则进行迭代更新的过程中,所述基于人机交互的xml信息提取方法还包括:保存并记录历届生成的信息提取规则,并根据现有所有标注,计算混淆矩阵;绘制准确率、召回率和/或f1分数随标注轮次的曲线;当曲线趋于平稳时,发出停止标注的提示。
    13.于本发明的一实施例中,在利用所述映射关系对所述信息提取规则进行迭代更新的过程中,所述基于人机交互的xml信息提取方法还包括:抽选xml文件;在所抽选的xml文件中,利用迭代更新的所述信息提取规则进行信息模拟抽取,生成抽取结果;根据所述抽取结果发出继续标注、完成工作或进行报错的提示。
    14.为实现上述目的及其他相关目的,本发明另一方面提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于人机交互的xml信息提取方法。
    15.为实现上述目的及其他相关目的,本发明最后一方面提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行所述的基于人机交互的xml信息提取方法。
    16.如上所述,本发明所述的基于人机交互的xml信息提取方法、存储介质及电子设备,具有以下有益效果:
    17.本发明可以免去信息提取相关技术的学习成本,通过标注实现自动学习提取规则,能够自动从各系统中提炼信息抽取规则并通过人机交互建立从规则到特定信息字段的映射关系,最后生成通用提取规则,最大限度地减少xml数据中信息提取所用的人力物力,提高了生产效率。
    附图说明
    18.图1显示为本发明的基于人机交互的xml信息提取方法于一实施例中的原理流程图。
    19.图2显示为本发明的基于人机交互的xml信息提取方法于一实施例中的规则更新流程图。
    20.图3显示为本发明的基于人机交互的xml信息提取方法于一实施例中的可视化操作示意图。
    21.图4显示为本发明的基于人机交互的xml信息提取方法于一实施例中的规则评估示意图。
    22.图5显示为本发明的基于人机交互的xml信息提取方法于一实施例中的抽取结果界面示意图。
    23.图6显示为本发明的电子设备于一实施例中的结构连接示意图。
    24.元件标号说明
    [0025]6ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
    电子设备
    [0026]
    61
    ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
    处理器
    [0027]
    62
    ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
    存储器
    [0028]
    s11~s15
    ꢀꢀꢀꢀꢀꢀꢀ
    步骤
    [0029]
    s141~s145
    ꢀꢀꢀꢀꢀ
    步骤
    具体实施方式
    [0030]
    以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
    [0031]
    需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
    [0032]
    本发明所述的基于人机交互的xml信息提取方法、存储介质及电子设备可以最大程度地降低了xml数据中信息提取的成本,提高了生产效率。
    [0033]
    以下将结合图1至图6详细阐述本实施例的一种基于人机交互的xml信息提取方法、存储介质及电子设备的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的基于人机交互的xml信息提取方法、存储介质及电子设备。
    [0034]
    本发明中xml文件可以是以xml为基础的任意格式,如office open xml,xml常常以变体的形式出现。如今被广泛使用的office open xml(ooxml)就是一系列基于xml、经过压缩的文件格式。常见的office open xml文件类型有:docx、pptx以及xslx等根据用户所需要治理数据的数据生产厂商而定,因此本发明中解析器会按照实际情形进行构建。比如根据数据生产厂商留下的技术说明文档进行构建或直接使用数据生产厂商留下的解析器。根据实际项目需要,构建解析器使用的语言也不一样,通常与项目整体所用语言保持一致。
    [0035]
    请参阅图1,显示为本发明的基于人机交互的xml信息提取方法于一实施例中的原理流程图。如图1所示,所述基于人机交互的xml信息提取方法具体包括以下几个步骤:
    [0036]
    s11,获取xml文件中的字段信息。
    [0037]
    于一实施例中,s11具体包括以下步骤:
    [0038]
    (1)利用解析器获取各系统信息与路径的表单。
    [0039]
    于实际应用中,本发明使用的解析器可以是在python software foundation license下的官方模组基础上自行构建的。解析器构建完毕后,会从前往后扫描字符串式,并按预设方式运作,例如呈现各系统信息与路径的表单,如表1的信息路径表。通过xml中各级标签组成的路径可以定位数据的位置。
    [0040]
    表1信息路径表
    [0041][0042][0043]
    (2)由所述表单中解析各系统xml中各字段信息。
    [0044]
    具体地,如表2所示,包括病人的姓名、年龄、诊断及相应的字段路径。
    [0045]
    s12,根据所述字段信息生成信息提取规则。
    [0046]
    具体地,如表2所示,针对“姓名”这一目标字段,对应有两种不同的路径,即/patient/name和/people/name,因此,根据这两种路径生成“姓名”的提取规则,例如,生成的提取规则可以是:/*[matches(@name,'(patient)|(people)')]。
    [0047]
    s13,按照所述字段信息的路径,对所述信息提取规则进行去重。
    [0048]
    于一实施例中,s13具体包括以下步骤:
    [0049]
    (1)查找所述表单中各字段信息的路径。
    [0050]
    具体地,如表2所示,针对“姓名”这一目标字段,对应有两种不同的路径,即/patient/name和/people/name,其中,张三和李四对应的姓名路径相同。
    [0051]
    (2)针对相同的路径,仅保留一个。
    [0052]
    具体地,针对张三和李四对应的姓名路径/patient/name,由两个合并为一个。
    [0053]
    s14,基于用户的字段标注操作,建立所述信息提取规则到关键字段的映射关系。
    [0054]
    具体地,根据实际数据质量以及交付需求由现场操作人员进行判断,因此设计成人机交互的形式,现场操作人员发出字段标注动作。在数据从旧数据系统迁移至新数据系统的过程中,需要迁移哪些数据,需要迁移多少数据,有些数据质量过低或过时,不适合批量迁移,会导致新数据系统故障,实际上会有较大差异,需要人机交互代替机器进行判断。
    [0055]
    请参阅图2,显示为本发明的基于人机交互的xml信息提取方法于一实施例中的规则更新流程图。如图2所示,于一实施例中,s14具体包括以下步骤:
    [0056]
    s141,抽取还未进行标注的xml原件,将所述xml原件的信息进行结构化处理。
    [0057]
    s142,对所述结构化处理的信息进行可视化。
    [0058]
    于一实施例中,s142具体包括以下步骤:
    [0059]
    (1)将所述xml原件的信息按照不同字段进行分行显示。
    [0060]
    具体地,针对某一xml原件,可视化之前,信息内容为:《patient》《name》bill《/name》《age》30《/age》《info》《diagno》diabetes《diagno》《stage》ⅱ《/stage》《doctor》
    dr.dre《doctor》《/info》《/patient》。
    [0061]
    在可视化之后,信息内容为:
    [0062][0063][0064]
    (2)在显示的可视化界面中,框选出于所述关键字段对应的待标注数据。
    [0065]
    (3)将所述待标注数据关联快捷键指令。
    [0066]
    请参阅图3,显示为本发明的基于人机交互的xml信息提取方法于一实施例中的可视化操作示意图。如图3所示,在显示的可视化界面中,框选出于所述关键字段对应的待标注数据:张三、60、骨折。将所述待标注数据张三、60、骨折关联快捷键指令,例如用户点击“骨折”后,“骨折”这一方框进行高亮,表示选中,处于标注状态。
    [0067]
    s143,获取用户于可视化界面上针对关键字段生成的标注指令。
    [0068]
    具体地,针对关键字段“诊断”,获取“骨折”的标注指令。
    [0069]
    s144,根据“骨折”的标注指令确定该关键字段的路径。
    [0070]
    具体地,根据所述标注指令确定所述关键字段的路径为/people/diag,即/病人/诊断。
    [0071]
    s145,判断所述路径是否存在,响应于所述路径不存在,针对同一关键字段,更新所述信息提取规则。
    [0072]
    具体地,针对“诊断”这一关键字段,已存在的路径有/patient/diagnosis、/patient/diagno,但不存在这一路径/people/diag,则需要更新所述信息提取规则。
    [0073]
    s15,利用所述映射关系对所述信息提取规则进行迭代更新。
    [0074]
    于一实施例中,s15具体包括以下步骤:
    [0075]
    基于所述映射关系确定新增路径,利用编辑距离为基础的聚类算法和/或最长公共子序列算法,生成迭代更新的所述信息提取规则。
    [0076]
    具体地,针对“诊断”这一关键字段,已存在的路径有/patient/diagnosis、/patient/diagno,但不存在这一路径/people/diag,则原先的提取规则/*[matches(@name,'(patient))')]//*[matches(@name,'diagno')],合并后新生成的诊断的提取规则为:/*[matches(@name,'(patient)|(people)')]//*[matches(@name,'diag')]。
    [0077]
    于一实施例中,在利用所述映射关系对所述信息提取规则进行迭代更新的过程中,所述基于人机交互的xml信息提取方法还包括:
    [0078]
    保存并记录历届生成的信息提取规则,并根据现有所有标注,计算混淆矩阵;绘制
    准确率、召回率和/或f1分数随标注轮次的曲线;当曲线趋于平稳时,发出停止标注的提示。
    [0079]
    请参阅图4,显示为本发明的基于人机交互的xml信息提取方法于一实施例中的规则评估示意图。如图4所示,由上往下,依次为准确率precission、f1分数f1 score和召回率recall。后期三根线合并在一起,并趋于平稳,此时可以发出停止标注的提示。
    [0080]
    于一实施例中,在利用所述映射关系对所述信息提取规则进行迭代更新的过程中,所述基于人机交互的xml信息提取方法还包括:
    [0081]
    抽选xml文件;在所抽选的xml文件中,利用迭代更新的所述信息提取规则进行信息模拟抽取,生成抽取结果;根据所述抽取结果发出继续标注、完成工作或进行报错的提示。
    [0082]
    请参阅图5,显示为本发明的基于人机交互的xml信息提取方法于一实施例中的抽取结果界面示意图。如图5所示,需要继续标注的情况是指:在标注早期,应该不断进行标注,直到模拟抽取结果显示能从大部分旧数据系统成功抽取数据。进行报错的情况是指:在不断标注的过程中,可能由于人工失误或者旧数据系统本身问题造成抽取结果异常,那么应该报错进行相应处理。
    [0083]
    如图5所示,正常情况下,所呈现的抽取结果包括tp(true positive)样本、tn(true negative)样本、fp(false positive)样本和fn(false negative)样本均与标注结果吻合。如果发生异常,则有可能出现了标注失误或者旧数据系统间兼容性问题。
    [0084]
    此外,本发明在应用于实际的数据系统中时还会在未标注数据中进行试验,供人工参考,参考内容包括是否由于标注不足未能正确提取,应该继续标注;还是发生了异常提取应该进行排查。
    [0085]
    本发明所述的基于人机交互的xml信息提取方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
    [0086]
    本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述基于人机交互的xml信息提取方法。
    [0087]
    本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的计算机可读存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的计算机存储介质。
    [0088]
    请参阅图6,显示为本发明的电子设备于一实施例中的结构连接示意图。如图6所示,本实施例提供一种电子设备6,具体包括:处理器61及存储器62;所述存储器62用于存储计算机程序,所述处理器61用于执行所述存储器62存储的计算机程序,以使所述电子设备6执行所述基于人机交互的xml信息提取方法的各个步骤。
    [0089]
    上述的处理器61可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field programmable gatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
    [0090]
    上述的存储器62可能包含随机存取存储器(random access memory,简称ram),也
    可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
    [0091]
    于实际应用中,所述电子设备可以是包括存储器、存储控制器、一个或多个处理单元(cpu)、外设接口、rf电路、音频电路、扬声器、麦克风、输入/输出(i/o)子系统、显示屏、其他输出或控制设备,以及外部端口等部分或所有组件的计算机;所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、个人数字助理(personal digital assistant,简称pda)等个人电脑。在另一些实施方式中,所述电子设备还可以是服务器,所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上,也可以是由分布的或集中的服务器集群构成的云服务器,本实施例不作限定。
    [0092]
    综上所述,本发明所述基于人机交互的xml信息提取方法、存储介质及电子设备可以免去信息提取相关技术的学习成本,通过标注实现自动学习提取规则,能够自动从各系统中提炼信息抽取规则并通过人机交互建立从规则到特定信息字段的映射关系,最后生成通用提取规则,最大限度地减少xml数据中信息提取所用的人力物力,提高了生产效率。本发明有效克服了现有技术中的种种缺点而具有高度产业利用价值。
    [0093]
    上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

    技术特征:
    1.一种基于人机交互的xml信息提取方法,其特征在于,所述基于人机交互的xml信息提取方法包括:获取xml文件中的字段信息;根据所述字段信息生成信息提取规则;按照所述字段信息的路径,对所述信息提取规则进行去重;基于用户的字段标注操作,建立所述信息提取规则到关键字段的映射关系;利用所述映射关系对所述信息提取规则进行迭代更新。2.根据权利要求1所述的基于人机交互的xml信息提取方法,其特征在于,所述获取xml文件中的字段信息的步骤,包括:利用解析器获取各系统信息与路径的表单;由所述表单中解析各系统xml中各字段信息。3.根据权利要求2所述的基于人机交互的xml信息提取方法,其特征在于,所述按照所述字段信息的路径,对所述信息提取规则进行去重的步骤,包括:查找所述表单中各字段信息的路径;针对相同的路径,仅保留一个。4.根据权利要求1所述的基于人机交互的xml信息提取方法,其特征在于,所述基于用户的字段标注操作,建立所述信息提取规则到关键字段的映射关系的步骤,包括:抽取还未进行标注的xml原件,将所述xml原件的信息进行结构化处理;对所述结构化处理的信息进行可视化;获取用户于可视化界面上针对关键字段生成的标注指令;根据所述标注指令确定所述关键字段的路径;判断所述路径是否存在,响应于所述路径不存在,针对同一关键字段,更新所述信息提取规则。5.根据权利要求4所述的基于人机交互的xml信息提取方法,其特征在于,所述对所述结构化处理的信息进行可视化的步骤,包括:将所述xml原件的信息按照不同字段进行分行显示;在显示的可视化界面中,框选出于所述关键字段对应的待标注数据;将所述待标注数据关联快捷键指令。6.根据权利要求1所述的基于人机交互的xml信息提取方法,其特征在于,所述利用所述映射关系对所述信息提取规则进行迭代更新的步骤,包括:基于所述映射关系确定新增路径,利用编辑距离为基础的聚类算法和/或最长公共子序列算法,生成迭代更新的所述信息提取规则。7.根据权利要求1所述的基于人机交互的xml信息提取方法,其特征在于,在利用所述映射关系对所述信息提取规则进行迭代更新的过程中,所述基于人机交互的xml信息提取方法还包括:保存并记录历届生成的信息提取规则,并根据现有所有标注,计算混淆矩阵;绘制准确率、召回率和/或f1分数随标注轮次的曲线;当曲线趋于平稳时,发出停止标注的提示。8.根据权利要求1所述的基于人机交互的xml信息提取方法,其特征在于,在利用所述
    映射关系对所述信息提取规则进行迭代更新的过程中,所述基于人机交互的xml信息提取方法还包括:抽选xml文件;在所抽选的xml文件中,利用迭代更新的所述信息提取规则进行信息模拟抽取,生成抽取结果;根据所述抽取结果发出继续标注、完成工作或进行报错的提示。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于人机交互的xml信息提取方法。10.一种电子设备,其特征在于,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如权利要求1至8中任一项所述的基于人机交互的xml信息提取方法。

    技术总结
    本发明提供一种基于人机交互的XML信息提取方法、存储介质及电子设备,所述基于人机交互的XML信息提取方法包括:获取XML文件中的字段信息;根据所述字段信息生成信息提取规则;按照所述字段信息的路径,对所述信息提取规则进行去重;基于用户的字段标注操作,建立所述信息提取规则到关键字段的映射关系;利用所述映射关系对所述信息提取规则进行迭代更新。本发明可以最大程度地降低了XML数据中信息提取的成本,提高了生产效率。提高了生产效率。提高了生产效率。


    技术研发人员:张少典 马汉东 沈子浩 朱珉 薛颜波
    受保护的技术使用者:上海森亿医疗科技有限公司
    技术研发日:2022.02.11
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-18198.html

    最新回复(0)