产业图谱构建方法、装置、设备及存储介质与流程

    专利查询2023-02-07  90



    1.本发明涉及人工智能技术领域,尤其涉及一种产业图谱构建方法、装置、设备及存储介质。


    背景技术:

    2.在目前的产业图谱构建方式中,主要通过业务人员大量阅读产业各个环节下的文本信息,进而从文本信息中提炼出逻辑关系和时空布局关系,并依据产业部门在特定的逻辑关系和时空布局关系构建出产业图谱,然而,由于现在的产业信息量错综复杂,导致无法准确并快速的提炼出逻辑关系和时空布局关系,从而造成产业图谱的生成方式低下。


    技术实现要素:

    3.鉴于以上内容,有必要提供一种产业图谱构建方法、装置、设备及存储介质,能够准确并快速的生成产业图谱。
    4.一方面,本发明提出一种产业图谱构建方法,所述产业图谱构建方法包括:
    5.获取产业训练文本,并获取所述产业训练文本的文本实体信息;
    6.获取预设网络,所述预设网络包括字向量层、双向长短期记忆网络层及实体识别层;
    7.基于所述字向量层及所述双向长短期记忆网络层对所述产业训练文本中每个文本字符进行编码,得到每个文本字符的目标时序向量;
    8.基于所述实体识别层对所述目标时序向量进行识别,得到所述产业训练文本的预测实体及预测标签;
    9.根据所述文本实体信息、所述预测实体及所述预测标签调整所述预设网络,得到实体信息识别模型;
    10.获取待解析文本,并将所述待解析文本输入至所述实体信息识别模型中,得到产业实体信息及产地实体信息;
    11.对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,得到实体信息对;
    12.根据所述产业实体信息在所述待解析文本中的文本顺序拼接所述实体信息对,得到产业图谱。
    13.根据本发明优选实施例,所述双向长短期记忆网络层包括正向长短期记忆网络层及反向长短期记忆网络层,所述基于所述字向量层及所述双向长短期记忆网络层对所述产业训练文本中每个文本字符进行编码,得到每个文本字符的目标时序向量包括:
    14.基于所述字向量层对所述产业训练文本进行编码,得到每个文本字符的字符向量;
    15.定位每个文本字符在所述产业训练文本中的字符顺序;
    16.依照所述字符顺序从小至大的顺序将所述字符向量输入至所述正向长短期记忆
    网络层,得到每个文本字符的正向时序向量,并依照所述字符顺序从大至小的顺序将所述字符向量输入至所述反向长短期记忆网络层,得到每个文本字符的反向时序向量;
    17.拼接所述正向时序向量及所述反向时序向量,得到所述目标时序向量。
    18.根据本发明优选实施例,所述依照所述字符顺序从小至大的顺序将所述字符向量输入至所述正向长短期记忆网络层,得到每个文本字符的正向时序向量包括:
    19.对于任一文本字符,获取所述字符顺序小于该任一文本字符的邻近字符作为目标字符;
    20.获取所述目标字符的状态向量;
    21.拼接所述状态向量及所述任一文本字符的字符向量,得到输入向量;
    22.基于所述正向长短期记忆网络层的预设网络矩阵及预设偏置值计算所述输入向量,得到该任一文本字符的正向时序向量。
    23.根据本发明优选实施例,所述基于所述实体识别层对所述目标时序向量进行识别,得到所述产业训练文本的预测实体及预测标签包括:
    24.计算所述目标时序向量中每个向量元素的总和,得到每个文本字符的字符分值;
    25.从所述实体识别层中获取分数阈值及预设权值矩阵;
    26.将所述字符分值大于所述分数阈值的文本字符确定为所述预测实体;
    27.计算与所述预测实体对应的目标时序向量及所述预设权值矩阵的乘积,得到所述预测实体在每个预设标签上的实体概率;
    28.将所述实体概率最大的预设标签确定为所述预测实体的预测标签。
    29.根据本发明优选实施例,所述文本实体信息中包括训练实体及实体标签,所述根据所述文本实体信息、所述预测实体及所述预测标签调整所述预设网络,得到实体信息识别模型包括:
    30.统计所述训练实体的实体总量;
    31.计算与所述训练实体相同的预测实体的数量作为第一预测数量,并计算与所述实体标签相同的预测标签的数量作为第二预测数量;
    32.根据所述实体总量、所述第一预测数量及所述第二预测数量计算所述预设网络的网络损失值;
    33.基于所述网络损失值调整所述双向长短期记忆网络层及所述实体识别层的网络参数,直至所述网络损失值小于预设阈值,得到所述实体信息识别模型。
    34.根据本发明优选实施例,所述对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,得到实体信息对包括:
    35.基于所述产业实体信息及所述产地实体信息从所述待解析文本中筛选文本语句;
    36.对所述文本语句进行分词处理,得到多个语句分词;
    37.识别每个语句分词在所述文本语句的分词词性;
    38.基于所述分词词性为预设词性的语句分词对所述产业实体信息及所述产地实体信息进行依赖识别,得到所述产业实体信息及所述产地实体信息的依赖关系;
    39.将同一组依赖关系的产业实体信息及产地实体信息确定为所述实体信息对。
    40.根据本发明优选实施例,所述获取待解析文本包括:
    41.从待处理文本库中获取任一待处理文本,并获取所述任一待处理文本的文本标
    识;
    42.从所述待处理文本库的文本关联表中获取与所述文本标识对应的目标标识;
    43.基于所述目标标识从所述待处理文本库中获取与所述目标标识对应的文本作为所述任一待处理文本的关联文本;
    44.依照所述文本关联表中的关联顺序拼接所述任一待处理文本及所述关联文本,得到所述待解析文本。
    45.另一方面,本发明还提出一种产业图谱构建装置,所述产业图谱构建装置包括:
    46.获取单元,用于获取产业训练文本,并获取所述产业训练文本的文本实体信息;
    47.所述获取单元,还用于获取预设网络,所述预设网络包括字向量层、双向长短期记忆网络层及实体识别层;
    48.编码单元,用于基于所述字向量层及所述双向长短期记忆网络层对所述产业训练文本中每个文本字符进行编码,得到每个文本字符的目标时序向量;
    49.识别单元,用于基于所述实体识别层对所述目标时序向量进行识别,得到所述产业训练文本的预测实体及预测标签;
    50.调整单元,用于根据所述文本实体信息、所述预测实体及所述预测标签调整所述预设网络,得到实体信息识别模型;
    51.输入单元,用于获取待解析文本,并将所述待解析文本输入至所述实体信息识别模型中,得到产业实体信息及产地实体信息;
    52.匹配单元,用于对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,得到实体信息对;
    53.拼接单元,用于根据所述产业实体信息在所述待解析文本中的文本顺序拼接所述实体信息对,得到产业图谱。
    54.另一方面,本发明还提出一种电子设备,所述电子设备包括:
    55.存储器,存储计算机可读指令;及
    56.处理器,执行所述存储器中存储的计算机可读指令以实现所述产业图谱构建方法。
    57.另一方面,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述产业图谱构建方法。
    58.由以上技术方案可以看出,本发明基于所述产业训练文本及所述文本实体信息对预设网络进行训练,能够提高所述实体信息识别模型对实体信息的识别能力,进而通过所述实体信息识别模型对所述待解析文本进行解析,提高所述产业实体信息及所述产地实体信息的准确性,对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,提高所述实体信息对的准确性,从而提高所述产业图谱的生成准确性。另外,本发明通过所述实体信息识别模型能够快速从所述待解析文本中抽取出所述产业实体信息及所述产地实体信息,从而能够提高所述产业图谱的生成效率。
    附图说明
    59.图1是本发明产业图谱构建方法的较佳实施例的流程图。
    60.图2是本发明产业图谱构建装置的较佳实施例的功能模块图。
    61.图3是本发明实现产业图谱构建方法的较佳实施例的电子设备的结构示意图。
    具体实施方式
    62.为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
    63.如图1所示,是本发明产业图谱构建方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
    64.所述产业图谱构建方法可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
    65.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
    66.所述产业图谱构建方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的计算机可读指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字信号处理器(digital signal processor,dsp)、嵌入式设备等。
    67.所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(personal digital assistant,pda)、游戏机、交互式网络电视(internet protocol television,iptv)、智能穿戴式设备等。
    68.所述电子设备可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络电子设备、多个网络电子设备组成的电子设备组或基于云计算(cloud computing)的由大量主机或网络电子设备构成的云。
    69.所述电子设备所在的网络包括,但不限于:互联网、广域网、城域网、局域网、虚拟专用网络(virtual private network,vpn)等。
    70.s10,获取产业训练文本,并获取所述产业训练文本的文本实体信息。
    71.在本发明的至少一个实施例中,所述产业训练文本是指与具体产业相关的文本信息,所述产业训练文本中包括具体产业及该具体产业的产业执行地。
    72.所述文本实体信息包括训练实体及实体标签,所述训练实体是指具体产业或者具体执行地,所述实体标签用于标识所述训练实体为产业名称或者产业地方等。
    73.s11,获取预设网络,所述预设网络包括字向量层、双向长短期记忆网络层及实体识别层。
    74.在本发明的至少一个实施例中,所述字向量层用于对文本字符进行编码。
    75.所述双向长短期记忆网络层包括正向长短期记忆网络层及反向长短期记忆网络层。所述正向长短期记忆网络层用于对文本字符进行正向时序预测,所述反向长短期记忆
    网络层对文本字符进行反向时序预测。
    76.所述实体识别层用于对文本字符进行命名实体识别。
    77.s12,基于所述字向量层及所述双向长短期记忆网络层对所述产业训练文本中每个文本字符进行编码,得到每个文本字符的目标时序向量。
    78.在本发明的至少一个实施例中,所述目标时序向量包括每个文本字符的正向时序信息及反向时序信息。
    79.在本发明的至少一个实施例中,所述电子设备基于所述字向量层及所述双向长短期记忆网络层对所述产业训练文本中每个文本字符进行编码,得到每个文本字符的目标时序向量包括:
    80.基于所述字向量层对所述产业训练文本进行编码,得到每个文本字符的字符向量;
    81.定位每个文本字符在所述产业训练文本中的字符顺序;
    82.依照所述字符顺序从小至大的顺序将所述字符向量输入至所述正向长短期记忆网络层,得到每个文本字符的正向时序向量,并依照所述字符顺序从大至小的顺序将所述字符向量输入至所述反向长短期记忆网络层,得到每个文本字符的反向时序向量;
    83.拼接所述正向时序向量及所述反向时序向量,得到所述目标时序向量。
    84.通过依照所述字符顺序将所述字符向量输入至所述双向长短期记忆网络层,能够辅助所述双向长短期记忆网络层快速识别出所述字符向量在所述产业训练文本中的字符顺序,提高所述目标时序向量的生成效率。
    85.具体地,所述电子设备依照所述字符顺序从小至大的顺序将所述字符向量输入至所述正向长短期记忆网络层,得到每个文本字符的正向时序向量包括:
    86.对于任一文本字符,获取所述字符顺序小于该任一文本字符的邻近字符作为目标字符;
    87.获取所述目标字符的状态向量;
    88.拼接所述状态向量及所述任一文本字符的字符向量,得到输入向量;
    89.基于所述正向长短期记忆网络层的预设网络矩阵及预设偏置值计算所述输入向量,得到该任一文本字符的正向时序向量。
    90.其中,所述状态向量是指所述目标字符的正向时序向量。需要说明的是,所述产业训练文本中第一个文本字符的状态向量为所述字符向量。
    91.所述预设网络矩阵及所述预设偏置值均为所述正向长短期记忆网络层的网络参数。
    92.通过上述实施方式,能够快速生成所述正向时序向量。
    93.具体地,所述电子设备依照所述字符顺序从大至小的顺序将所述字符向量输入至所述反向长短期记忆网络层,得到每个文本字符的反向时序向量的方式与所述电子设备依照所述字符顺序从小至大的顺序将所述字符向量输入至所述正向长短期记忆网络层,得到每个文本字符的正向时序向量的方式相似,本发明对此不再赘述。
    94.s13,基于所述实体识别层对所述目标时序向量进行识别,得到所述产业训练文本的预测实体及预测标签。
    95.在本发明的至少一个实施例中,所述预测实体是指所述预设网络对所述产业训练
    文本进行识别后所得到的实体信息,所述预测标签是指所述预设网络对所述实体信息进行识别预测后所得到的标签信息。其中,所述预测实体与所述训练实体对应,所述预测标签与所述实体标签对应。
    96.在本发明的至少一个实施例中,所述电子设备基于所述实体识别层对所述目标时序向量进行识别,得到所述产业训练文本的预测实体及预测标签包括:
    97.计算所述目标时序向量中每个向量元素的总和,得到每个文本字符的字符分值;
    98.从所述实体识别层中获取分数阈值及预设权值矩阵;
    99.将所述字符分值大于所述分数阈值的文本字符确定为所述预测实体;
    100.计算与所述预测实体对应的目标时序向量及所述预设权值矩阵的乘积,得到所述预测实体在每个预设标签上的实体概率;
    101.将所述实体概率最大的预设标签确定为所述预测实体的预测标签。
    102.其中,所述分数阈值及所述预设权值矩阵均为所述实体识别层的网络参数。
    103.通过上述实施方式,能够避免对所有文本字符进行标签预测,从而能够提高所述预测标签的生成效率。
    104.s14,根据所述文本实体信息、所述预测实体及所述预测标签调整所述预设网络,得到实体信息识别模型。
    105.在本发明的至少一个实施例中,所述实体信息识别模型是指网络损失值最小的预设网络。
    106.在本发明的至少一个实施例中,所述电子设备根据所述文本实体信息、所述预测实体及所述预测标签调整所述预设网络,得到实体信息识别模型包括:
    107.统计所述训练实体的实体总量;
    108.计算与所述训练实体相同的预测实体的数量作为第一预测数量,并计算与所述实体标签相同的预测标签的数量作为第二预测数量;
    109.根据所述实体总量、所述第一预测数量及所述第二预测数量计算所述预设网络的网络损失值,所述网络损失值的计算公式为:
    110.其中,y是指所述网络损失值,n是指所述实体总量,x1是指所述第一预测数量,x2是指所述第二预测数量;
    111.基于所述网络损失值调整所述双向长短期记忆网络层及所述实体识别层的网络参数,直至所述网络损失值小于预设阈值,得到所述实体信息识别模型。
    112.通过所述实体总量、所述第一预测数量及所述第二预测数量,能够准确的计算出所述网络损失值,从而提高所述实体信息识别模型的训练精度。
    113.s15,获取待解析文本,并将所述待解析文本输入至所述实体信息识别模型中,得到产业实体信息及产地实体信息。
    114.在本发明的至少一个实施例中,所述待解析文本是指需要进行产业图谱分析的文本信息。所述待解析文本可以根据用户发送的请求进行提取。
    115.所述产业实体信息是指具体的产业,例如,a产业,所述产地实体信息是指具体的地方,例如,c地。
    116.在本发明的至少一个实施例中,所述电子设备获取待解析文本包括:
    117.从待处理文本库中获取任一待处理文本,并获取所述任一待处理文本的文本标识;
    118.从所述待处理文本库的文本关联表中获取与所述文本标识对应的目标标识;
    119.基于所述目标标识从所述待处理文本库中获取与所述目标标识对应的文本作为所述任一待处理文本的关联文本;
    120.依照所述文本关联表中的关联顺序拼接所述任一待处理文本及所述关联文本,得到所述待解析文本。
    121.在本发明的至少一个实施例中,所述电子设备将所述待解析文本输入至所述实体信息识别模型中,得到产业实体信息及产地实体信息的方式与所述电子设备基于所述预设网络对所述产业训练文本进行分析,得到所述预测实体及所述预测标签的方式相似,本发明对此不再赘述。
    122.s16,对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,得到实体信息对。
    123.在本发明的至少一个实施例中,所述实体信息对是指所述产业实体信息与所述产地实体信息的配对关系。
    124.在本发明的至少一个实施例中,所述电子设备对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,得到实体信息对包括:
    125.基于所述产业实体信息及所述产地实体信息从所述待解析文本中筛选文本语句;
    126.对所述文本语句进行分词处理,得到多个语句分词;
    127.识别每个语句分词在所述文本语句的分词词性;
    128.基于所述分词词性为预设词性的语句分词对所述产业实体信息及所述产地实体信息进行依赖识别,得到所述产业实体信息及所述产地实体信息的依赖关系;
    129.将同一组依赖关系的产业实体信息及产地实体信息确定为所述实体信息对。
    130.其中,所述预设词性通常设置为动词。
    131.例如,文本语句为:a产业和b产业将重点在c产地执行,经识别词性,得到语句分词“执行”的分词词性为动词,经对所述文本语句进行依赖识别,得到a产业依赖于c产地,b产业依赖于c产地,则可以得到实体信息对分别为:a产业-c产地,b产业-c产地。
    132.通过上述实施方式,能够准确的识别出所述依赖关系,进而基于所述依赖关系能够快速的生成所述实体信息对。
    133.s17,根据所述产业实体信息在所述待解析文本中的文本顺序拼接所述实体信息对,得到产业图谱。
    134.需要强调的是,为进一步保证上述产业图谱的私密和安全性,上述产业图谱还可以存储于一区块链的节点中。
    135.在本发明的至少一个实施例中,所述文本顺序是指所述产业实体信息在所述待解析文本中的具体排序。
    136.所述产业图谱中包括多个产业形成的链路及每个产业所对应的产地。例如,所述产业图谱可以为g产业(c产地)

    k产业(f产地)

    l产业(e产地)。
    137.由以上技术方案可以看出,本发明基于所述产业训练文本及所述文本实体信息对预设网络进行训练,能够提高所述实体信息识别模型对实体信息的识别能力,进而通过所
    述实体信息识别模型对所述待解析文本进行解析,提高所述产业实体信息及所述产地实体信息的准确性,对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,提高所述实体信息对的准确性,从而提高所述产业图谱的生成准确性。另外,本发明通过所述实体信息识别模型能够快速从所述待解析文本中抽取出所述产业实体信息及所述产地实体信息,从而能够提高所述产业图谱的生成效率。
    138.如图2所示,是本发明产业图谱构建装置的较佳实施例的功能模块图。所述产业图谱构建装置11包括获取单元110、编码单元111、识别单元112、调整单元113、输入单元114、匹配单元115及拼接单元116。本发明所称的模块/单元是指一种能够被处理器13所获取,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
    139.获取单元110获取产业训练文本,并获取所述产业训练文本的文本实体信息。
    140.在本发明的至少一个实施例中,所述产业训练文本是指与具体产业相关的文本信息,所述产业训练文本中包括具体产业及该具体产业的产业执行地。
    141.所述文本实体信息包括训练实体及实体标签,所述训练实体是指具体产业或者具体执行地,所述实体标签用于标识所述训练实体为产业名称或者产业地方等。
    142.所述获取单元110获取预设网络,所述预设网络包括字向量层、双向长短期记忆网络层及实体识别层。
    143.在本发明的至少一个实施例中,所述字向量层用于对文本字符进行编码。
    144.所述双向长短期记忆网络层包括正向长短期记忆网络层及反向长短期记忆网络层。所述正向长短期记忆网络层用于对文本字符进行正向时序预测,所述反向长短期记忆网络层对文本字符进行反向时序预测。
    145.所述实体识别层用于对文本字符进行命名实体识别。
    146.编码单元111基于所述字向量层及所述双向长短期记忆网络层对所述产业训练文本中每个文本字符进行编码,得到每个文本字符的目标时序向量。
    147.在本发明的至少一个实施例中,所述目标时序向量包括每个文本字符的正向时序信息及反向时序信息。
    148.在本发明的至少一个实施例中,所述编码单元111基于所述字向量层及所述双向长短期记忆网络层对所述产业训练文本中每个文本字符进行编码,得到每个文本字符的目标时序向量包括:
    149.基于所述字向量层对所述产业训练文本进行编码,得到每个文本字符的字符向量;
    150.定位每个文本字符在所述产业训练文本中的字符顺序;
    151.依照所述字符顺序从小至大的顺序将所述字符向量输入至所述正向长短期记忆网络层,得到每个文本字符的正向时序向量,并依照所述字符顺序从大至小的顺序将所述字符向量输入至所述反向长短期记忆网络层,得到每个文本字符的反向时序向量;
    152.拼接所述正向时序向量及所述反向时序向量,得到所述目标时序向量。
    153.通过依照所述字符顺序将所述字符向量输入至所述双向长短期记忆网络层,能够辅助所述双向长短期记忆网络层快速识别出所述字符向量在所述产业训练文本中的字符顺序,提高所述目标时序向量的生成效率。
    154.具体地,所述编码单元111依照所述字符顺序从小至大的顺序将所述字符向量输入至所述正向长短期记忆网络层,得到每个文本字符的正向时序向量包括:
    155.对于任一文本字符,获取所述字符顺序小于该任一文本字符的邻近字符作为目标字符;
    156.获取所述目标字符的状态向量;
    157.拼接所述状态向量及所述任一文本字符的字符向量,得到输入向量;
    158.基于所述正向长短期记忆网络层的预设网络矩阵及预设偏置值计算所述输入向量,得到该任一文本字符的正向时序向量。
    159.其中,所述状态向量是指所述目标字符的正向时序向量。需要说明的是,所述产业训练文本中第一个文本字符的状态向量为所述字符向量。
    160.所述预设网络矩阵及所述预设偏置值均为所述正向长短期记忆网络层的网络参数。
    161.通过上述实施方式,能够快速生成所述正向时序向量。
    162.具体地,所述编码单元111依照所述字符顺序从大至小的顺序将所述字符向量输入至所述反向长短期记忆网络层,得到每个文本字符的反向时序向量的方式与所述编码单元111依照所述字符顺序从小至大的顺序将所述字符向量输入至所述正向长短期记忆网络层,得到每个文本字符的正向时序向量的方式相似,本发明对此不再赘述。
    163.识别单元112基于所述实体识别层对所述目标时序向量进行识别,得到所述产业训练文本的预测实体及预测标签。
    164.在本发明的至少一个实施例中,所述预测实体是指所述预设网络对所述产业训练文本进行识别后所得到的实体信息,所述预测标签是指所述预设网络对所述实体信息进行识别预测后所得到的标签信息。其中,所述预测实体与所述训练实体对应,所述预测标签与所述实体标签对应。
    165.在本发明的至少一个实施例中,所述识别单元112基于所述实体识别层对所述目标时序向量进行识别,得到所述产业训练文本的预测实体及预测标签包括:
    166.计算所述目标时序向量中每个向量元素的总和,得到每个文本字符的字符分值;
    167.从所述实体识别层中获取分数阈值及预设权值矩阵;
    168.将所述字符分值大于所述分数阈值的文本字符确定为所述预测实体;
    169.计算与所述预测实体对应的目标时序向量及所述预设权值矩阵的乘积,得到所述预测实体在每个预设标签上的实体概率;
    170.将所述实体概率最大的预设标签确定为所述预测实体的预测标签。
    171.其中,所述分数阈值及所述预设权值矩阵均为所述实体识别层的网络参数。
    172.通过上述实施方式,能够避免对所有文本字符进行标签预测,从而能够提高所述预测标签的生成效率。
    173.调整单元113根据所述文本实体信息、所述预测实体及所述预测标签调整所述预设网络,得到实体信息识别模型。
    174.在本发明的至少一个实施例中,所述实体信息识别模型是指网络损失值最小的预设网络。
    175.在本发明的至少一个实施例中,所述调整单元113根据所述文本实体信息、所述预
    测实体及所述预测标签调整所述预设网络,得到实体信息识别模型包括:
    176.统计所述训练实体的实体总量;
    177.计算与所述训练实体相同的预测实体的数量作为第一预测数量,并计算与所述实体标签相同的预测标签的数量作为第二预测数量;
    178.根据所述实体总量、所述第一预测数量及所述第二预测数量计算所述预设网络的网络损失值,所述网络损失值的计算公式为:
    179.其中,y是指所述网络损失值,n是指所述实体总量,x1是指所述第一预测数量,x2是指所述第二预测数量;
    180.基于所述网络损失值调整所述双向长短期记忆网络层及所述实体识别层的网络参数,直至所述网络损失值小于预设阈值,得到所述实体信息识别模型。
    181.通过所述实体总量、所述第一预测数量及所述第二预测数量,能够准确的计算出所述网络损失值,从而提高所述实体信息识别模型的训练精度。
    182.输入单元114获取待解析文本,并将所述待解析文本输入至所述实体信息识别模型中,得到产业实体信息及产地实体信息。
    183.在本发明的至少一个实施例中,所述待解析文本是指需要进行产业图谱分析的文本信息。所述待解析文本可以根据用户发送的请求进行提取。
    184.所述产业实体信息是指具体的产业,例如,a产业,所述产地实体信息是指具体的地方,例如,c地。
    185.在本发明的至少一个实施例中,所述输入单元114获取待解析文本包括:
    186.从待处理文本库中获取任一待处理文本,并获取所述任一待处理文本的文本标识;
    187.从所述待处理文本库的文本关联表中获取与所述文本标识对应的目标标识;
    188.基于所述目标标识从所述待处理文本库中获取与所述目标标识对应的文本作为所述任一待处理文本的关联文本;
    189.依照所述文本关联表中的关联顺序拼接所述任一待处理文本及所述关联文本,得到所述待解析文本。
    190.在本发明的至少一个实施例中,所述输入单元114将所述待解析文本输入至所述实体信息识别模型中,得到产业实体信息及产地实体信息的方式与基于所述预设网络对所述产业训练文本进行分析,得到所述预测实体及所述预测标签的方式相似,本发明对此不再赘述。
    191.匹配单元115对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,得到实体信息对。
    192.在本发明的至少一个实施例中,所述实体信息对是指所述产业实体信息与所述产地实体信息的配对关系。
    193.在本发明的至少一个实施例中,所述匹配单元115对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,得到实体信息对包括:
    194.基于所述产业实体信息及所述产地实体信息从所述待解析文本中筛选文本语句;
    195.对所述文本语句进行分词处理,得到多个语句分词;
    196.识别每个语句分词在所述文本语句的分词词性;
    197.基于所述分词词性为预设词性的语句分词对所述产业实体信息及所述产地实体信息进行依赖识别,得到所述产业实体信息及所述产地实体信息的依赖关系;
    198.将同一组依赖关系的产业实体信息及产地实体信息确定为所述实体信息对。
    199.其中,所述预设词性通常设置为动词。
    200.例如,文本语句为:a产业和b产业将重点在c产地执行,经识别词性,得到语句分词“执行”的分词词性为动词,经对所述文本语句进行依赖识别,得到a产业依赖于c产地,b产业依赖于c产地,则可以得到实体信息对分别为:a产业-c产地,b产业-c产地。
    201.通过上述实施方式,能够准确的识别出所述依赖关系,进而基于所述依赖关系能够快速的生成所述实体信息对。
    202.拼接单元116根据所述产业实体信息在所述待解析文本中的文本顺序拼接所述实体信息对,得到产业图谱。
    203.需要强调的是,为进一步保证上述产业图谱的私密和安全性,上述产业图谱还可以存储于一区块链的节点中。
    204.在本发明的至少一个实施例中,所述文本顺序是指所述产业实体信息在所述待解析文本中的具体排序。
    205.所述产业图谱中包括多个产业形成的链路及每个产业所对应的产地。例如,所述产业图谱可以为g产业(c产地)

    k产业(f产地)

    l产业(e产地)。
    206.由以上技术方案可以看出,本发明基于所述产业训练文本及所述文本实体信息对预设网络进行训练,能够提高所述实体信息识别模型对实体信息的识别能力,进而通过所述实体信息识别模型对所述待解析文本进行解析,提高所述产业实体信息及所述产地实体信息的准确性,对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,提高所述实体信息对的准确性,从而提高所述产业图谱的生成准确性。另外,本发明通过所述实体信息识别模型能够快速从所述待解析文本中抽取出所述产业实体信息及所述产地实体信息,从而能够提高所述产业图谱的生成效率。
    207.如图3所示,是本发明实现产业图谱构建方法的较佳实施例的电子设备的结构示意图。
    208.在本发明的一个实施例中,所述电子设备1包括,但不限于,存储器12、处理器13,以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令,例如产业图谱构建程序。
    209.本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。
    210.所述处理器13可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器13是所述电子设备1的运算核心和控制中心,利用各种接口和线路连接整个
    电子设备1的各个部分,及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。
    211.示例性的,所述计算机可读指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该计算机可读指令段用于描述所述计算机可读指令在所述电子设备1中的执行过程。例如,所述计算机可读指令可以被分割成获取单元110、编码单元111、识别单元112、调整单元113、输入单元114、匹配单元115及拼接单元116。
    212.所述存储器12可用于存储所述计算机可读指令和/或模块,所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块,以及调用存储在存储器12内的数据,实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器,例如:硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
    213.所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地,所述存储器12可以是具有实物形式的存储器,如内存条、tf卡(trans-flash card)等等。
    214.所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
    215.其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)。
    216.本发明所指区块链是分布式产业图谱构建、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
    217.结合图1,所述电子设备1中的所述存储器12存储计算机可读指令实现一种产业图谱构建方法,所述处理器13可执行所述计算机可读指令从而实现:
    218.获取产业训练文本,并获取所述产业训练文本的文本实体信息;
    219.获取预设网络,所述预设网络包括字向量层、双向长短期记忆网络层及实体识别层;
    220.基于所述字向量层及所述双向长短期记忆网络层对所述产业训练文本中每个文
    本字符进行编码,得到每个文本字符的目标时序向量;
    221.基于所述实体识别层对所述目标时序向量进行识别,得到所述产业训练文本的预测实体及预测标签;
    222.根据所述文本实体信息、所述预测实体及所述预测标签调整所述预设网络,得到实体信息识别模型;
    223.获取待解析文本,并将所述待解析文本输入至所述实体信息识别模型中,得到产业实体信息及产地实体信息;
    224.对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,得到实体信息对;
    225.根据所述产业实体信息在所述待解析文本中的文本顺序拼接所述实体信息对,得到产业图谱。
    226.具体地,所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
    227.在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
    228.所述计算机可读存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器13执行时用以实现以下步骤:
    229.获取产业训练文本,并获取所述产业训练文本的文本实体信息;
    230.获取预设网络,所述预设网络包括字向量层、双向长短期记忆网络层及实体识别层;
    231.基于所述字向量层及所述双向长短期记忆网络层对所述产业训练文本中每个文本字符进行编码,得到每个文本字符的目标时序向量;
    232.基于所述实体识别层对所述目标时序向量进行识别,得到所述产业训练文本的预测实体及预测标签;
    233.根据所述文本实体信息、所述预测实体及所述预测标签调整所述预设网络,得到实体信息识别模型;
    234.获取待解析文本,并将所述待解析文本输入至所述实体信息识别模型中,得到产业实体信息及产地实体信息;
    235.对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,得到实体信息对;
    236.根据所述产业实体信息在所述待解析文本中的文本顺序拼接所述实体信息对,得到产业图谱。
    237.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
    238.另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单
    元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
    239.因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
    240.此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
    241.最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

    技术特征:
    1.一种产业图谱构建方法,其特征在于,所述产业图谱构建方法包括:获取产业训练文本,并获取所述产业训练文本的文本实体信息;获取预设网络,所述预设网络包括字向量层、双向长短期记忆网络层及实体识别层;基于所述字向量层及所述双向长短期记忆网络层对所述产业训练文本中每个文本字符进行编码,得到每个文本字符的目标时序向量;基于所述实体识别层对所述目标时序向量进行识别,得到所述产业训练文本的预测实体及预测标签;根据所述文本实体信息、所述预测实体及所述预测标签调整所述预设网络,得到实体信息识别模型;获取待解析文本,并将所述待解析文本输入至所述实体信息识别模型中,得到产业实体信息及产地实体信息;对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,得到实体信息对;根据所述产业实体信息在所述待解析文本中的文本顺序拼接所述实体信息对,得到产业图谱。2.如权利要求1所述的产业图谱构建方法,其特征在于,所述双向长短期记忆网络层包括正向长短期记忆网络层及反向长短期记忆网络层,所述基于所述字向量层及所述双向长短期记忆网络层对所述产业训练文本中每个文本字符进行编码,得到每个文本字符的目标时序向量包括:基于所述字向量层对所述产业训练文本进行编码,得到每个文本字符的字符向量;定位每个文本字符在所述产业训练文本中的字符顺序;依照所述字符顺序从小至大的顺序将所述字符向量输入至所述正向长短期记忆网络层,得到每个文本字符的正向时序向量,并依照所述字符顺序从大至小的顺序将所述字符向量输入至所述反向长短期记忆网络层,得到每个文本字符的反向时序向量;拼接所述正向时序向量及所述反向时序向量,得到所述目标时序向量。3.如权利要求2所述的产业图谱构建方法,其特征在于,所述依照所述字符顺序从小至大的顺序将所述字符向量输入至所述正向长短期记忆网络层,得到每个文本字符的正向时序向量包括:对于任一文本字符,获取所述字符顺序小于该任一文本字符的邻近字符作为目标字符;获取所述目标字符的状态向量;拼接所述状态向量及所述任一文本字符的字符向量,得到输入向量;基于所述正向长短期记忆网络层的预设网络矩阵及预设偏置值计算所述输入向量,得到该任一文本字符的正向时序向量。4.如权利要求1所述的产业图谱构建方法,其特征在于,所述基于所述实体识别层对所述目标时序向量进行识别,得到所述产业训练文本的预测实体及预测标签包括:计算所述目标时序向量中每个向量元素的总和,得到每个文本字符的字符分值;从所述实体识别层中获取分数阈值及预设权值矩阵;将所述字符分值大于所述分数阈值的文本字符确定为所述预测实体;计算与所述预测实体对应的目标时序向量及所述预设权值矩阵的乘积,得到所述预测
    实体在每个预设标签上的实体概率;将所述实体概率最大的预设标签确定为所述预测实体的预测标签。5.如权利要求1所述的产业图谱构建方法,其特征在于,所述文本实体信息中包括训练实体及实体标签,所述根据所述文本实体信息、所述预测实体及所述预测标签调整所述预设网络,得到实体信息识别模型包括:统计所述训练实体的实体总量;计算与所述训练实体相同的预测实体的数量作为第一预测数量,并计算与所述实体标签相同的预测标签的数量作为第二预测数量;根据所述实体总量、所述第一预测数量及所述第二预测数量计算所述预设网络的网络损失值;基于所述网络损失值调整所述双向长短期记忆网络层及所述实体识别层的网络参数,直至所述网络损失值小于预设阈值,得到所述实体信息识别模型。6.如权利要求1所述的产业图谱构建方法,其特征在于,所述对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,得到实体信息对包括:基于所述产业实体信息及所述产地实体信息从所述待解析文本中筛选文本语句;对所述文本语句进行分词处理,得到多个语句分词;识别每个语句分词在所述文本语句的分词词性;基于所述分词词性为预设词性的语句分词对所述产业实体信息及所述产地实体信息进行依赖识别,得到所述产业实体信息及所述产地实体信息的依赖关系;将同一组依赖关系的产业实体信息及产地实体信息确定为所述实体信息对。7.如权利要求1所述的产业图谱构建方法,其特征在于,所述获取待解析文本包括:从待处理文本库中获取任一待处理文本,并获取所述任一待处理文本的文本标识;从所述待处理文本库的文本关联表中获取与所述文本标识对应的目标标识;基于所述目标标识从所述待处理文本库中获取与所述目标标识对应的文本作为所述任一待处理文本的关联文本;依照所述文本关联表中的关联顺序拼接所述任一待处理文本及所述关联文本,得到所述待解析文本。8.一种产业图谱构建装置,其特征在于,所述产业图谱构建装置包括:获取单元,用于获取产业训练文本,并获取所述产业训练文本的文本实体信息;所述获取单元,还用于获取预设网络,所述预设网络包括字向量层、双向长短期记忆网络层及实体识别层;编码单元,用于基于所述字向量层及所述双向长短期记忆网络层对所述产业训练文本中每个文本字符进行编码,得到每个文本字符的目标时序向量;识别单元,用于基于所述实体识别层对所述目标时序向量进行识别,得到所述产业训练文本的预测实体及预测标签;调整单元,用于根据所述文本实体信息、所述预测实体及所述预测标签调整所述预设网络,得到实体信息识别模型;输入单元,用于获取待解析文本,并将所述待解析文本输入至所述实体信息识别模型中,得到产业实体信息及产地实体信息;
    匹配单元,用于对所述产业实体信息及所述产地实体信息进行句法依存匹配处理,得到实体信息对;拼接单元,用于根据所述产业实体信息在所述待解析文本中的文本顺序拼接所述实体信息对,得到产业图谱。9.一种电子设备,其特征在于,所述电子设备包括:存储器,存储有计算机可读指令;及处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的产业图谱构建方法。10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的产业图谱构建方法。

    技术总结
    本发明涉及人工智能,提供一种产业图谱构建方法、装置、设备及存储介质。该方法基于字向量层及双向长短期记忆网络层对产业训练文本中每个文本字符进行编码,得到目标时序向量,基于实体识别层对目标时序向量进行识别,得到预测实体及预测标签,根据文本实体信息、预测实体及预测标签调整预设网络,得到实体信息识别模型,将待解析文本输入至实体信息识别模型中,得到产业实体信息及产地实体信息,对产业实体信息及产地实体信息进行句法依存匹配处理,得到实体信息对,根据产业实体信息在待解析文本中的文本顺序拼接实体信息对,得到产业图谱,提高产业图谱的生成效率及准确性。此外,本发明还涉及区块链技术,所述产业图谱可存储于区块链中。于区块链中。于区块链中。


    技术研发人员:杨婉琪
    受保护的技术使用者:平安国际智慧城市科技股份有限公司
    技术研发日:2022.03.15
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-15093.html

    最新回复(0)