法医口述记录的信息提炼与结构化处理方法及相关装置

    专利查询2025-02-26  13


    本发明属于法医口述信息处理,涉及一种法医口述记录的信息提炼与结构化处理方法及相关装置。


    背景技术:

    1、在法医专业实践中,口述记录信息扮演着至关重要的角色,它是案件调查中不可或缺的证据类型。法医专家在案件现场往往通过口述记录来捕捉关键细节,如时间、地点、涉事人物及其相互关系、案件性质等核心信息。然而,这些口述资料通常呈现出无序和复杂的特性,亟需经过精细的提炼和结构化处理,以便进行高效的检索、分析和后续的运用。

    2、目前,法医口述记录的处理工作仍主要依赖于人工操作,这种传统方法不仅效率不高,而且在信息提取过程中常常出现遗漏和误差。因此,亟需开发一种依靠人工智能技术,自动化处理口述记录信息的方法。


    技术实现思路

    1、本发明提供一种法医口述记录的信息提炼与结构化处理方法及相关装置,以解决现有技术中人工处理法医口述记录的方式容易出现遗漏和误差的技术问题。

    2、为达到上述目的,本发明采用以下技术方案予以实现:

    3、第一方面,本发明提供一种法医口述记录的信息提炼与结构化处理方法,包括以下步骤:

    4、将法医口述音频文件输入预先训练好的transformer模型,得到文本转录信息;

    5、将文本转录信息通过大语言模型提取关键信息;

    6、将提取的关键信息按照数据结构进行组织和整合,构建法医口述记录的结构化数据库。

    7、第二方面,本发明提供一种法医口述记录的信息提炼与结构化处理系统,包括:

    8、文本转录模块,用于将法医口述音频文件输入预先训练好的transformer模型,得到文本转录信息;

    9、信息提取模块,用于将文本转录信息通过大语言模型提取关键信息;

    10、结构化处理模块,用于将提取的关键信息按照数据结构进行组织和整合,构建法医口述记录的结构化数据库。

    11、第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。

    12、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。

    13、与现有技术相比,本发明具有以下有益效果:

    14、本发明公开了一种法医口述记录的信息提炼与结构化处理方法及相关装置,在现场通过录音设备对法医口述内容进行采集;对采集到的音频文件进行去噪处理;对数据清洗后的音频文件采用transformer模型进行语音识别,生成文本转录信息;对文本转录信息用大语言模型进行数据提取和结构化处理;在预设数据库中,为每个案件标识设置一存储区间,将案件关键信息和结构化数据存入对应区间,设立一个位置信息分区,将案件存储区间位置信息和关键信息记录至分区。本发明能够自动化处理口述记录信息,确保信息提取准确完整,便于后续查询分析处理,提高法医工作效率和质量。

    15、进一步地,本发明采用最小均方滤波器或递归最小二乘滤波器对音频文件进行预处理,能够提高信噪比,且在面对不同的噪声环境和信号特性时,能具有更强的灵活性和适应性。

    16、进一步地,本发明在模型的训练过程中,通过将模型的预测结果与真实的文本转录进行比较,使用反向传播算法来更新模型的参数,使得模型能够更好地拟合训练数据。



    技术特征:

    1.一种法医口述记录的信息提炼与结构化处理方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的一种法医口述记录的信息提炼与结构化处理方法,其特征在于,所述法医口述音频文件在输入transformer模型前利用最小均方滤波器或递归最小二乘滤波器进行去噪预处理。

    3.根据权利要求2所述的一种法医口述记录的信息提炼与结构化处理方法,其特征在于,所述利用最小均方滤波器进行去噪预处理的步骤具体包括:利用最小均方滤波器不断迭代自适应滤波器,调整滤波器的权重来最小化输出信号与期望信号之间的均方误差,通过计算误差信号和输入信号之间的乘积来更新滤波器的权重;具体的迭代更新规则如下:

    4.根据权利要求2所述的一种法医口述记录的信息提炼与结构化处理方法,其特征在于,所述最小二乘滤波器通过递归地计算最小二乘准则来更新滤波器的权重,具体的更新规则如下:

    5.根据权利要求1所述的一种法医口述记录的信息提炼与结构化处理方法,其特征在于,所述transformer模型包括编码器和解码器;所述编码器和解码器均包含多层自注意力机制和前馈神经网络;

    6.根据权利要求1所述的一种法医口述记录的信息提炼与结构化处理方法,其特征在于,所述关键信息包括案件时间、案件地点、人物关系和案件类型。

    7.根据权利要求1所述的一种法医口述记录的信息提炼与结构化处理方法,其特征在于,所述将提取的关键信息按照数据结构进行组织和整合,构建法医口述记录的结构化数据库的步骤,具体包括:

    8.一种法医口述记录的信息提炼与结构化处理系统,其特征在于,包括:

    9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。

    10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。


    技术总结
    本发明公开了一种法医口述记录的信息提炼与结构化处理方法及相关装置,属于法医口述信息处理技术领域;首先,将法医口述音频文件输入预先训练好的Transformer模型,得到文本转录信息;然后将文本转录信息通过大语言模型提取关键信息;最后将提取的关键信息按照数据结构进行组织和整合,构建法医口述记录的结构化数据库。本发明能够接收并转换口述记录信息为文本数据,利用先进的大语言模型进行深入的自然语言处理,包括精确的分词、词性标注和实体识别等步骤,从而从口述记录中提炼出关键信息。这些关键信息随后被组织并整合入结构化数据库中,以便于进行深入的数据分析、挖掘和应用,从而为法医鉴定、案件研究和司法调查提供了强有力的数据支持。

    技术研发人员:沙云翔,王保民,刘德民,杨雨萌,张诗尧
    受保护的技术使用者:西安交通大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-26089.html

    最新回复(0)