一种围术期医疗问答数据合成方法及系统与流程

    专利查询2025-06-08  49


    本发明涉及一种围术期医疗问答数据合成方法及系统,属于医疗数据处理。


    背景技术:

    1、大语言模型凭借其强大的理解能力、生成能力和逻辑推理能力,在海量医疗数据处理方面展现出了巨大的潜力。随着大语言模型技术的不断发展,医疗领域的大模型研究已经取得了重要的进展。例如,med-plm、med-plm2可以对医疗相关问题给出较为专业的解答,bianque、huatuogpt在医疗问答方面也具备及其强大的性能。然而,目前医疗大模型的研究仍然存在困难,一个关键的问题就是缺少高质量数据。

    2、医疗大模型训练需要大量高质量数据,而现有的数据生成方法只参照有限的例子生成数据,并且不考虑真实的医疗场景,导致在多样性和可靠性不足进一步,导致数据质量较低。

    3、目前可以进行数据生成的大模型很多,例如openai的chatgpt,anthropic的claude,百度的文星一言等,一种常见的方法是通过人工撰写指令数据,然而这种方法成本高昂,且对于需要大量数据进行微调的大型语言模型来说可能不太实用。另一种方法是利用更加强大和成熟的大型语言模型自动合成指令数据,例如self-instruct。然而,如果没有大量高质量医疗知识来构建种子集,self-instruct可能无法生成可靠的医疗数据。在医疗领域,许多研究工作都基于self-instruct进行了改进。例如,在huatuo大模型的研究工作中,研究人员使用专业医疗知识库中的数据构建提示词,指导chatgpt生成与医疗相关的指令数据。在baize大模型的研究工作中,研究人员使用medquad数据集作为种子集,指导大型语言模型生成可用的医疗数据。然而,这些研究工作生成的数据多样性和可靠性都有待提高。


    技术实现思路

    1、本发明提供了一种围术期医疗问答数据合成方法及系统,以用于解决现有的数据生成方法只参照有限的例子生成数据,并且不考虑真实的医疗场景,导致在多样性和可靠性不足,导致数据质量较低的问题,本发明合成的医疗问答数据具备很好的多样和可靠性,数据质量较高;且合成的数据训练的医疗大模型具备更好的性能。

    2、本发明的技术方案是:根据本发明的第一方面,一种围术期医疗问答数据合成方法,所述方法的具体步骤如下:

    3、step1、进行病历组合,提供真实且多样的病历数据;包括数据去隐私、属性抽取、属性组合、规则清洗几个过程;

    4、step2、进行数据合成,合成医疗问答数据;包括多样化提示词构建和基于大模型自对话的数据生成两个步骤。

    5、所述数据去隐私包括:

    6、将电子病历数据的隐私信息去除,包括姓名、住址、生日、身份证号信息,防止患者或医生的隐私泄露。

    7、所述属性抽取包括:抽取与围术期医疗相关的属性并保存,包括患者诊断信息、治疗信息、既往病史、身体检查结果、实验室检查结果、特殊情况;在进行属性抽取时,患者诊断信息、治疗信息绑定到一起,以防止产生大量错误信息;此外,对于文字描述类属性,包括既往病史,只需要将具体的描述信息抽取并保存;而对于数字类属性,包括身体检查结果和实验室检查结果,设置一个取值范围,并基于此范围随机生成数值以保存。

    8、所述属性组合包括:在进行属性组合时,先前随机从抽取并保存的属性中,随机抽取对应的值进行组合;特别地,对于包括既往病史这类可能存在或不存在的属性,先设置一个随机数生成器,随机生成0或者1以确定是否存在病史;若生成的随机数为0,则说明不存在病史;若生成的随机数为1,则随机从保存的病史中随机抽取一个或多个病史。

    9、所述规则清洗包括:设置了列规则来滤除错误数据;具体地,这些规则包括基于医学常识的规则,包括患者年龄性别与诊断结果以及治疗手段是否有冲突,患者生理特征是否超出正常范围;以及专家共识规则,包括治疗方式的禁忌症。

    10、所述step2中的多样化提示词构建包括:手动收集医疗相关的主题和真实医疗对话作为种子集,结合组合病历,构建多样化的提示词。

    11、所述step2中的基于大模型自对话的数据生成包括:使用chatgpt,基于构建的多样化的提示词,以患者的角度生成问题;其次,基于生成的问题构建提示词,并使用chatgpt生成对应的答案。

    12、根据本发明的第二方面,提供了一种围术期医疗问答数据合成系统,包括:

    13、病历组合模块,用于进行病历组合,提供真实且多样的病历数据;包括用于进行数据去隐私、属性抽取、属性组合、规则清洗几个过程;

    14、数据合成模块,用于进行数据合成,合成医疗问答数据;包括用于进行多样化提示词构建和基于大模型自对话的数据生成两个步骤。

    15、根据本发明的第三方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的围术期医疗问答数据合成方法。

    16、根据本发明的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的围术期医疗问答数据合成方法。

    17、本发明的有益效果是:

    18、1、本发明提出了病历组合算法,增加病历多样性的同时保证可靠性。

    19、2、本发明提出了基于大模型自对话策略的数据合成算法,保证合成问答数据的质量。

    20、3、本发明提出基于组合病历合成麻醉数据,提升合成数据多样性的同时保证可靠性。

    21、4、本发明提出基于高质量种子集,以及医疗相关的话题,结合组合病历构建多样化的提示词,提升问答数据合成的多样性以及合理性。

    22、5、本方法合成的医疗问答数据具备很好的多样和可靠性,数据质量较高;

    23、6、使用本方法合成的数据训练的医疗大模型具备更好的性能。



    技术特征:

    1.一种围术期医疗问答数据合成方法,其特征在于:所述方法的具体步骤如下:

    2.根据权利要求1所述的围术期医疗问答数据合成方法,其特征在于:所述数据去隐私包括:

    3.根据权利要求1所述的围术期医疗问答数据合成方法,其特征在于:所述属性抽取包括:抽取与围术期医疗相关的属性并保存,包括患者诊断信息、治疗信息、既往病史、身体检查结果、实验室检查结果、特殊情况;在进行属性抽取时,患者诊断信息、治疗信息绑定到一起,以防止产生大量错误信息;此外,对于文字描述类属性,包括既往病史,只需要将具体的描述信息抽取并保存;而对于数字类属性,包括身体检查结果和实验室检查结果,设置一个取值范围,并基于此范围随机生成数值以保存。

    4.根据权利要求1所述的围术期医疗问答数据合成方法,其特征在于:所述属性组合包括:在进行属性组合时,先前随机从抽取并保存的属性中,随机抽取对应的值进行组合;特别地,对于包括既往病史这类可能存在或不存在的属性,先设置一个随机数生成器,随机生成0或者1以确定是否存在病史;若生成的随机数为0,则说明不存在病史;若生成的随机数为1,则随机从保存的病史中随机抽取一个或多个病史。

    5.根据权利要求1所述的围术期医疗问答数据合成方法,其特征在于:所述规则清洗包括:设置了列规则来滤除错误数据;具体地,这些规则包括基于医学常识的规则,包括患者年龄性别与诊断结果以及治疗手段是否有冲突,患者生理特征是否超出正常范围;以及专家共识规则,包括治疗方式的禁忌症。

    6.根据权利要求1所述的围术期医疗问答数据合成方法,其特征在于:所述step2中的多样化提示词构建包括:手动收集医疗相关的主题和真实医疗对话作为种子集,结合组合病历,构建多样化的提示词。

    7.根据权利要求1所述的围术期医疗问答数据合成方法,其特征在于:所述step2中的基于大模型自对话的数据生成包括:使用chatgpt,基于构建的多样化的提示词,以患者的角度生成问题;其次,基于生成的问题构建提示词,并使用chatgpt生成对应的答案。

    8.一种围术期医疗问答数据合成系统,其特征在于,包括:

    9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-7中任意一项所述的围术期医疗问答数据合成方法。

    10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1-7中任意一项所述的围术期医疗问答数据合成方法。


    技术总结
    本发明涉及一种围术期医疗问答数据合成方法及系统,属于医疗数据处理技术领域。本发明方法包括:进行病历组合,提供真实且多样的病历数据;包括数据去隐私、属性抽取、属性组合、规则清洗几个过程;进行数据合成,合成医疗问答数据;包括多样化提示词构建和基于大模型自对话的数据生成两个步骤。本发明合成的医疗问答数据具备很好的多样和可靠性,数据质量较高;使用本方法合成的数据训练的医疗大模型具备更好的性能。

    技术研发人员:李艳鸿,林旭,齐冲冲,詹忆冰,杨辉,马尚然
    受保护的技术使用者:云南联合视觉科技有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-29216.html

    最新回复(0)