一种对话数据集生成方法、装置、存储器和设备

专利查询2025-10-19 28

本发明涉及人工智能，尤其涉及一种对话数据集生成方法、装置、存储器和设备。

背景技术：

1、随着人工智能技术的快速发展，对话系统已经成为人机交互的重要组成部分。高质量的对话数据集是训练和评估对话系统的关键资源。然而，现有的对话数据集往往存在规模有限、覆盖场景不全面、缺乏多样性等问题，这限制了对话系统的性能提升和应用范围的扩展。

2、传统的对话数据集生成方法主要依赖于人工收集和标注，这种方法成本高昂、效率低下，并且难以快速适应新的对话场景和领域。此外，人工标注的数据集可能包含偏见和错误，影响对话系统的准确性和公正性。

3、近年来，大型语言模型如gpt-3等在自然语言理解和生成方面取得了显著进展，为自动生成高质量对话数据集提供了新的可能性。然而，如何有效利用大型语言模型生成具有真实性、多样性和广泛覆盖度的对话数据集，仍然是一个亟待解决的技术挑战。

技术实现思路

1、为了解决如何有效利用大型语言模型生成具有真实性、多样性和广泛覆盖度的对话数据集的技术问题，本发明提供了一种对话数据集生成方法、装置、存储器和设备。

2、第一方面，本发明提供了一种对话数据集生成方法，所述方法包括：

3、采集预设领域的参考文本信息；

4、构建所述预设领域的提示，所述提示包括示范示例、思考链和逻辑链；

5、将所述预设领域的参考文本信息和提示输入大型语言模型llm中，生成所述预设领域的对话数据集。

6、基于上述技术方案，进一步地，所述预设领域的提示具体包括根据所述参考文本信息构建对话，所述对话包括多个角色和对话交互回合数量、各所述角色的任务、作为回答问题的角色的思考链、各轮对话的逻辑链和对话内容的输出格式。

7、基于上述技术方案，进一步地，所述将所述预设领域的参考文本信息和提示输入大型语言模型llm中，生成所述预设领域的对话数据集，具体包括：

8、所述llm根据所述对话内容的输出格式和所述参考文本信息，生成所述预设领域的对话数据集；

9、所述对话内容的输出格式采用json格式，包括第一键、第二键、第三键和第四键；

10、所述第一键是对话的回合序号，所述第二键是第一角色的发言内容，所述第三键是作为回答问题的第二角色的思考链，所述第四键是对话的逻辑链。

11、基于上述技术方案，进一步地，所述llm根据所述对话内容的输出格式和所述参考文本信息，生成所述预设领域的对话数据集，具体包括：

12、作为回答问题的第二角色按照思考链进行回答，所述思考链包括确定对话类型、根据所述第一角色的发言内容确定搜索关键字和在所述参考文本信息中搜索所述关键字的结果；

13、若在所述参考文本信息中搜索到所述关键字，则根据搜索结果进行回答，若未搜索到所述关键字，则根据所述llm的回答进行回答。

14、基于上述技术方案，进一步地，所述llm根据所述对话内容的输出格式和所述参考文本信息，生成所述预设领域的对话数据集，具体包括：

15、基于所述第四键中的对话的逻辑链生成对话，所述逻辑链包括识别对话类型、确定对话进度、确定角色对话的逻辑过程和当前单轮对话的目的。

16、基于上述技术方案，进一步地，所述对话类型具体包括问题-回答、问题-提问、陈述-询问、陈述-解释、观点-反驳和观点-同意。

17、基于上述技术方案，进一步地，所述方法还包括：

18、将生成的所述对话数据集中每一个单轮对话和整体多轮对话的对话内容进行对话数据评价。

19、第二方面，本发明还提供了一种对话数据集生成装置，所述装置包括：

20、第一处理模块，用于采集预设领域的参考文本信息；

21、第二处理模块，用于构建所述预设领域的提示，所述提示包括示范示例、思考链和逻辑链；

22、第三处理模块，用于将所述预设领域的参考文本信息和提示输入大型语言模型llm中，生成所述预设领域的对话数据集。

23、基于上述技术方案，进一步地，所述预设领域的提示具体包括根据所述参考文本信息构建对话，所述对话包括多个角色和对话交互回合数量、各所述角色的任务、作为回答问题的角色的思考链、各轮对话的逻辑链和对话内容的输出格式。

24、基于上述技术方案，进一步地，第三处理模块，具体用于

25、所述llm根据所述对话内容的输出格式和所述参考文本信息，生成所述预设领域的对话数据集；

26、所述对话内容的输出格式采用json格式，包括第一键、第二键、第三键和第四键；

27、所述第一键是对话的回合序号，所述第二键是第一角色的发言内容，所述第三键是作为回答问题的第二角色的思考链，所述第四键是对话的逻辑链。

28、基于上述技术方案，进一步地，第三处理模块，具体用于

29、作为回答问题的第二角色按照思考链进行回答，所述思考链包括确定对话类型、根据所述第一角色的发言内容确定搜索关键字和在所述参考文本信息中搜索所述关键字的结果；

30、若在所述参考文本信息中搜索到所述关键字，则根据搜索结果进行回答，若未搜索到所述关键字，则根据所述llm的回答进行回答。

31、基于上述技术方案，进一步地，第三处理模块，具体用于

32、基于所述第四键中的对话的逻辑链生成对话，所述逻辑链包括识别对话类型、确定对话进度、确定角色对话的逻辑过程和当前单轮对话的目的。

33、基于上述技术方案，进一步地，所述对话类型具体包括问题-回答、问题-提问、陈述-询问、陈述-解释、观点-反驳和观点-同意。

34、基于上述技术方案，进一步地，还包括评价模块，用于将生成的所述对话数据集中每一个单轮对话和整体多轮对话的对话内容进行对话数据评价。

35、第三方面，本发明还提供一种存储器，存储有多条指令，所述指令用于实现如上述技术方案中任一项所述的对话数据集生成方法。

36、第四方面，本发明还提供一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如上述技术方案中任一项所述的对话数据集生成方法。

37、本发明提供的一种对话数据集生成方法，包括采集预设领域的参考文本信息；构建所述预设领域的提示，所述提示包括示范示例、思考链和逻辑链；将所述预设领域的参考文本信息和提示输入大型语言模型llm中，生成所述预设领域的对话数据集。本发明利用大型语言模型自动化地生成高质量、多样化且具有广泛应用场景的对话数据集，以支持对话系统的快速发展和应用。

技术特征：

1.一种对话数据集生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，所述将所述预设领域的参考文本信息和提示输入大型语言模型llm中，生成所述预设领域的对话数据集，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述llm根据所述对话内容的输出格式和所述参考文本信息，生成所述预设领域的对话数据集，具体包括：

5.根据权利要求3所述的方法，其特征在于，所述llm根据所述对话内容的输出格式和所述参考文本信息，生成所述预设领域的对话数据集，具体包括：

6.根据权利要求4或5所述的方法，其特征在于，所述对话类型具体包括问题-回答、问题-提问、陈述-询问、陈述-解释、观点-反驳和观点-同意。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种对话数据集生成装置，其特征在于，所述装置包括：

9.一种存储器，其特征在于，

10.一种电子设备，其特征在于，

技术总结
本发明涉及一种提出的对话数据集生成方法和装置，包括采集预设领域的参考文本信息；构建所述预设领域的提示，所述提示包括示范示例、思考链和逻辑链；将所述预设领域的参考文本信息和提示输入大型语言模型LLM中，生成所述预设领域的对话数据集。本发明利用大型语言模型自动化地生成高质量、多样化且具有广泛应用场景的对话数据集，以支持对话系统的快速发展和应用。本发明还涉及一种设备和存储介质。

技术研发人员：李彤亮,侯霞,李奇峰,宋文凤,杨鸿波
受保护的技术使用者：北京信息科技大学
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-31442.html

专利

最新回复(0)