本发明涉及数字人交互,具体涉及基于多模态图检索增强生成的多角色数字人构建方法。
背景技术:
1、随着生成式人工智能技术如chatgpt的快速发展,由这些大型语言模型驱动的数字人已广泛应用于多个行业,包括个人辅助、智能客户服务和在线教育等。这些拟人化的数字人能够快速与用户互动,显著增强了人机交互的用户体验。然而,不同角色的数字人需要具备不同领域的知识,并且在交互时使用不同的语言风格。通用的大型语言模型通常无法涵盖所有特定领域的知识,因此目前的多角色数字人生成方案通常依赖于手工预设,如中国专利公开的一种基于对话模型的知识库文本匹配问答方法、装置及设备(公开号:cn118427326a),该专利技术中通过对历史运维事件工单进行分类,得到分类结果,根据分类结果筛选咨询类工单,从咨询类工单中提取符合预设业务规则的业务知识点,得到知识点集,根据知识点集构建本地专业知识库来进行问答工作,但无论是构建本地专业知识库还是进行微调训练的方式都将耗费大量时间,费时又费力,应用成本较高,且无法让数字人获取领域外的深层知识,容易产生幻觉问题,输出的问答内容质量较差。
技术实现思路
1、本发明所要解决的技术问题:现有的数字人构建方法,需要耗费大量时间进行本地专业知识库的准备和模型的微调训练,费时又费力,应用成本较高,且无法让数字人获取领域外的深层知识,容易产生幻觉问题,输出的问答内容质量较差。
2、为解决上述技术问题,本发明采用如下技术方案:基于多模态图检索增强生成的多角色数字人构建方法,包括以下步骤:
3、s1:采用图检索增强生成技术构建外部知识库,构建用于进行多模态处理的大语言模型;
4、s2:创建数字人接口以供外部信息输入;
5、s3:建立数字人架构,集成大语言模型和外部知识库,以进行数字人问答工作。
6、本发明工作时,通过图检索增强生成技术为大语言模型提供外部知识库,并采用多模态处理的方式辅助进行数字人问答工作,能够实现数字人以特定语言风格,使用特定领域知识进行交互的功能,从而提高输出的问答内容质量,能够降低大语言模型的训练成本,提高问答质量,并能够进行数字人的多角色的快速切换。
7、作为优选,在所述步骤s1中,采用图检索增强生成技术构建外部知识库时,采用以下步骤:
8、a1:收集外部的包含多模态信息的文件;
9、a2:对文件中的多模态信息进行预处理,将文件中的多模态信息或者预设的信息点设置为图节点,通过语义匹配的方式生成边以连接相应的图节点,以形成多模态的知识图谱,从而得到图结构;
10、a3:对构建的知识图谱进行索引的建立,并存储图结构和相应的索引为外部知识库,并采用图检索增强生成技术进行持续更新。
11、本发明工作时,通过图检索增强生成技术从广泛的文件中获取相关信息,并能将其组织成图结构,方便进行高效的知识整合和传播,方便数字人在问答中充分考虑多模态信息,能够提高问答的丰富性和准确性,且方便数字人切换角色,实现数字人形象、领域知识和语言风格统一,能够有效提高用户的使用体验。
12、作为优选,在所述步骤a1中,文件的来源至少包括网络开放文档库、专业领域知识库和企业内部知识库中的一种,多模态信息的种类至少包括图像、文本、视频和音频中的一种。
13、作为优选,在所述步骤a2中,对文件中的多模态信息进行预处理时,包括以下步骤:
14、b1:调用预设的图像处理模型,针对多模态信息的种类确定对应的感知转换方式,将符合要求的多模态信息转为符合同一向量空间约束条件下的高维向量表示;
15、b2:将转换得到的高维向量表示输入至同一向量空间中以进行符合向量计算规则的语义匹配,将距离相近的高维向量表示对应的多模态信息标记为语义相似或者相关的信息。
16、作为优选,所述图像处理模型设置为用于将不同种类的多模态信息转换为能够在同一向量空间内进行表示的高维向量表示的clip。
17、本发明工作时,通过对文件中的多模态形象进行预处理,方便结合多模态数据处理能力和图结构优化,使得外部知识库内容丰富、完整,使得数字人能够在复杂场景中也能很好地理解用户的需求和提供更加个性化的反馈,从而满足不同场景和用户需求,同时采用clip进行多模态信息的转换编码,能够缩短语义相似或者相关的信息在向量空间中的距离,从而提高图结构的多模态信息表达能力,精确度高。
18、作为优选,在所述步骤a4中,图结构的索引至少包括图结构中相应图节点的标签、摘要、关键字和该图节点的高维向量表示中的一种。
19、作为优选,在所述步骤s1中,构建用于进行多模态处理的大语言模型时,采用以下步骤:
20、c1:根据预设的项目需求和可用资源,选择相应的预训练语言模型;
21、c2:根据预设的项目需求和可用资源,获取一个相关的数据集以覆盖项目需求的语言和语境;
22、c3:定义任务和目标,修改预训练语言模型后进行微调训练,微调后的预训练语言模型经性能评估合格后输出为大语言模型。
23、作为优选,在所述步骤c3中,修改预训练语言模型后进行微调训练,微调后的预训练语言模型经性能验证通过后输出为大语言模型时,采用以下步骤:使用数据集对预训练语言模型执行微调过程,通过反向传播算法更新预训练语言模型的参数,以最大化目标任务数据集上的性能,在每个训练周期结束时评估模型性能,并调整超参数进行优化,经性能评估合格后输出为大语言模型。
24、作为优选,在所述步骤s2中,输入的外部信息至少包括文字输入、语音输入、图像输入和视频输入中的一种。
25、作为优选,在所述步骤s3中,建立数字人架构,集成大语言模型和外部知识库,以进行数字人问答工作时,采用以下步骤:将大语言模型和外部知识库集成到数字人的架构中,并通过多模态处理和图检索增强生成技术进行数字人问答工作。
26、本发明的有益技术效果包括:
27、1、本发明通过图检索增强生成技术为大语言模型提供外部知识库,并采用多模态处理的方式辅助进行数字人问答工作,能够实现数字人以特定语言风格,使用特定领域知识进行交互的功能,从而提高输出的问答内容质量,能够降低大语言模型的训练成本,提高问答质量,并能够进行数字人的多角色的快速切换。
28、2、本发明通过图检索增强生成技术从广泛的文件中获取相关信息,并能将其组织成图结构,方便进行高效的知识整合和传播,方便数字人在问答中充分考虑多模态信息,能够提高问答的丰富性和准确性,且方便数字人切换角色,实现数字人形象、领域知识和语言风格统一,能够有效提高用户的使用体验。
29、3、本发明通过对文件中的多模态形象进行预处理,方便结合多模态数据处理能力和图结构优化,使得外部知识库内容丰富、完整,使得数字人能够在复杂场景中也能很好地理解用户的需求和提供更加个性化的反馈,从而满足不同场景和用户需求,同时采用clip进行多模态信息的转换编码,能够缩短语义相似或者相关的信息在向量空间中的距离,从而提高图结构的多模态信息表达能力,精确度高。
30、本发明的其他特点和优点将会在下面的具体实施方式、附图中详细地揭露。
1.基于多模态图检索增强生成的多角色数字人构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于多模态图检索增强生成的多角色数字人构建方法,其特征在于:在所述步骤s1中,采用图检索增强生成技术构建外部知识库时,采用以下步骤:
3.根据权利要求2所述的基于多模态图检索增强生成的多角色数字人构建方法,其特征在于:在所述步骤a1中,文件的来源至少包括网络开放文档库、专业领域知识库和企业内部知识库中的一种,多模态信息的种类至少包括图像、文本、视频和音频中的一种。
4.根据权利要求2所述的基于多模态图检索增强生成的多角色数字人构建方法,其特征在于:在所述步骤a2中,对文件中的多模态信息进行预处理时,包括以下步骤:
5.根据权利要求4所述的基于多模态图检索增强生成的多角色数字人构建方法,其特征在于:所述图像处理模型设置为用于将不同种类的多模态信息转换为能够在同一向量空间内进行表示的高维向量表示的clip。
6.根据权利要求2所述的基于多模态图检索增强生成的多角色数字人构建方法,其特征在于:在所述步骤a4中,图结构的索引至少包括图结构中相应图节点的标签、摘要、关键字和该图节点的高维向量表示中的一种。
7.根据权利要求1所述的基于多模态图检索增强生成的多角色数字人构建方法,其特征在于:在所述步骤s1中,构建用于进行多模态处理的大语言模型时,采用以下步骤:
8.根据权利要求7所述的基于多模态图检索增强生成的多角色数字人构建方法,其特征在于:在所述步骤c3中,修改预训练语言模型后进行微调训练,微调后的预训练语言模型经性能验证通过后输出为大语言模型时,采用以下步骤:使用数据集对预训练语言模型执行微调过程,通过反向传播算法更新预训练语言模型的参数,以最大化目标任务数据集上的性能,在每个训练周期结束时评估模型性能,并调整超参数进行优化,经性能评估合格后输出为大语言模型。
9.根据权利要求1所述的基于多模态图检索增强生成的多角色数字人构建方法,其特征在于:在所述步骤s2中,输入的外部信息至少包括文字输入、语音输入、图像输入和视频输入中的一种。
10.根据权利要求1所述的基于多模态图检索增强生成的多角色数字人构建方法,其特征在于:在所述步骤s3中,建立数字人架构,集成大语言模型和外部知识库,以进行数字人问答工作时,采用以下步骤:将大语言模型和外部知识库集成到数字人的架构中,并通过多模态处理和图检索增强生成技术进行数字人问答工作。