一种数字人身份标识生成方法和装置与流程

    专利查询2025-05-02  41


    本申请涉及数据处理领域,尤其涉及一种数字人身份标识生成方法和装置。


    背景技术:

    1、随着人工智能技术和数字技术发展,数字人出现在各个行业领域,引发普遍关注,成为一个投资热点,作为gpt4之后承载多模态的重要应用,数字人被认为是元宇宙的入口和有广泛发展潜力的应用方向。

    2、数字人,是一种由计算机程序驱动的拥有自身意识和身份的人工人,可以在数字世界中展现出与真实人类相同的生理、心理、社会表现。相比于传统的图像动画,数字人技术可以实现更加复杂的动画效果,包括言语对话、手势动作、表情变化、身体语言等。其技术目标是通过计算机图形学技术创造出与人类形象接近的数字化形象,并赋予其特定的人物身份设定,在视觉上拉近和人的心理距离,为人类带来更加真实的情感互动。

    3、当前数字人理论和技术日益成熟,应用范围不断扩大,产业正在逐步形成、不断丰富,相应的商业模式也在持续演进和多元化。数字人技术结合实际应用场景领域,切入各类,形成行业应用解决方案,赋能行业领域。按照应用场景或行业的不同,已经出现了娱乐型数字人如虚拟主播、虚拟偶像;教育型数字人如虚拟教师;助手型数字人如虚拟客服、虚拟导游、智能助手;影视数字人如替身演员或虚拟演员等。不同外形、不同功能的虚拟数字人赋能影视、传媒、游戏、金融、文旅等领域,根据需求为用户提供定制化服务。

    4、数字人作为新兴技术领域,还缺少规范的传播、运用和管理手段。如何为数字人生成可靠的身份标识,是本申请要解决的技术问题。


    技术实现思路

    1、本申请提出数字人身份标识生成方法和装置,为解决数字人缺乏可靠的身份标识的问题,通过确定数字人面部特征向量和语音特征向量,将所述面部特征向量和所述语音特征向量编码后生成所述数字人的身份标识。

    2、第一方面,本申请实施例提供数字人身份标识生成方法,包括以下步骤:

    3、检测数字人的视频和/或图片,确定数字人面部特征向量;

    4、检测数字人的语音信号,确定语音特征向量;

    5、将所述面部特征向量和所述语音特征向量编码后生成所述数字人的身份标识。

    6、第二方面,本申请实施例还提供了一种数字人身份标识生成装置,用于实现本申请任意一项实施例的方法,包括:面部特征处理模块,语音特征处理模块和编码模块。

    7、所述面部特征处理模块,用于检测数字人的视频和/或图片,确定数字人面部特征向量。

    8、所述语音特征处理模块,用于检测数字人的语音信号,确定语音特征向量。

    9、所述编码模块,用于将所述面部特征向量和所述语音特征向量编码后生成所述数字人的身份标识。

    10、第三方面,本申请实施例还提供了一种数字人身份标识生成系统,包括客户端和服务端。

    11、所述客户端,用于向所述服务端提供数字人视频和/或图片。

    12、所述服务端,用于接收所述客户端提供的数字人视频和/或图片,实现前述第一方面所述的方法。

    13、第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请提供的任一实施例所述的方法。

    14、第五方面,本申请实施例还提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请提供的任一实施例所述的方法。

    15、本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:本申请通过确定数字人面部特征向量和语音特征向量,将所述面部特征向量和所述语音特征向量编码后生成所述数字人的身份标识。通过将数字人的面部特征和语音特征融合编码后,保留了数字人最为明显的特征,从而为数字人的确认、再识别、比对带来便利;另外,通过身份标识可以实现数字人的检索查询、识别验证。



    技术特征:

    1.一种数字人身份标识生成方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的数字人身份标识生成方法,其特征在于,所述检测数字人的视频和/或图片,确定数字人面部特征向量,包括:使用多任务卷积神经网络检测所述数字人视频中的图像和/或所述图片,使用vggface确定数字人面部特征向量。

    3.根据权利要求2所述的数字人身份标识生成方法,其特征在于,所述使用vggface确定数字人面部特征向量,包括:根据锚图片与正例图片的欧氏距离和锚图片与负例图片的欧氏距离的中值优化三元组损失函数。

    4.根据权利要求1所述的数字人身份标识生成方法,其特征在于,使用梅尔频率倒谱系数检测数字人的语音信号,确定语音特征向量。

    5.根据权利要求1所述的数字人身份标识生成方法,其特征在于,所述将所述面部特征向量和所述语音特征向量编码,包括:将所述面部特征向量和所述语音特征向量通过低秩多模态特征融合,生成融合特征并进行编码。

    6.根据权利要求5所述的数字人身份标识生成方法,其特征在于,在所述面部特征向量和所述语音特征向量通过低秩多模态特征融合之后,包括:计算所述融合特征与预设融合特征之间的特征距离,并比较所述特征距离与设定阈值。

    7.一种数字人身份标识生成装置,用于实现权利要求1~6任意一项所述数字人身份标识生成方法,其特征在于,包括:面部特征处理模块,语音特征处理模块和编码模块;

    8.一种数字人身份标识生成系统,其特征在于,包括客户端和服务端;

    9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~6中任一所述的方法。

    10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~6中任一所述的方法。


    技术总结
    本申请公开了一种数字人身份标识生成方法,包括:检测数字人的视频和/或图片,确定数字人面部特征向量;检测数字人的语音信号,确定语音特征向量;将所述面部特征向量和所述语音特征向量编码后生成所述数字人的身份标识。本申请还公开了一种数字人身份标识生成装置。通过将数字人的面部特征和语音特征融合编码后,保留了数字人最为明显的特征,从而为数字人的确认、再识别、比对带来便利;另外,通过身份标识可以实现数字人的检索查询、识别验证。本申请解决目前数字人缺乏可靠的身份标识的问题。

    技术研发人员:杨燕燕,张敏,许达斌,任皓玥,邓佳
    受保护的技术使用者:北京市公安局
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-28149.html

    最新回复(0)