本技术涉及音视频处理,尤其涉及一种说话人识别方法、装置、电子设备、介质及程序产品。
背景技术:
1、说话人识别指的是自动识别出一段音频或视频中出现的不同的说话人,以便于将音频或视频按照不同说话人切分为多个分段。在对人对话场景下,快速、准确地检测出说话人,提取出指定说话人的语音或视频,对多媒体内容创作、视频定制化、不同语言下的口型调整等场景均有着较高的应用价值。
2、在识别多人对话视频中的说话人时,相关技术通常将整个视频视为一个整体,通过视觉特征和音频特征的提取和匹配,识别出视频中的说话人。本技术发明人在研究时发现,在多人对话场景下,说话人存在一定时间内频繁切换或者说话人运动的情况,导致视频的连续性和完整性较差,将整个视频视为一个整体进行说话人识别的方式,准确度较差。
3、因此,亟需提供一种准确度高的多人对话视频中说话人识别的方案。
技术实现思路
1、本技术提供一种说话人识别方法、装置、电子设备、介质及程序产品,通过场景检测实现视频分段,逐分段进行说话人识别,克服了场景切换对说话人识别的影响,利用同场景和跨场景两个维度的提取的视觉特征,与音频特征匹配的结果实现说话人识别,提高了识别的准确度。
2、第一方面,本技术提供一种说话人识别方法,包括:
3、对待识别视频进行场景检测,并基于场景检测的结果将所述待识别视频分为多个视频分段;
4、针对所述多个视频分段中各视频分段,分离得到所述视频分段中的音频数据和视频帧;
5、提取所述视频帧的人脸特征以及提取所述音频数据的音频特征;
6、针对所述多个视频分段中场景切换的多个视频帧,提取所述多个视频帧的人脸深度特征,并计算所述多个视频帧中相邻视频帧的人脸深度特征的距离,得到跨场景距离特征;
7、基于所述跨场景距离特征、所述人脸特征和所述音频特征,从所述视频分段包含的人脸中识别说话人。
8、可选的,针对所述多个视频分段中场景切换的多个视频帧,提取所述多个视频帧的人脸深度特征,并计算所述多个视频帧中相邻视频帧的人脸深度特征的距离,得到跨场景距离特征,包括:
9、针对所述多个视频分段中场景切换的多个视频帧,提取所述多个视频帧的人脸深度特征和人脸框的方向梯度直方图特征;
10、融合同一视频帧的所述人脸深度特征和所述方向梯度直方图特征,得到视频帧的跨场景融合特征;
11、计算所述多个视频帧中相邻视频帧的跨场景融合特征的距离,得到所述跨场景距离特征。
12、可选的,所述人脸特征用于描述视频帧中包含的人脸对应的人脸框的特征,基于所述跨场景距离特征、所述人脸特征和所述音频特征,从所述视频分段包含的人脸中识别说话人,包括:
13、基于所述跨场景距离特征,确定所述多个视频分段中场景切换的相邻视频帧中同一人脸框的连接关系,以及基于所述人脸特征,确定同一视频分段中相邻视频帧中同一人脸框的连接关系;人脸框的连接关系用于描述同一人脸框在不同视频帧中的位置关系;
14、针对所述视频分段中各人脸框,按照该人脸框的连接关系,从包含该人脸框的视频帧的所述人脸特征中得到该人脸框的人脸特征,拼接包含该人脸框的视频帧中该人脸框的人脸特征,得到该人脸框的人脸特征矩阵;
15、基于所述人脸特征矩阵以及所述音频特征,从所述视频分段包含的人脸中识别说话人。
16、可选的,基于所述跨场景距离特征,确定所述多个视频分段中场景切换的相邻视频帧中同一人脸框的连接关系,包括:
17、对所述多个视频分段中场景切换的相邻视频帧的跨场景距离特征进行匈牙利匹配,得到所述多个视频分段中场景切换的相邻视频帧中同一人脸框的连接关系。
18、可选的,所述人脸特征用于描述视频帧中包含的人脸对应的人脸框的特征,在基于所述跨场景距离特征、所述人脸特征和所述音频特征,从所述视频分段包含的人脸中识别说话人之前,所述方法还包括:
19、针对各视频分段中检测的人脸框,从所述视频分段中所述人脸框对应的视频帧中,提取所述人脸框的唇部关键点;
20、基于所述视频分段中所述人脸框对应的视频帧中所述人脸框的唇部关键点,计算得到所述人脸框在所述视频分段中的唇部偏移量;
21、剔除所述视频分段中唇部偏移量小于预设阈值的人脸框,将剩余的人脸框作为候选人脸框,以从候选人脸框中识别说话人。
22、可选的,提取所述音频数据的音频特征,包括:
23、将所述音频数据输入多语言语音表示模型,得到所述音频数据的音频特征;所述多语言语音表示模型的训练集包括多语言的音频样本。
24、第二方面,本技术提供一种装置说话人识别装置,包括:
25、场景检测模块,用于对待识别视频进行场景检测,并基于场景检测的结果将所述待识别视频分为多个视频分段;
26、音视频分离模块,用于针对所述多个视频分段中各视频分段,分离得到所述视频分段中的音频数据和视频帧;
27、第一特征提取模块,用于提取所述视频帧的人脸特征以及提取所述音频数据的音频特征;
28、第二特征提取模块,用于针对所述多个视频分段中场景切换的多个视频帧,提取所述多个视频帧的人脸深度特征,并计算所述多个视频帧中相邻视频帧的人脸深度特征的距离,得到跨场景距离特征;
29、说话人识别模块,用于基于所述跨场景距离特征、所述人脸特征和所述音频特征,从所述视频分段包含的人脸中识别说话人。
30、第三方面,本技术提供一种电子设备,包括:存储器和至少一个处理器;
31、其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述头戴式显示器执行本技术第一方面提供的说话人识别方法。
32、第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现本技术第一方面提供的说话人识别方法。
33、第五方面,本技术提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本技术第一方面提供的说话人识别方法。
34、本技术提供的说话人识别方法、装置、电子设备、介质及程序产品,通过待识别视频场景检测的结果,将待识别视频划分为多个视频分段,分离得到视频分段的音频数据和视频帧,并提取视频帧中的人脸特征和音频数据中的音频特征;同时,针对跨场景的多个视频帧,如相邻视频分段中前一视频分段的最后一帧和后一视频分段的第一帧,通过不同场景下前后帧的人脸深度特征的距离,实现场景切换时的人脸跟踪;以同场景的视频分段为单位,结合该视频分段中各视频帧提取的人脸特征、对应的音频特征以及跨场景人脸跟踪的结果,识别该视频分段中的说话人,进而实现整个视频中的说话人识别。通过逐场景进行说话人识别,克服了场景切换对说话人识别的影响,利用同场景和跨场景两个维度的提取的视觉特征,与音频特征匹配的结果实现说话人识别,提高了识别的准确度。
1.一种说话人识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,针对所述多个视频分段中场景切换的多个视频帧,提取所述多个视频帧的人脸深度特征,并计算所述多个视频帧中相邻视频帧的人脸深度特征的距离,得到跨场景距离特征,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述人脸特征用于描述视频帧中包含的人脸对应的人脸框的特征,基于所述跨场景距离特征、所述人脸特征和所述音频特征,从所述视频分段包含的人脸中识别说话人,包括:
4.根据权利要求3所述的方法,其特征在于,基于所述跨场景距离特征,确定所述多个视频分段中场景切换的相邻视频帧中同一人脸框的连接关系,包括:
5.根据权利要求1或2所述的方法,其特征在于,所述人脸特征用于描述视频帧中包含的人脸对应的人脸框的特征,在基于所述跨场景距离特征、所述人脸特征和所述音频特征,从所述视频分段包含的人脸中识别说话人之前,所述方法还包括:
6.根据权利要求1或2所述的方法,其特征在于,提取所述音频数据的音频特征,包括:
7.一种说话人识别装置,其特征在于,包括:
8.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-6任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法。
