1.本技术涉及人工智能技术领域,特别是涉及一种模型训练方法、装置、设备和存储介质。
背景技术:
2.表征学习(representation learning)指使用特定的训练方法,得到一个与特定任务无关的(task-agnostic)预训练模型,该预训练模型可以在略作修改后,应用到若干相关的特定任务中并得到良好的表现。
3.目前的表征学习主要聚焦在广义视频的视听多模态预训练上,例如利用视频和音频的相关性(avc)作为代理任务,模型需要判断给定的音频和视频序列是否来自于同一视频,进而利用音视频进行模型预训练。或者,利用视频和音频的时序同步(avts)作为代理任务,模型需要判断给定的音频和视频序列是否是时序对应的,进而利用音视频进行模型预训练。
4.然而,这些训练方法虽然摆脱了数据标注的限制,但是这些方法并没有考虑到舞蹈视频中的一些独特特征,因此无法适应舞蹈这一特殊类型视频的下游任务中,即无法直接应用到一些舞蹈/音乐相关的下游任务中,即使应用到某些舞蹈任务中,但是这些方法的表现也并不理想。
技术实现要素:
5.为了解决上述技术问题,本技术提供了一种模型训练方法、装置、设备和存储介质,将视觉信息的乐理要素点和音频的乐理要素点对齐作为代理任务实现模型预训练,考虑到了舞蹈视频中的一些独特特征,从而在无需数据标注的情况下,使得训练得到的预训练模型可以更好地适应于若干舞蹈/音乐相关的下游任务,并且性能表现理想。
6.本技术实施例公开了如下技术方案:
7.一方面,本技术实施例提供一种模型训练方法,所述方法包括:
8.获取舞蹈视频中的视觉信息和音频信息;
9.基于所述音频信息的语谱图,提取所述音频信息的起始点特征,所述起始点特征用于表征所述舞蹈视频中音频的乐理要素点;
10.利用初始模型预测所述视觉信息的乐理要素点;
11.根据所述视觉信息的乐理要素点和所述音频信息的起始点特征,对所述初始模型进行优化,以使所述视觉信息的乐理要素点与所述音频的乐理要素点对齐,得到预训练模型。
12.一方面,本技术实施例提供一种模型训练装置,所述装置包括获取示单元、提取单元、预测单元和优化单元:
13.所述获取单元,用于获取舞蹈视频中的视觉信息和音频信息;
14.所述提取单元,用于基于所述音频信息的语谱图,提取所述音频信息的起始点特
征,所述起始点特征用于表征所述舞蹈视频中音频的乐理要素点;
15.所述预测单元,用于利用初始模型预测所述视觉信息的乐理要素点;
16.所述优化单元,用于根据所述视觉信息的乐理要素点和所述音频信息的起始点特征,对所述初始模型进行优化,以使所述视觉信息的乐理要素点与所述音频的乐理要素点对齐,得到预训练模型。
17.一方面,本技术实施例提供一种用于模型训练的电子设备,所述电子设备包括处理器以及存储器:
18.所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
19.所述处理器用于根据所述程序代码中的指令执行前述方面所述的模型训练方法。
20.一方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行前述方面所述的模型训练方法。
21.一方面,本技术实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述方面所述的模型训练方法。
22.由上述技术方案可以看出,当利用舞蹈视频进行预训练时,可以获取舞蹈视频中的视觉信息和音频信息。由于舞蹈视频中存在一些独特特征,例如节奏、旋律、节拍等乐理要素,在一些舞蹈/音乐相关的下游任务中,基本上都需要考虑这些独特特征,因此,为了保证预训练得到的预训练模型可以在舞蹈这一特殊类型视频的下游任务中表现理想,可以基于音频信息的语谱图,提取音频信息的起始点特征,起始点特征用于表征舞蹈视频中音频的乐理要素点,并且利用初始模型预测视觉信息的乐理要素点,从而可以根据视觉信息的乐理要素点和音频信息的起始点特征,对初始模型进行优化,以使视觉信息的乐理要素点与音频的乐理要素点对齐,得到预训练模型。本技术将视觉信息的乐理要素点和音频的乐理要素点对齐作为代理任务实现模型预训练,考虑到了舞蹈视频中的一些独特特征,从而在无需数据标注的情况下,使得训练得到的预训练模型可以更好地适应于若干舞蹈/音乐相关的下游任务,并且性能表现理想。
附图说明
23.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术成员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
24.图1为本技术实施例提供的一种模型训练方法的应用场景的架构图;
25.图2为本技术实施例提供的一种模型训练方法的流程图;
26.图3为本技术实施例提供的一种模型训练方法的结构流程图;
27.图4为本技术实施例提供的三种舞蹈视频智能卡点再创作方式的对比结果示意图;
28.图5为本技术实施例提供的一种模型训练装置的结构图;
29.图6为本技术实施例提供的一种终端的结构图;
30.图7为本技术实施例提供的一种服务器的结构图。
具体实施方式
31.下面结合附图,对本技术的实施例进行描述。
32.首先,对本技术实施例可能涉及到的名词进行解释:
33.表征学习(representation learning):指使用特定的训练方法,得到一个与特定任务无关的(task-agnostic)预训练模型,该模型可以在略作修改后,应用到若干相关的特定任务中并得到良好的表现。表征学习主要有两类,分别是监督表征学习(监督预训练)和无监督表征学习(无监预督训练)。
34.无监督预训练:指使用特定的方式,在不需要数据标注的情况下进行大规模数据的训练,得到的预训练模型可以应用到若干相关的下游任务中。
35.代理任务(pretext task):基于数据中存在的某些先验信息,设计的一种无需进行数据标注的任务,用于进行模型的无监督预训练。
36.下游任务(downstream task):与代理任务相对,指经过无监督学习得到的预训练模型可应用到的具体任务。
37.音视频学习(audio-visual learning):多模态学习的一种,指利用和结合声音(即音频信息)和画面(即视觉信息)两个模态的信息进行模型训练和应用。
38.avc:视听相关性任务(audio-visual correspondence,avc),音视频学习中代理任务的一种,该任务要求模型判断给定的音视频序列是否来自于同一视频,即视频和音频内容是否相关。
39.avts:视听时序同步任务(audio-visual temporal synchronization,avts)视听时序同步任务,音视频学习中代理任务的一种,该任务要求模型判断给定的音视频序列是否来自于一段视频中同步的一段,即视频和音频内容是否时序同步。
40.hoof:光流方向直方图(histogram of oriented optical flow,hoof)用于表征时域动作信息。
41.相关技术中提供的用于广义视频的视听多模态预训练方法,虽然摆脱了数据标注的限制,但是无法直接应用到一些舞蹈/音乐相关的下游任务中,比如舞蹈/音乐的智能创作。即使可以应用到某些舞蹈任务中,比如舞蹈分类和检索,但是这些方法的表现也并不理想。这是因为这些方法并没有考虑到舞蹈视频中的一些独特特征,比如舞者的动作、音乐的旋律、节奏等,因此无法适应舞蹈这一特殊类型视频的下游任务。
42.另外,相关技术中提供的与舞蹈视频有关的技术方案很多是与特定任务有关的监督学习方法。这些方法虽然效果尚可,但是一种方法无法应用到多个舞蹈/音乐有关的任务中,导致技术方案的泛化性很差。此外,这些方法需要依赖大量的数据标注,其性能表现很大程度上依赖数据的规模,在技术方案的落地和应用上也存在很大的限制。
43.为了解决上述技术问题,本技术实施例提供一种模型训练方法,该方法将视觉信息的乐理要素点和音频的乐理要素点对齐作为代理任务实现模型预训练,考虑到了舞蹈视频中的一些独特特征,从而在无需数据标注的情况下,使得训练得到的预训练模型可以更好地适应于若干舞蹈/音乐相关的下游任务,并且性能表现理想。
44.如图1所示,图1示出了一种模型训练方法的应用场景的架构示意图。在该场景中可以包括服务器101。服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
45.服务器101可以获取舞蹈视频中的视觉信息和音频信息。由于舞蹈视频中存在一些独特特征,例如节奏、旋律、节拍等乐理要素,在一些舞蹈/音乐相关的下游任务中,基本上都需要考虑这些独特特征,因此,为了保证预训练得到的预训练模型可以在舞蹈这一特殊类型视频的下游任务中表现理想,服务器101可以基于音频信息的语谱图,提取音频信息的起始点特征,起始点特征用于表征舞蹈视频中音频的乐理要素点。乐理要素反映了舞蹈视频中的一些独特特征,例如节奏、旋律、节拍、变化幅度、强度等,本技术将主要以乐理要素点是节奏点进行介绍。
46.服务器101还可以利用初始模型预测视觉信息的乐理要素点,从而可以进一步根据视觉信息的乐理要素点和音频信息的起始点特征,对初始模型进行优化,以使视觉信息的乐理要素点与音频的乐理要素点对齐,得到预训练模型。
47.需要说明的是,通过本技术实施例提供的方法训练得到的预训练模型可以应用于若干下游任务中,例如舞蹈分类、舞蹈-音乐检索、卡点舞蹈视频再创作等。舞蹈分类、舞蹈-音乐检索这两个下游任务可应用于短/长视频平台的用户推荐和搜索。卡点舞蹈视频再创作这个下游任务可应用于短视频平台的舞蹈视频智能创作,具有重要的实际应用价值。在下游任务的应用中,只需要对已有的预训练模型做小幅改动,即可得到媲美甚至超过全监督方法的表现。本技术实施例提供的通过预训练模型处理下游任务可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
48.需要说明的是,图1仅是以服务器执行模型训练方法为例进行介绍,在一些情况下,也可以由终端执行上述模型训练方法。终端可以是手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。
49.当将预训练模型应用于下游任务时,可以由服务器或终端通过预训练模型对下游任务进行处理。类似的,用于处理下游任务的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。用于处理下游任务的终端可以是手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。
50.可以理解的是,本技术实施例提供的方法可以涉及人工智能,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
51.本技术实施例提供的方法具体可以涉及计算机视觉技术,计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。例如,通过计算机视觉技术可以预测视觉信息的乐理要素点,以及通过计算机视觉技术中的图像语义理解可以提取视觉特征。
52.本技术实施例提供的方法具体可以涉及语音技术(speech technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。例如通过语音识别技术可以提取音频信息的起始点特征,以及后续可以通过语音识别技术中的语音识别提取音频特征。
53.本技术实施例提供的方法具体可以涉及机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。例如,基于机器学习训练得到预训练模型。
54.接下来,将以服务器执行模型训练方法为例,结合附图对本技术实施例提供的模型训练方法进行详细介绍。
55.参见图2,图2示出了一种模型训练方法的流程图,所述方法包括:
56.s201、获取舞蹈视频中的视觉信息和音频信息。
57.在本技术实施例可以将舞蹈视频作为训练样本,通常情况下,舞蹈视频反映的是舞者根据音乐进行舞蹈,因此舞蹈视频中可以包括体现舞蹈内容的视觉信息和体现音乐内容的音频信息,故服务器可以获取舞蹈视频的视觉信息和音频信息。
58.s202、基于所述音频信息的语谱图,提取所述音频信息的起始点特征,所述起始点特征用于表征所述舞蹈视频中音频的乐理要素点。
59.对于音频信息,服务器可以基于音频信息的语谱图,提取音频信息的起始点(onset)特征,该特征可以表示音频强度的起始时刻,可看作音频信息的乐理要素点(例如节奏点),其提取方式如下:
[0060][0061]
其中,x(n,k)表示第k个频率位置的第n个时序位置的音频信号强度,n表示时序窗口的大小,q表示时序偏移量,v()表示第n个时序位置的音频信号强度,h表示步长,w(q)表示汉明窗函数,n、q和h可以根据实际需求进行设置。
[0062]
参见图3所示,图3示出了一种模型训练方法的结构流程图。如图3中301所示,音频信息可以是音频波形图,音频波形图经过一定时序窗口的快速傅立叶变换(fast fourier transform,fft)得到语谱图,具体可以参见上述公式。在图3的301中,音频信息的语谱图经过光谱通量(spectro flux)分析,得到音频的onset包络(audio onset envelopes),对音频的onset包络进行选取局部最大值处理(picking local maximum)得到音频的乐理要素点。
[0063]
具体的,可以基于下述公式,根据语谱图提取音频信息的起始点特征,即得到音频的乐理要素点:
[0064][0065]
其中,oe(n)表示音频的乐理要素点的曲线,x
ref
(n-μ,k)表示第k个频率位置下相对于第n-μ个时序位置的音频信号强度,是对x(n,k)进行最大值校准得到的,max()表示计算最大值,μ表示时序延迟。
[0066]
s203、利用初始模型预测所述视觉信息的乐理要素点。
[0067]
对于视觉信息,在本技术实施例中可以利用建立的初始模型对输入的视觉信息进行预测,得到视觉信息的乐理要素点。
[0068]
在一种可能的实现方式中,初始模型可以包括显性乐理要素对齐分支网络,该显性乐理要素对齐分支网络用于实现显性乐理要素对齐(例如显性节奏对齐)。在这种情况下,利用初始模型预测视觉信息的乐理要素点的方式可以是通过显性乐理要素对齐分支网络,预测视觉信息的乐理要素点。
[0069]
需要说明的是,显性乐理要素对齐分支网络可以包括动作信息提取模块和视频乐理要素预测器,在这种情况下,通过显性乐理要素对齐分支网络,预测视觉信息的乐理要素点的实现方式可以是通过动作信息提取模块,根据视觉信息提取动作信息,然后根据动作信息,通过视频乐理要素预测器进行预测,得到视觉信息的乐理要素点。
[0070]
其中,动作信息提取模块可以是用于提取动作信息的模块,提取动作信息的方式可以包括很多种,例如光流提取、运动捕捉、轨迹跟随、姿势估计等,本技术实施例主要以动作信息提取模块基于光流提取的方式提取动作信息为例进行介绍。此时,动作信息提取模块可以包括光流提取网络模块和直方图计算模块,提取得到的动作信息可以为光流方向直方图特征。
[0071]
参见图3中302所示,视觉信息输入到显性乐理要素对齐分支网络后,可以经过光流提取网络(pwc-net)模块的视觉编码器进行编码,然后使用pwc-net模块对编码后的视觉信息进行光流提取得到光流。接着,通过直方图计算模块对提取得到的光流进行直方图计算得到光流方向直方图特征,以便使得视频乐理要素预测器可以基于光流方向直方图特征进行预测,得到视觉信息的乐理要素点。光流方向直方图特征可以在避免噪声、相机角度等因素干扰的前提下得到光流变化的幅度和方向,从而提高预测的准确性。
[0072]
光流方向直方图特征的计算公式如下所示:
[0073][0074]
其中,h(n,k)表示第k个频率位置的第n个时序位置的光流方向直方图特征,(x,y)表示二维空间位置坐标,m
t
(x,y)表示光流方向直方图中位置坐标为(x,y)的位置点在第t个时间节点的光流幅值,p
t
(x,y)表示位置坐标为(x,y)的位置点在第t个时间节点的反正切值,为0/1函数。的计算公式如下:
[0075]
[0076]
其中,θ为超参数,可以根据实际需求设置,φ即p
t
(x,y)。
[0077]
在一种可能的实现方式中,显性乐理要素对齐分支网络还可以包括三原色注入器,三原色指的是红-绿-蓝(red-green-blue,rgb),因此三原色注入器可以称为rgb注入器。在这种情况下,根据动作信息,通过视频乐理要素预测器进行预测,得到视觉信息的乐理要素点的方式可以是通过三原色注入器从视觉信息中提取三原色信息(即rgb信息),然后通过视频乐理要素预测器,根据三原色信息与动作信息预测视觉信息的乐理要素点。
[0078]
在得到三原色信息和动作信息(例如光流方向直方图特征)之后,可以将三原色信息和动作信息组合输入至视频乐理要素预测器进行视觉信息的乐理要素点生成。该预测器基于三原色信息和光流方向直方图特征的一阶差分,使用线性投影层进行预测,其实现方式如下:
[0079][0080]
其中,表示视觉信息的乐理要素点,σ()表示激活函数,we表示权重参数,是可学习参数,u
mot
表示运动信息的全连接层,f
′
mot
表示光流方向直方图特征的一阶差分结果,表示异或运算,u
inj
表示三原色信息的全连接层,f
′
inj
表示三原色信息的一阶差分结果,be表示偏置,是可学习参数。
[0081]
本技术实施例通过将rgb信息与动作信息(例如图3所示的光流方向直方图特征)进行组合预测视觉信息的乐理要素点,从而实现基于更多的视觉信息进行乐理要素点的预测,进一步提高预测的准确性。
[0082]
在一种可能的实现方式中,三原色注入器由两部分组成,第一部分是音频引导的跨模态注意力模块,第二部分是时序注意力模块,即三原色注入器包括跨模态注意力模块和时序注意力模块(参见图3中303所示)。在这种情况下,通过三原色注入器从视觉信息中提取三原色信息的方式可以是通过跨模态注意力模块确定视觉信息和第一音频信息之间的跨模态关联,通过时序注意力模块对跨模态关联进行时序注意力计算,得到三原色信息。
[0083]
其中,跨模态注意力模块可以获取视觉信息和第一音频信息之间的跨模态关联,从而在三原色信息中引入音频信息,这样在利用三原色信息与动作信息进行组合时,实现使用音频信息来增强视觉表示的作用。
[0084]
该跨模态注意力模块的音频模态输入为第一音频信息,第一音频信息可以是舞蹈视频中音频信息的语谱图经过若干卷积层得到的音频特征,视频模态输入为舞蹈视频中视觉信息经过pwc-net的视觉编码器编码后的视觉信息,该跨模态注意力模块的实现方式如下:
[0085][0086][0087][0088]
[0089]
其中,c表示通道维度,a表示第一音频信息,表示通道维度的注意力权重,σ()表示非线性激活函数,w1表示权重参数(可以学习),表示通道维度下第一个全连接层,ρa表示全局平均池化层,fa表示音频特征,表示通道维度下rgb全连接层,
⊙
表示同或运算,f
rgb
表示rgb特征;
[0090]
表示通道维度下经过第一音频信息的音频特征增强后的rgb特征,i表示矩阵下标,k表示矩阵中元素个数,表示矩阵中第i个元素,表示f
rgb
矩阵中第i个元素;
[0091]
s表示空间维度,表示空间维度的注意力权重,softmax()表示激活函数,δ()表示双正切函数,w2表示权重参数(可以学习),表示空间维度下的全连接层,表示空间维度下rgb全连接层,表示通道维度的rgb特征;
[0092]fa:rgb
表示最终得到的rgb信息,表示空间维度下矩阵中的第i个元素,表示通道维度下矩阵中的第i个元素。
[0093]
需要说明的是,为了避免整个模型对音频信息的依赖,并使得模型可以应用在单模态的下游任务中,本技术实施例提供的显性乐理要素对齐分支网络还可以包括音频门控模块(参见图3中304所示),该音频门控模块可以从舞蹈视频的音频信息中选择第一音频信息输入跨模态注意力模块,例如可以以特定概率将每一个输入批次(舞蹈视频的音频信息)的固定部分(例如第一音频信息)通往上述跨模态注意力模块中,另一部分只经过线性投影进行相同的维度变换,并不进行注意力机制的处理。
[0094]
三原色注入器的第二部分是时序注意力模块,时序注意力模块可以捕获长距离之间的特征交互,从而通过时序注意力模块对跨模态关联进行时序注意力计算,得到三原色信息。该部分的实现方式如下:
[0095]frgb1
,f
rgb2
=audiodropout(f
rgb
,p)
[0096]
audiodropout(f,p)=f[b*p:],f[:b*p]
[0097]fa:rgb1
=agva(f
rgb1
,fa)
[0098]f′
rgb2
=linear(tile(f
rgb2
))
[0099]fa:rgb
=concat(f
a:rgb1
,f
′
rgb2
)
[0100]finj
=att(f
a:rgb
,f
a:rgb
,f
a:rgb
)
[0101]
其中,audiodropout()表示音频门控模块,p是一个参数,例如可以是上述特定概率,通过该参数p可以将舞蹈视频中的音频信息分成两个部分,第一部分(例如第一音频信息)输入至跨模态注意力模块进行注意力处理,第二部分进行线性投影处理,f
rgb1
表示第一部分,f
rgb2
表示第二部分,f
rgb
表示舞蹈视频中的音频信息;
[0102]
b表示批次大小,f[b*p:]表示第一部分,f[:b*p]表示第二部分;
[0103]fa:rgb1
表示经过跨模态注意力模块进行注意力处理后得到的跨模态关联,agv a()表示注意力处理,fa表示舞蹈视频中音频信息的音频特征,f
′
rgb2
表示经过线性投影处理后得到的结果,linear()表示线性处理函数,tile()表示维度变换操作,f
a:rgb
表示将f
a:rgb1
与f′
rgb2
进行合并的结果,concat()表示合并函数,f
inj
表示时序注意力模块处理后得到的结果(即最终得到的三原色信息),att()表示时序自注意力。
[0104]
s204、根据所述视觉信息的乐理要素点和所述音频信息的起始点特征,对所述初始模型进行优化,以使所述视觉信息的乐理要素点与所述音频的乐理要素点对齐,得到预训练模型。
[0105]
在本技术实施例中,可以将音频的乐理要素点作为标准,将预测得到的视觉信息的乐理要素点与音频的乐理要素点对齐作为优化目标(即代理任务)对初始模型进行优化,直到预测得到的视觉信息的乐理要素点与音频的乐理要素点对齐,将此时优化得到的模型作为预训练模型。
[0106]
当初始模型包括显性乐理要素对齐分支网络时,s204的实现方式可以是根据视觉信息的乐理要素点和音频信息的起始点特征构建第一损失函数,根据第一损失函数对显性乐理要素对齐分支网络进行优化,得到预训练模型。
[0107]
在一种可能的实现方式中,为了避免乐理要素点和非乐理要素点间信息的不平衡,在本技术实施例中可以使用focal loss作为第一损失函数进行优化,其优化方式如下:
[0108][0109]
其中,表示focal loss函数值,α
t
表示超参数,可以根据实际需求设置。
[0110]
由上述技术方案可以看出,当利用舞蹈视频进行预训练时,可以获取舞蹈视频中的视觉信息和音频信息。由于舞蹈视频中存在一些独特特征,例如节奏、旋律、节拍等乐理要素,在一些舞蹈/音乐相关的下游任务中,基本上都需要考虑这些独特特征,因此,为了保证预训练得到的预训练模型可以在舞蹈这一特殊类型视频的下游任务中表现理想,可以基于音频信息的语谱图,提取音频信息的起始点特征,起始点特征用于表征舞蹈视频中音频的乐理要素点,并且利用初始模型预测视觉信息的乐理要素点,从而可以根据视觉信息的乐理要素点和音频信息的起始点特征,对初始模型进行优化,以使视觉信息的乐理要素点与音频的乐理要素点对齐,得到预训练模型。本技术将视觉信息的乐理要素点和音频的乐理要素点对齐作为代理任务实现模型预训练,考虑到了舞蹈视频中的一些独特特征,从而在无需数据标注的情况下,使得训练得到的预训练模型可以更好地适应于若干舞蹈/音乐相关的下游任务,并且性能表现理想。
[0111]
可以理解的是,由于音频的乐理要素点和视觉信息的乐理要素点都是基于舞蹈视频中的音视频信息(即音频信息和视觉信息)提取出来的,那么乐理要素点其实隐藏在视频流和音频流中。基于此,本技术实施例提出了隐式乐理要素对齐,使用avc和avts作为代理任务,通过模型判断给定的音频和视频是否来自于相关的/时序同步的视频,这也相当于隐式的进行了乐理要素点相关/时序同步的判断。
[0112]
在这种情况下,初始模型还可以包括隐性乐理要素对齐分支网络(参见图3中305所示),从而可以通过隐性乐理要素对齐分支网络,根据舞蹈视频的视觉信息得到视觉特征,以及根据舞蹈视频的音频信息得到音频特征。若舞蹈视频包括正样本和负样本,则根据第一损失函数对显性乐理要素对齐分支网络进行优化,得到预训练模型的方式可以是根据正样本的视觉特征、正样本的音频特征和负样本的音频特征,构建第二损失函数,然后根据第一损失函数和第二损失函数构建目标损失函数,根据目标损失函数对显性乐理要素对齐
分支网络和隐性乐理要素对齐分支网络进行联合优化,从而得到预训练模型。
[0113]
通过显性乐理要素对齐分支网络和隐性乐理要素对齐分支网络的联合优化,可以增加预训练模型的泛化性,使得预训练模型可以应用于更多下游任务。
[0114]
对于隐式乐理要素对齐,本技术实施例使用triplet loss进行优化,对于每一个正负样本对,模型输入正样本的视觉信息,以及正负样本的音频信息组成三元组。本技术实施例旨在缩减正样本的视觉信息和正样本的音频信息之间的间隔,并拉大正样本的视觉信息和负样本的音频信息之间的间隔,其实现方式如下:
[0115][0116]
其中,表示triplet loss,n表示时序窗口的大小,f
′v表示视觉信息,f
′
a:pos
表示正样本的音频信息,f
′
a:neg
表示负样本的音频信息,表示范数的平方,α表示阈值超参数,可以根据实际需求设置。
[0117]
最后,对显性乐理要素对齐分支网络和隐性乐理要素对齐分支网络进行联合优化,方式如下:
[0118][0119]
其中,表示目标函数,λ1和λ2表示超参数,可以根据实际需求设置,n表示时序窗口的大小。
[0120]
在一种可能的实现方式中,隐性乐理要素对齐分支网络可以为双塔模型,该双塔模型包括第一分支网络和第二分支网络,通过所述隐性乐理要素对齐分支网络,根据舞蹈视频的视觉信息得到视觉特征,以及根据舞蹈视频的音频信息得到音频特征的方式可以是通过第一分支网络,根据舞蹈视频的视觉信息得到视觉特征;通过第二分支网络,根据舞蹈视频的音频信息得到音频特征。
[0121]
具体的,双塔模型可以是基于transformer架构的双塔模型进行优化。对于视觉信息,使用pwc-net网络的视觉编码器对视觉信息进行编码,使用若干个卷积层组成的音频卷积网络作为音频编码器,对音频信息进行编码。在对音频信息进行编码之前,还可以通过特征提取器对音频信息进行特征提取。经过编码后的视觉信息通过视觉转换器(visualtransformer)和视觉嵌入层(visual embedding),输出最终的视觉特征进行优化;经过编码后的音频信息通过音频转换器(audiotransformer)和音频嵌入层(audio embedding),输出最终的音频特征进行优化。在得到视觉特征和音频特征之后,还可以将二者组合起来得到跨模态特征进行输出,当然也可以将视觉特征和音频特征分别独自输出。
[0122]
需要说明的是,在隐式乐理要素对齐过程中,可以使用avc和avts作为代理任务,对于avc和avts,首先需要进行负样本的选取。由于代理任务的不同,负样本的选取方式可以有所不同。对于avc代理任务,将原舞蹈视频的视觉信息和另一个舞蹈视频的音频信息进行组合,即可组成音视频不相关的负样本。在此情况下,需要避免一个负样本采样问题,即随机选取的另一个舞蹈视频刚好与原舞蹈视频拥有同样的音乐,因此需要对两个舞蹈视频的音频信息做出额外的筛选。这种情况下,通常在两个音频信息的乐理要素点分布差距较
为明显的情况下,才可以选取其为负样本的音频信息。以原舞蹈视频是第一舞蹈视频,另一个舞蹈视频是第二舞蹈视频为例,在进行负样本选取时,可以获取第一舞蹈视频的音频信息和第二舞蹈视频的音频信息,若第一舞蹈视频的音频信息和第二舞蹈视频的音频信息之间的相似度分数大于零,则将第一舞蹈视频的视觉信息与第二舞蹈视频的音频信息构成负样本。
[0123]
其中,相似度分数的计算公式如下所示:
[0124][0125]
其中,s
rhy
表示第一舞蹈视频的音频信息和第二舞蹈视频的音频信息之间的相似度分数,t表示时间节点,t表示总时长,表示第t个时间节点下第一舞蹈视频中的音频信息,表示第t个时间节点下第二舞蹈视频中的音频信息,α表示超参数。
[0126]
一般情况下,只有相似度分数s
rhy
大于0时才符合筛选的条件,可作为负样本的音频信息。
[0127]
对于avts的负样本,可以在同一段舞蹈视频中进行时序偏移即可制作出负样本。由于乐理要素点可能在分布上有类似的时序间隔,经过随机时长的时序偏移后,时序偏移的偏移时长刚好等同于时序间隔的倍数,导致时序偏移后的音频的乐理要素点刚好和原舞蹈视频的乐理要素点同步,导致负样本不合理,因此需要进行额外的筛选。在此情况下,随机选择的偏移时长不能等于乐理要素点时长的倍数。但是由于每个舞蹈视频的乐理要素点点的间隔不同,本技术实施例使用节拍进行代替,选取八分之一节拍的时长作为基本时长单元,偏移时长不能等同于八分之一节拍的倍数,即获取第一舞蹈视频的视觉信息和音频信息,按照偏移时间对视觉信息进行时序偏移,将时序偏移后的视觉信息与第一舞蹈视频的音频信息构成负样本。其中,偏移时长与音频信息的基本时长单元的倍数不相等,基本时长单元为音频信息的八分之一节拍的时长。具体筛选公式如下:
[0128][0129]
其中,f
sft
表示偏移的视频帧数(可以换算为偏移时长),mod表示取余数,k
fps
表示第一舞蹈视频的采样率,k
bpm
表示音频信息的四分之一节拍。
[0130]
通过上述介绍可以训练得到预训练模型,得到的预训练模型可以用于各种下游任务中。本技术实施例主要以应用在三个下游任务上为例进行介绍,分别是舞蹈分类、舞蹈-音乐跨模态检索、舞蹈视频智能卡点再创作。
[0131]
对于舞蹈分类,在视频平台中,会有若干个特定的舞蹈类别,如爵士、街舞、现代舞蹈等等,在用户上传舞蹈视频后,可基于本技术实施例得到的预训练模型对下游任务进行处理:舞蹈分类上微调得到的下游任务模型进行基于内容的自动分类,从而方便用户的观看和搜索。
[0132]
在一种可能的实现方式中,可以在预训练模型的基础上增加分类层。此时,舞蹈分类的方式可以是获取待分类舞蹈视频,通过预训练模型得到待分类舞蹈视频的视觉特征和音频特征,以及待分类舞蹈视频中音频的乐理要素点和待分类舞蹈视频中视觉信息的乐理要素点;将待分类舞蹈视频的视觉特征和音频特征,以及待分类舞蹈视频中音频的乐理要
素点和待分类舞蹈视频中视觉信息的乐理要素点进行拼接,得到拼接特征;根据拼接特征,通过分类层进行分类得到所述待分类舞蹈视频的分类结果。
[0133]
在一种可能的实现方式中,还可以在预训练模型和分类层之间增加两个不同的线性层投影和非线性函数激活。
[0134]
在舞蹈分类下游任务的模型训练时,可直接使用在代理任务上的预训练参数进行迁移学习。
[0135]
对于舞蹈-音乐跨模态检索,在视频平台中,用户时常会有根据特定的舞蹈画面或者音乐进行与之对应的音乐/舞蹈检索。该应用场景可以进一步扩大到舞蹈配乐、音乐对应的舞蹈推荐、舞蹈的智能打分等场景中。该应用可基于本技术实施例得到的预训练模型对下游任务进行处理:舞蹈-音乐跨模态检索,在不需要额外训练的情况下得以实现。
[0136]
在一种可能的方式中,若根据特定的音乐进行与之对应的舞蹈检索,则可以获取待检索音频;通过预训练模型确定待检索音频的第一音频特征和第一乐理要素点,以及通过预训练模型根据检索数据库中舞蹈视频的视觉信息确定第一视觉特征和第二乐理要素点;分别计算第一音频特征与第一视觉特征之间的第一相似度,以及所述第一乐理要素点与所述第二乐理要素点之间的第二相似度;基于第一相似度和第二相似度得到相似度矩阵;根据相似度矩阵从检索数据库中确定与所述待检索音频匹配的舞蹈视频的视觉信息。
[0137]
若根据特定的舞蹈进行与之对应的音乐检索,则可以获取待检索舞蹈视频的视觉信息;通过预训练模型根据待检索舞蹈视频的视觉信息确定第二视觉特征和第三乐理要素点,以及通过预训练模型根据检索数据库中舞蹈视频的音频信息确定第二音频特征和第四乐理要素点;分别计算第二视觉特征与第二音频特征之间的第三相似度,以及第三乐理要素点与第四乐理要素点之间的第四相似度;基于第三相似度和第四相似度得到相似度矩阵;根据相似度矩阵从检索数据库中确定与待检索舞蹈视频的视觉信息匹配的音频信息。
[0138]
其中,相似度矩阵可以是将第一相似度和第二相似度加权组合得到的,或者是将第三相似度和第四相似度加权组合得到的,其加权组合方式如下:
[0139]shyb
=λ3se (1-λ3)sr[0140]
其中,s
hyb
表示加权组合得到的相似度矩阵,se表示第一相似度(或第三相似度),sr表示第二相似度(或第四相似度),λ3表示超参数,可以根据实际需求确定。
[0141]
对于舞蹈视频智能卡点再创作,在视频平台中,用户可能会进行舞蹈视频的二次创作,比如将一段原有的舞蹈和一段新的音乐相匹配。该应用场景可基于本技术实施例得到的预训练模型进行下游任务处理:卡点舞蹈视频再创作上的技术方案,帮助用户进行自动的智能创作。
[0142]
在一种可能的方式中,舞蹈视频智能卡点再创作的方式可以是获取待创作舞蹈视频和待创作音频;利用预训练模型确定待创作舞蹈视频的乐理要素点和待创作音频的乐理要素点;使用时序加/减速、时序偏移或动态时间规划的方式对待创作舞蹈视频的乐理要素点和待创作音频的乐理要素点进行对齐,生成卡点视频。
[0143]
该部分有三种实现方式:第一种为时序偏移,即将两个序列(待创作舞蹈视频的乐理要素点和待创作音频的乐理要素点)中较短的一方在另一序列上以滑动窗口的形式进行搜索,得到乐理要素点对应更为准确的位置,从而以时序偏移的方式完成卡点;第二种为时序加/减速,即将两个序列的每两个乐理要素点之间的时序长度变得完全一致,加速可通过
视频插帧实现,减速可通过删除视频帧实现;第三种为动态时间规划,该方法以动态规划的方式,寻找两个序列中每个乐理要素点最佳的对应方式,该方法可通过动态规划的思想实现,将每个乐理要素点之间的距离作为代价,尽可能使两个序列之间的代价总和更小,其具体实现方法如下:
[0144]
c(i,j)=d(i,j) m{c(i-1,j-1),c(i-1,j),c(i,j-1)}
[0145]
d(i,j)=|p
i-pj|
[0146]
其中,c(i,j)表示第i个乐理要素点与第j个乐理要素点之间动态时间规划的累计距离,c(i,j)越小越好,d(i,j)表示第i个乐理要素点与第j个乐理要素点之间的距离,m()表示最小化的函数,c(i-1,j-1)表示第i-1个乐理要素点与第j-1个乐理要素点之间动态时间规划的累计距离,c(i-1,j)表示第i-1个乐理要素点与第j个乐理要素点之间动态时间规划的累计距离,c(i,j-1)表示第i个乐理要素点与第j-1个乐理要素点之间动态时间规划的累计距离,pi表示第i个乐理要素点所处的时序位置,pj表示第j个乐理要素点所处的时序位置。
[0147]
需要说明的是,本技术实施例得到的预训练模型在下游任务现中表现理想,本技术实施例提供的预训练模型在三个下游任务上的表现和性能对比结果如下。
[0148]
对于舞蹈分类,申请实施例提供的预训练模型与相关技术提供的预训练模型的表现和性能对比结果可以参见表1所示:
[0149]
表1
[0150][0151]
表1显示了本技术实施例提供的预训练模型在lets-dance数据集上和两个全监督方法castro et al、mdr进行对比,并和三个音视频自监督方法multisensory、avts、lla进行对比,结果显示本技术实施例提供的预训练模型可以显著超过所有的全监督方法和自监督方法,证明了其在舞蹈分类任务上的有效性。例如数据大小类似,但是舞蹈分类的准确率达到81.7%,高于相关技术提供的其他方法。
[0152]
对于舞蹈-音乐跨模态检索,申请实施例提供的预训练模型与相关技术提供的预训练模型的表现和性能对比结果可以参见表2所示:
[0153]
表2
[0154][0155]
表2显示了本技术实施例提供的预训练模型在dance-50数据集上进行跨模态检索的表现。本技术实施例提供的预训练模型和三个音视频自监督方法进行了对比,结果显示本技术实施例提供的预训练模型的表现显著优于其他音视频自监督方法,在各个评价指标上都有超过15%的表现。各个评价指标分别是r@1、r@5、p@10、map,其数值依次是0.622、0.924、0.661、0.633,高于相关技术在对应评价指标的数值。其中,r表示的是在所有实际为正例的样本中被预测为正例的样本的概率,p表示的是在所有被预测为正例的样本中实际为正的样本的概率,map(mean average precision)表示平均准确率。
[0156]
对于舞蹈视频智能卡点再创作,申请实施例提供的三种舞蹈视频智能卡点再创作方式的对比结果可以参见图4所示。图4示出了舞蹈视频智能卡点创作可视化结果,由于没有可用的定量分析,本技术实施例提供了可视化结果对比用于定性分析。图4显示了本技术实施例提供的三种舞蹈视频智能卡点再创作的结果,结果显示时序加/减速的再创作视频虽然在节奏点上对应良好,但是存在大量的时序加减速,观感上并不流畅,时序偏移虽然观赏流畅,但是由于没有时序加/减速,因此有些地方对应的并不好,动态时间规划能够得到最佳的结果,在得到很好的节奏点对应的前提下,也可以保持优秀的观赏连贯性。
[0157]
需要说明的是,本技术在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
[0158]
基于图2对应实施例提供的模型训练方法,本技术实施例还提供一种模型训练装置500。参见图5,所述模型训练装置500包括获取示单元501、提取单元502、预测单元503和优化单元504:
[0159]
所述获取单元501,用于获取舞蹈视频中的视觉信息和音频信息;
[0160]
所述提取单元502,用于基于所述音频信息的语谱图,提取所述音频信息的起始点特征,所述起始点特征用于表征所述舞蹈视频中音频的乐理要素点;
[0161]
所述预测单元503,用于利用初始模型预测所述视觉信息的乐理要素点;
[0162]
所述优化单元504,用于根据所述视觉信息的乐理要素点和所述音频信息的起始点特征,对所述初始模型进行优化,以使所述视觉信息的乐理要素点与所述音频的乐理要素点对齐,得到预训练模型。
[0163]
在一种可能的实现方式中,所述初始模型包括显性乐理要素对齐分支网络,所述预测单元503,用于:
[0164]
通过所述显性乐理要素对齐分支网络,预测所述视觉信息的乐理要素点;
[0165]
所述优化单元504,用于:
[0166]
根据所述视觉信息的乐理要素点和所述音频信息的起始点特征构建第一损失函数;
[0167]
根据所述第一损失函数对所述显性乐理要素对齐分支网络进行优化,得到所述预训练模型。
[0168]
在一种可能的实现方式中,所述显性乐理要素对齐分支网络包括动作信息提取模块和视频乐理要素预测器,所述预测单元503,用于:
[0169]
通过所述动作信息提取模块,根据所述视觉信息提取动作信息;
[0170]
根据所述动作信息,通过所述视频乐理要素预测器进行预测,得到所述视觉信息的乐理要素点。
[0171]
在一种可能的实现方式中,所述显性乐理要素对齐分支网络还包括三原色注入器,所述预测单元503,用于:
[0172]
通过所述三原色注入器从所述视觉信息中提取三原色信息;
[0173]
通过所述视频乐理要素预测器,根据所述三原色信息与所述动作信息预测所述视觉信息的乐理要素点。
[0174]
在一种可能的实现方式中,所述三原色注入器包括跨模态注意力模块和时序注意力模块,所述预测单元503,用于:
[0175]
通过所述跨模态注意力模块确定所述视觉信息和第一音频信息之间的跨模态关联;
[0176]
通过所述时序注意力模块对所述跨模态关联进行时序注意力计算,得到所述三原色信息。
[0177]
在一种可能的实现方式中,所述显性乐理要素对齐分支网络还包括音频门控模块,所述预测单元503,还用于通过所述跨模态注意力模块确定所述视觉信息和所述音频信息之间的跨模态关联之前,通过所述音频门控模块,从所述舞蹈视频的音频信息中选择所述第一音频信息输入所述跨模态注意力模块。
[0178]
在一种可能的实现方式中,所述动作信息提取模块包括光流提取网络模块和直方图计算模块,所述动作信息为光流方向直方图特征。
[0179]
在一种可能的实现方式中,所述初始模型还包括隐性乐理要素对齐分支网络,所述装置还包括确定单元:
[0180]
所述确定单元,用于通过所述隐性乐理要素对齐分支网络,根据所述舞蹈视频的视觉信息得到视觉特征,以及根据所述舞蹈视频的音频信息得到音频特征;
[0181]
所述舞蹈视频包括正样本和负样本,所述优化单元504,用于:
[0182]
根据所述正样本的视觉特征、所述正样本的音频特征和所述负样本的音频特征,构建第二损失函数;
[0183]
根据所述第一损失函数和所述第二损失函数构建目标损失函数;
[0184]
根据所述目标损失函数对所述显性乐理要素对齐分支网络和所述隐性乐理要素对齐分支网络进行联合优化,得到所述预训练模型。
[0185]
在一种可能的实现方式中,所述隐性乐理要素对齐分支网络为双塔模型,所述双塔模型包括第一分支网络和第二分支网络,所述确定单元,用于:
[0186]
通过所述第一分支网络,根据所述舞蹈视频的视觉信息得到视觉特征;
[0187]
通过所述第二分支网络,根据所述舞蹈视频的音频信息得到音频特征。
[0188]
在一种可能的实现方式中,所述负样本的选取方式为:
[0189]
获取第一舞蹈视频的音频信息和第二舞蹈视频的音频信息;
[0190]
若所述第一舞蹈视频的音频信息和所述第二舞蹈视频的音频信息之间的相似度分数大于零,则将所述第一舞蹈视频的视觉信息与所述第二舞蹈视频的音频信息构成所述负样本;
[0191]
或者,
[0192]
获取第一舞蹈视频的视觉信息和音频信息;
[0193]
按照偏移时间对所述视觉信息进行时序偏移,将时序偏移后的视觉信息与所述第一舞蹈视频的音频信息构成所述负样本,所述偏移时长与所述音频信息的基本时长单元的倍数不相等,所述基本时长单元为所述音频信息的八分之一节拍的时长。
[0194]
在一种可能的实现方式中,所述装置还包括确定单元、拼接单元和分类单元:
[0195]
所述获取单元501,还用于获取待分类舞蹈视频;
[0196]
所述确定单元,用于通过所述预训练模型得到所述待分类舞蹈视频的视觉特征和音频特征,以及所述待分类舞蹈视频中音频的乐理要素点和所述待分类舞蹈视频中视觉信息的乐理要素点;
[0197]
所述拼接单元,用于将待分类舞蹈视频的视觉特征和音频特征,以及所述待分类舞蹈视频中音频的乐理要素点和所述待分类舞蹈视频中视觉信息的乐理要素点进行拼接,得到拼接特征;
[0198]
所述分类单元,用于根据所述拼接特征,通过所述分类层进行分类得到所述待分类舞蹈视频的分类结果。
[0199]
在一种可能的实现方式中,所述装置还包括确定单元和计算单元:
[0200]
所述获取单元501,还用于获取待检索音频;
[0201]
所述确定单元,用于通过所述预训练模型确定所述待检索音频的第一音频特征和第一乐理要素点,以及通过所述预训练模型根据检索数据库中舞蹈视频的视觉信息确定第一视觉特征和第二乐理要素点;
[0202]
所述计算单元,用于分别计算所述第一音频特征与所述第一视觉特征之间的第一相似度,以及所述第一乐理要素点与所述第二乐理要素点之间的第二相似度;
[0203]
所述确定单元,还用于基于所述第一相似度和所述第二相似度得到相似度矩阵;
[0204]
所述确定单元,还用于根据所述相似度矩阵从所述检索数据库中确定与所述待检索音频匹配的舞蹈视频的视觉信息;
[0205]
或者,
[0206]
所述获取单元501,还用于获取待检索舞蹈视频的视觉信息;
[0207]
所述确定单元,用于通过所述预训练模型根据所述待检索舞蹈视频的视觉信息确定第二视觉特征和第三乐理要素点,以及通过所述预训练模型根据检索数据库中舞蹈视频的音频信息确定第二音频特征和第四乐理要素点;
[0208]
所述计算单元,用于分别计算所述第二视觉特征与所述第二音频特征之间的第三相似度,以及所述第三乐理要素点与所述第四乐理要素点之间的第四相似度;
[0209]
所述确定单元,还用于基于所述第三相似度和所述第四相似度得到相似度矩阵;
[0210]
所述确定单元,还用于根据所述相似度矩阵从所述检索数据库中确定与所述待检索舞蹈视频的视觉信息匹配的音频信息。
[0211]
在一种可能的实现方式中,所述装置还包括确定单元和生成单元:
[0212]
所述获取单元501,还用于获取待创作舞蹈视频和待创作音频;
[0213]
所述确定单元,用于利用所述预训练模型确定所述待创作舞蹈视频的乐理要素点和所述待创作音频的乐理要素点;
[0214]
所述生成单元,用于使用时序加/减速、时序偏移或动态时间规划的方式对所述待创作舞蹈视频的乐理要素点和所述待创作音频的乐理要素点进行对齐,生成卡点视频。
[0215]
由上述技术方案可以看出,当利用舞蹈视频进行预训练时,可以获取舞蹈视频中的视觉信息和音频信息。由于舞蹈视频中存在一些独特特征,例如节奏、旋律、节拍等乐理要素,在一些舞蹈/音乐相关的下游任务中,基本上都需要考虑这些独特特征,因此,为了保证预训练得到的预训练模型可以在舞蹈这一特殊类型视频的下游任务中表现理想,可以基于音频信息的语谱图,提取音频信息的起始点特征,起始点特征用于表征舞蹈视频中音频的乐理要素点,并且利用初始模型预测视觉信息的乐理要素点,从而可以根据视觉信息的乐理要素点和音频信息的起始点特征,对初始模型进行优化,以使视觉信息的乐理要素点与音频的乐理要素点对齐,得到预训练模型。本技术将视觉信息的乐理要素点和音频的乐理要素点对齐作为代理任务实现模型预训练,考虑到了舞蹈视频中的一些独特特征,从而在无需数据标注的情况下,使得训练得到的预训练模型可以更好地适应于若干舞蹈/音乐相关的下游任务,并且性能表现理想。
[0216]
本技术实施例还提供了一种用于模型训练的电子设备,该电子设备可以是终端,以终端为智能手机为例:
[0217]
图6示出的是与本技术实施例提供的智能手机的部分结构的框图。参考图6,智能手机包括:射频(英文全称:radio frequency,英文缩写:rf)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(英文缩写:wifi)模块670、处理器680、以及电源690等部件。输入单元630可包括触控面板631以及其他输入设备632,显示单元640可包括显示面板641,音频电路660可以包括扬声器661和传声器662。可以理解的是,图6中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0218]
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0219]
处理器680是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行智能手机的各种功能和处理数据。可选的,处理器680可包括一个或多个处理单元;优选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
[0220]
在本实施例中,智能手机中的处理器680可以执行以下步骤:
[0221]
获取舞蹈视频中的视觉信息和音频信息;
[0222]
基于所述音频信息的语谱图,提取所述音频信息的起始点特征,所述起始点特征用于表征所述舞蹈视频中音频的乐理要素点;
[0223]
利用初始模型预测所述视觉信息的乐理要素点;
[0224]
根据所述视觉信息的乐理要素点和所述音频信息的起始点特征,对所述初始模型进行优化,以使所述视觉信息的乐理要素点与所述音频的乐理要素点对齐,得到预训练模型。
[0225]
本技术实施例还提供一种服务器,请参见图7所示,图7为本技术实施例提供的服务器700的结构图,服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,简称cpu)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
[0226]
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如windows server
tm
,mac os x
tm
,unix
tm
,linux
tm
,freebsd
tm
等等。
[0227]
在本实施例中,服务器700中的中央处理器722可以执行以下步骤:
[0228]
获取舞蹈视频中的视觉信息和音频信息;
[0229]
基于所述音频信息的语谱图,提取所述音频信息的起始点特征,所述起始点特征用于表征所述舞蹈视频中音频的乐理要素点;
[0230]
利用初始模型预测所述视觉信息的乐理要素点;
[0231]
根据所述视觉信息的乐理要素点和所述音频信息的起始点特征,对所述初始模型进行优化,以使所述视觉信息的乐理要素点与所述音频的乐理要素点对齐,得到预训练模型。
[0232]
根据本技术的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行前述各个实施例所述的模型训练方法。
[0233]
根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。
[0234]
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
[0235]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于
覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0236]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0237]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0238]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0239]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0240]
以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术成员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
技术特征:
1.一种模型训练方法,其特征在于,所述方法包括:获取舞蹈视频中的视觉信息和音频信息;基于所述音频信息的语谱图,提取所述音频信息的起始点特征,所述起始点特征用于表征所述舞蹈视频中音频的乐理要素点;利用初始模型预测所述视觉信息的乐理要素点;根据所述视觉信息的乐理要素点和所述音频信息的起始点特征,对所述初始模型进行优化,以使所述视觉信息的乐理要素点与所述音频的乐理要素点对齐,得到预训练模型。2.根据权利要求1所述的方法,其特征在于,所述初始模型包括显性乐理要素对齐分支网络,所述利用初始模型预测所述视觉信息的乐理要素点,包括:通过所述显性乐理要素对齐分支网络,预测所述视觉信息的乐理要素点;所述根据所述视觉信息的乐理要素点和所述音频信息的起始点特征,对所述初始模型进行优化,以使所述视觉信息的乐理要素点与所述音频的乐理要素点对齐,得到预训练模型,包括:根据所述视觉信息的乐理要素点和所述音频信息的起始点特征构建第一损失函数;根据所述第一损失函数对所述显性乐理要素对齐分支网络进行优化,得到所述预训练模型。3.根据权利要求2所述的方法,其特征在于,所述显性乐理要素对齐分支网络包括动作信息提取模块和视频乐理要素预测器,所述通过显性乐理要素对齐分支网络,预测所述视觉信息的乐理要素点,包括:通过所述动作信息提取模块,根据所述视觉信息提取动作信息;根据所述动作信息,通过所述视频乐理要素预测器进行预测,得到所述视觉信息的乐理要素点。4.根据权利要求3所述的方法,其特征在于,所述显性乐理要素对齐分支网络还包括三原色注入器,所述根据所述动作信息,通过所述视频乐理要素预测器进行预测,得到所述视觉信息的乐理要素点,包括:通过所述三原色注入器从所述视觉信息中提取三原色信息;通过所述视频乐理要素预测器,根据所述三原色信息与所述动作信息预测所述视觉信息的乐理要素点。5.根据权利要求4所述的方法,其特征在于,所述三原色注入器包括跨模态注意力模块和时序注意力模块,所述通过所述三原色注入器从所述视觉信息中提取三原色信息,包括:通过所述跨模态注意力模块确定所述视觉信息和第一音频信息之间的跨模态关联;通过所述时序注意力模块对所述跨模态关联进行时序注意力计算,得到所述三原色信息。6.根据权利要求5所述的方法,其特征在于,所述显性乐理要素对齐分支网络还包括音频门控模块,所述通过所述跨模态注意力模块确定所述视觉信息和所述音频信息之间的跨模态关联之前,所述方法还包括:通过所述音频门控模块,从所述舞蹈视频的音频信息中选择所述第一音频信息输入所述跨模态注意力模块。7.根据权利要求2-6任一项所述的方法,其特征在于,所述动作信息提取模块包括光流
提取网络模块和直方图计算模块,所述动作信息为光流方向直方图特征。8.根据权利要求2所述的方法,其特征在于,所述初始模型还包括隐性乐理要素对齐分支网络,所述方法还包括:通过所述隐性乐理要素对齐分支网络,根据所述舞蹈视频的视觉信息得到视觉特征,以及根据所述舞蹈视频的音频信息得到音频特征;所述舞蹈视频包括正样本和负样本,所述根据所述第一损失函数对所述显性乐理要素对齐分支网络进行优化,得到所述预训练模型,包括:根据所述正样本的视觉特征、所述正样本的音频特征和所述负样本的音频特征,构建第二损失函数;根据所述第一损失函数和所述第二损失函数构建目标损失函数;根据所述目标损失函数对所述显性乐理要素对齐分支网络和所述隐性乐理要素对齐分支网络进行联合优化,得到所述预训练模型。9.根据权利要求8所述的方法,其特征在于,所述隐性乐理要素对齐分支网络为双塔模型,所述双塔模型包括第一分支网络和第二分支网络,所述通过所述隐性乐理要素对齐分支网络,根据所述舞蹈视频的视觉信息得到视觉特征,以及根据所述舞蹈视频的音频信息得到音频特征,包括:通过所述第一分支网络,根据所述舞蹈视频的视觉信息得到视觉特征;通过所述第二分支网络,根据所述舞蹈视频的音频信息得到音频特征。10.根据权利要求8所述的方法,其特征在于,所述负样本的选取方式为:获取第一舞蹈视频的音频信息和第二舞蹈视频的音频信息;若所述第一舞蹈视频的音频信息和所述第二舞蹈视频的音频信息之间的相似度分数大于零,则将所述第一舞蹈视频的视觉信息与所述第二舞蹈视频的音频信息构成所述负样本;或者,获取第一舞蹈视频的视觉信息和音频信息;按照偏移时间对所述视觉信息进行时序偏移,将时序偏移后的视觉信息与所述第一舞蹈视频的音频信息构成所述负样本,所述偏移时长与所述音频信息的基本时长单元的倍数不相等,所述基本时长单元为所述音频信息的八分之一节拍的时长。11.根据权利要求8-10任一项所述的方法,其特征在于,所述方法还包括:获取待分类舞蹈视频;通过所述预训练模型得到所述待分类舞蹈视频的视觉特征和音频特征,以及所述待分类舞蹈视频中音频的乐理要素点和所述待分类舞蹈视频中视觉信息的乐理要素点;将待分类舞蹈视频的视觉特征和音频特征,以及所述待分类舞蹈视频中音频的乐理要素点和所述待分类舞蹈视频中视觉信息的乐理要素点进行拼接,得到拼接特征;根据所述拼接特征,通过所述分类层进行分类得到所述待分类舞蹈视频的分类结果。12.根据权利要求8-10任一项所述的方法,其特征在于,所述方法还包括:获取待检索音频;通过所述预训练模型确定所述待检索音频的第一音频特征和第一乐理要素点,以及通过所述预训练模型根据检索数据库中舞蹈视频的视觉信息确定第一视觉特征和第二乐理
要素点;分别计算所述第一音频特征与所述第一视觉特征之间的第一相似度,以及所述第一乐理要素点与所述第二乐理要素点之间的第二相似度;基于所述第一相似度和所述第二相似度得到相似度矩阵;根据所述相似度矩阵从所述检索数据库中确定与所述待检索音频匹配的舞蹈视频的视觉信息;或者,获取待检索舞蹈视频的视觉信息;通过所述预训练模型根据所述待检索舞蹈视频的视觉信息确定第二视觉特征和第三乐理要素点,以及通过所述预训练模型根据检索数据库中舞蹈视频的音频信息确定第二音频特征和第四乐理要素点;分别计算所述第二视觉特征与所述第二音频特征之间的第三相似度,以及所述第三乐理要素点与所述第四乐理要素点之间的第四相似度;基于所述第三相似度和所述第四相似度得到相似度矩阵;根据所述相似度矩阵从所述检索数据库中确定与所述待检索舞蹈视频的视觉信息匹配的音频信息。13.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:获取待创作舞蹈视频和待创作音频;利用所述预训练模型确定所述待创作舞蹈视频的乐理要素点和所述待创作音频的乐理要素点;使用时序加/减速、时序偏移或动态时间规划的方式对所述待创作舞蹈视频的乐理要素点和所述待创作音频的乐理要素点进行对齐,生成卡点视频。14.一种模型训练装置,其特征在于,所述装置包括获取示单元、提取单元、预测单元和优化单元:所述获取单元,用于获取舞蹈视频中的视觉信息和音频信息;所述提取单元,用于基于所述音频信息的语谱图,提取所述音频信息的起始点特征,所述起始点特征用于表征所述舞蹈视频中音频的乐理要素点;所述预测单元,用于利用初始模型预测所述视觉信息的乐理要素点;所述优化单元,用于根据所述视觉信息的乐理要素点和所述音频信息的起始点特征,对所述初始模型进行优化,以使所述视觉信息的乐理要素点与所述音频的乐理要素点对齐,得到预训练模型。15.一种用于模型训练的电子设备,其特征在于,所述电子设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行权利要求1-13任一项所述的方法。16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码当被处理器执行时使所述处理器执行权利要求1-13任一项所述的方法。17.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-13任一项所述的方法。
技术总结
本申请公开一种模型训练方法、装置、设备和存储介质,可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。获取舞蹈视频中的视觉信息和音频信息,提取音频信息的起始点特征,起始点特征用于表征舞蹈视频中音频的乐理要素点,并且利用初始模型预测视觉信息的乐理要素点,从而根据视觉信息的乐理要素点和音频信息的起始点特征,对初始模型进行优化,以使视觉信息的乐理要素点与音频的乐理要素点对齐,得到预训练模型。本申请将视觉信息和音频的乐理要素点对齐作为代理任务实现模型预训练,考虑到了舞蹈视频中的一些独特特征,从而在无需数据标注的情况下,使得预训练模型更好地适应于各种舞蹈类型的下游任务,并且性能表现理想。现理想。现理想。
技术研发人员:于家硕 蒲俊福 单瀛
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.02.17
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-10422.html