基于声音的视频动作分类方法及相关设备

    专利查询2022-07-08  164



    1.本技术涉及视频分析技术领域,尤其涉及一种基于声音的视频动作分类方法及相关设备。


    背景技术:

    2.现阶段,网络中每分钟产生的视频数据量是巨大的,需要能够有效识别人类行为和复杂事件的视频分类技术,应用于自动驾驶、智能家居、游戏交互、视频审查、安防、运动训练等场景。
    3.在视频动作分类领域中,现有的网络框架往往只使用视频帧作为输入,当动作中交互的物体在视频中比例过小、没有显著位置展示时,仅使用视频帧无法有效地分辨动作类别。


    技术实现要素:

    4.有鉴于此,本技术的目的在于提出一种解决上述问题的基于声音的视频动作分类方法及相关设备。
    5.基于上述目的,本技术第一方面提供一种基于声音的视频动作分类方法,包括:
    6.获取待处理视频的音频数据;
    7.构建所述音频数据的声音纹理特征;
    8.将所述声音纹理特征输入至预先训练的第一动作分类网络中,输出第一动作分类结果;
    9.获取所述待处理视频的视频帧;
    10.将所述视频帧输入至预先训练的第二动作分类网络中,输出第二动作分类结果;
    11.利用加权平均的方式对所述第一动作分类结果和所述第二动作类结果进行融合,得到所述待处理视频对应的动作分类结果。
    12.进一步地,所述声音纹理特征是通过以下方式构建的:
    13.将所述音频数据进行快速傅里叶变换,得到声音波形数据;
    14.利用第一带通滤波器组对所述声音波形数据进行滤波,得到第一子带波形数据;
    15.将所述第一子带波形数据,通过希尔伯特变换得到第二子带波形数据;
    16.将所述第二子带波形数据进行压缩,得到第三子带波形数据;
    17.将所述第三子带波形数据在目标频率进行重新采样,得到第四子带波形数据;
    18.获取所述第四子带波形的第一统计数据和第一相关性数据;
    19.利用第二带通滤波器组对所述第四子带波形数据进行滤波,得到第五子带波形数据;
    20.获取所述第五子带波形的第二统计数据和第二相关性数据;
    21.将所述第一统计数据、所述第一相关性数据、所述第二统计数据和所述第二相关性数据进行融合,得到所述声音纹理特征。
    22.进一步地,所述第一统计数据和第二统计数据均包括:平均值、标准差和均方响应;
    23.所述第一相关性数据和第二相关性数据均为皮尔逊相关系数。
    24.进一步地,所述第一带通滤波器组的中心频率范围为20hz~10000hz,所述第二带通滤波器组的中心频率范围为0.5hz~200hz。
    25.进一步地,所述动作分类结果是通过下式计算得到的:
    26.p=w1*p1 w2*p227.其中,p表示动作分类结果,p1表示第一动作类结果,w1表示第一动作类结果的权重,p2表示第二动作类结果,w2表示第二动作类结果的权重,且w1 w2=1。
    28.进一步地,所述第一动作分类网络包括:5个隐藏层和1个输出层,其中,所述5个隐藏层的输出维度分别为128、128、64、64和32,输出层的维度为n,n表示动作识别种类的数量。
    29.进一步地,所述第二动作分类网络为i3d网络。
    30.基于同一发明构思,本技术第二方面提供一种基于声音的视频动作分类装置,包括:
    31.第一获取模块,被配置为获取待处理视频的音频数据;
    32.构建模块,被配置为构建所述音频数据的声音纹理特征;
    33.第一分类模块,被配置为将所述声音纹理特征输入至预先训练的第一动作分类网络中,输出第一动作分类结果;
    34.第二获取模块,被配置为获取所述待处理视频的视频帧;
    35.第二分类模块,被配置为将所述视频帧输入至预先训练的第二动作分类网络中,输出第二动作分类结果;
    36.结果融合模块,被配置为利用加权平均的方式对所述第一动作分类结果和所述第二动作类结果进行融合,得到所述待处理视频对应的动作分类结果。
    37.基于同一发明构思,本技术第三方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
    38.基于同一发明构思,本技术第四方面提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行第一方面所述的方法。
    39.从上面所述可以看出,本技术提供的基于声音的视频动作分类方法及相关设备,考虑到视频中音频数据与图像的相关度较高,因此利用音频数据来辅助进行动作分类。首先,基于视频中的音频数据,获取对应的第一动作分类结果;然后,基于视频的视频帧,获取对应的第二动作分类结果,最后将第一动作分类结果和第二动作分类结果进行融合,得到视频的最终的动作分类结果。只需要增加少量参数,便能够提升动作分类任务的准确率,避免图像信息不完整对动作分类结果产生的影响。
    附图说明
    40.为了更清楚地说明本技术或相关技术中的技术方案,下面将对实施例或相关技术
    描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
    41.图1为本技术实施例的基于声音的视频动作分类方法流程图;
    42.图2为本技术实施例的声音纹理特征构建方法流程图;
    43.图3为本技术实施例的第一动作分类网络结构示意图;
    44.图4为本技术实施例的三种不同网络下7种动作类别的分类准确率条形图;
    45.图5为本技术实施例的基于声音的视频动作分类装置结构示意图;
    46.图6为本技术实施例的电子设备结构示意图。
    具体实施方式
    47.为使本技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本技术进一步详细说明。
    48.需要说明的是,除非另外定义,本技术实施例使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。本技术实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
    49.如背景技术部分所述,相关技术中视频动作分类方案还难以满足需要,一般利用视频中的视频帧训练深度神经网络,进而利用训练好的深度神经网络对视频中的动作类别进行预测。申请人在实现本技术的过程中发现相关技术中的视频动作分类方案至少存在以下问题:虽然深度神经网络能够从原始数据中自动学习特征,并在各个领域中展现了强大的性能,如:目标检测、目标识别、图像分割等,然而在视频动作分类领域中,由于视频数据具有较高的复杂性,待识别的对象在视频中比例过小或没有显著位置展示时,无法对目标对象的动作进行有效分类。
    50.视频数据包含的数据量巨大,往往包含多种模态的数据,例如:图像、声音、地点、时间等,因此可以考虑引入视频文件中的其他信息来进行辅助分类,例如:声音,声音能够传达环境的重要信息,声音在一定程度上能够对视觉信息进行补充,例如:视频中人物及周围环境图像是模糊的,导致无法准确判断视频中人物的动作属于何种类别,但视频中还记录了视频中人物的语音信息,如“走步”或“好抢断”等,通过语音数据能够辅助判断出视频中人物的动作为上篮或运球等。
    51.有鉴于此,本技术的实施例提供一种基于声音的视频动作分类方法,基于视频中图像和声音的相关性,利用视频帧和音频所提供的特征,分别得到对应的动作分类结果,通过将基于视频帧得到的动作分类结果和基于声音的动作分类结果进行融合,最终得到准确性较高的动作分类结果。
    52.以下,通过具体实施例来详细说明本技术的技术方案。
    53.参考图1,本技术一个实施例提供的一种基于声音的视频动作分类方法,包括以下步骤:
    54.步骤s101,获取待处理视频的音频数据。
    55.本步骤中,视频文件包括视频流和音频流,将音频流从视频中分离出来得到音频数据。示意性的,将视频文件的后缀名改为mp3或wma便可获取视频文件的音频数据,或者通过音频提取应用程序,从视频文件将音频数据分离出来。
    56.步骤s102,构建所述音频数据的声音纹理特征。
    57.本步骤中,对于声音的应用通常的做法是使用声音的原始波形数据作为神经网络的输入或简单的进行二维转换,这样的处理方式并没有考虑到不同动作场景下,参与动作交互的对象发出的声音中不同频率的特征和相关性,即声音纹理特征。
    58.由于声音纹理特征是一段时间范围内的多种统计数据的组合,因此需要设定时间窗口以确保更多的声音特征被获取并内与计算,声音的采样时间设置在3.75秒以上。
    59.步骤s103,将所述声音纹理特征输入至预先训练的第一动作分类网络中,输出第一动作分类结果。
    60.本步骤中,第一动作分类网络即声音神经网络,可采集视频网站中用户上传的视频文件,并对所采集的视频文件进行裁剪获取包含确定分类动作的片段,并划分80%的训练集和20%的测试集,训练得到第一动作分类网络,输出各动作的分类概率,选取概率值最高的动作作为分类结果。
    61.步骤s104,获取所述待处理视频的视频帧。
    62.本步骤中,可通过cv工具对选取的视频进行处理,从视频中提取分辨率为224*224的80帧的图像,当整个视频未满80帧时,则将整个视频进行循环,以保证能够获取到所选择视频的80帧图像。
    63.步骤s105,将所述视频帧输入至预先训练的第二动作分类网络中,输出第二动作分类结果。
    64.本步骤中,第二动作分类网络即视频神经网络,具体的,视频神经网络可以为i3d网络。将视频帧输入至i3d网络中,该网络能够输出对应视频帧的动作分类结果。
    65.i3d网络是在视频动作领域中效果较好的深度神经网络,可以用更少的训练参数构建更深的神经网络结构。其通过使用类似结构的多分支基础模块进行顺序堆叠而成,基础模块的每一个子分支对输入数据提取的侧重不同,最终训练好的i3d网络模型可以得到较高的分类准确率。
    66.步骤s106,利用加权平均的方式对所述第一动作分类结果和所述第二动作类结果进行融合,得到所述待处理视频对应的动作分类结果。
    67.本步骤中,由于上述两种动作分类网络的结构不同且输入的数据也不同,无法在运算过程中将两个动作分类网络的特征进行融合,所以选择对两个动作分类网络输出的分类结果进行融合,融合方式为加权平均,为每个网络输出的分类结果配置对应的权重,例如:第一动作分类结果的权重为0.5,第二动作分类结果的权重为0.5,权重可根据网络的分类准确率进行设定,也可根据实际情况进行设定,在此不做具体限定。
    68.可见,本实施例提供的一种基于声音的视频动作分类方法,考虑到视频中音频数据与图像的相关度较高,因此利用音频数据来辅助进行动作分类。首先,基于视频中的音频
    数据,获取对应的第一动作分类结果;然后,基于视频的视频帧,获取对应的第二动作分类结果,最后将第一动作分类结果和第二动作分类结果进行融合,得到视频的最终的动作分类结果。只需要增加少量参数,便能够提升动作分类任务的准确率,避免图像信息不完整对动作分类结果产生的影响。
    69.在一些实施例中,结合图2,前述实施例中的步骤s102,其还可以包括以下步骤:
    70.步骤s1021,将所述音频数据进行快速傅里叶变换,得到声音波形数据。
    71.步骤s1022,利用第一带通滤波器组对所述声音波形数据进行滤波,得到第一子带波形数据。
    72.本步骤中,第一带通滤波器组包括20个不同频率的带通滤波器,其中心频率范围为20hz~10000hz,在对数刻度上呈等距分布。构建的第一带通滤波器组能够模拟人类耳蜗对于声音的过滤功能(频率选择性)。通过第一带通滤波器组后能够得到20个第一子带波形数据。
    73.步骤s1023,将所述第一子带波形数据,通过希尔伯特变换得到第二子带波形数据。
    74.本步骤中,将第一子带波形数据经过希尔伯特变换之后得到希尔伯特包括,即第二子带波形数据。
    75.步骤s1024,将所述第二子带波形数据进行压缩,得到第三子带波形数据。
    76.本步骤中,第二子带波形数据的0.3次方,即为第三子带波形数据,通过对第二子带波形数据进行压缩,能够模拟人类耳蜗对声音的压缩功能。
    77.步骤s1025,将所述第三子带波形数据在目标频率进行重新采样,得到第四子带波形数据。
    78.本步骤中,由于第一滤波器组的滤波器数量为20个,第四子带波形数据的数量也为20个,且对应20个不同的采样频率。将20个不同采样频率的第四子带波形数据统一在400hz进行采样,同样能够模仿人类耳蜗对于声音的压缩功能。
    79.步骤s1026,获取所述第四子带波形的第一统计数据和第一相关性数据。
    80.本步骤中,第一统计数据包括:平均值、标准差和均方响应。第一相关性数据为皮尔逊相关系数,具体的,例如:第1个波形与第20个波形的皮尔逊相关系数,第10个波形与第11个波形的皮尔逊相关系数等。每个子带波形的平均值、标准差、均方响应以及子带波形间的皮尔逊相关系数均为声音纹理特征的一部分。
    81.步骤s1027,利用第二带通滤波器组对所述第四子带波形数据进行滤波,得到第五子带波形数据。
    82.本步骤中,第二滤波器组的滤波器数量为10个,第二带通滤波器组的中心频率范围为0.5hz~200hz,同样在对数刻度上呈等距分布。第四子带波形数据的数量20个,每个分别经过第二滤波器组,得到一组10个的子子带波形数据,即第五子带波形数据,共20组。
    83.步骤s1028,获取所述第五子带波形的第二统计数据和第二相关性数据。
    84.本步骤中,第二统计数据包括:平均值、标准差和均方响应。第二相关性数据为皮尔逊相关系数,具体的,例如:第1个波形与第10个波形的皮尔逊相关系数,第5个波形与第6个波形的皮尔逊相关系数等。每个子子带波形的平均值、标准差、均方响应以及子子带波形间的皮尔逊相关系数均为声音纹理特征的一部分。
    85.步骤s1029,将所述第一统计数据、所述第一相关性数据、所述第二统计数据和所述第二相关性数据进行融合,得到所述声音纹理特征。
    86.本步骤中,将第四子带波形数据以及第五子带波形数据的统计数据和相关性数据融合在一起,得到一个1*320矩阵,即声音纹理特征。
    87.本实施例中,通过模拟人类大脑处理声音的过程,将固定时间内的波形通过不同的滤波器组来模拟耳蜗对声音的过滤功能,使得到的声音纹理特征更具真实性,进而保证通过音频数据进行动作分类的准确性。
    88.在一些实施例中,所述动作分类结果是通过下式计算得到的:
    89.p=w1*p1 w2*p290.其中,p表示动作分类结果,p1表示第一动作类结果,w1表示第一动作类结果的权重,p2表示第二动作类结果,w2表示第二动作类结果的权重,且w1 w2=1。
    91.具体的,p1=an(soundtexture),其中,an()表示声音神经网络的运算,soundtexture表示声音神经网络的输入,即声音纹理特征,其维度是[1,n1],n1表示统计数据和相关性数据的数量。p1=i3d(frames),其中,i3d()表示i3d网络的运算,frames表示i3d网络的输入,即视频帧,其维度为[n2,t,c,h,w],其中,n2表示每组视频的个数,t表示每个视频中视频帧的数量,c表示每个视频帧的通道数,h表示每个视频帧的高度,w表示每个视频帧的宽度。
    [0092]
    示意性的,不同动作类别对应不同的分值,例如:洗碗为1,刷鞋为2,第一动作分类网络的输出为1,第二动作分类网络的输出也为1,第一动作类结果和第二动作类结果的权重均为0.5,融合后的动作分类结果也为1。
    [0093]
    第一动作类结果和第二动作类结果的权重可根据实际情况进行设置,例如:根据每个网络的分类结果的准确性匹配权重,在此不做具体限定。
    [0094]
    当计算的结果为浮点数,而动作类别对应的分值为整数时,可选择四舍五入的方式重新调整计算结果,以得到相应的动作分类结果。
    [0095]
    在一些实施例中,如图3所示,所述第一动作分类网络包括:5个隐藏层和1个输出层,其中,所述5个隐藏层的输出维度分别为128、128、64、64和32,输出层的维度为n,n表示动作识别种类的数量。各隐藏层的维度变化可以为:[batchsize,128]-》[batchsize,128]-》[batchsize,64]-》[batchsize,64]-》[batchsize,32]-》[batchsize,7]。每个隐藏层的运算结果都会经过relu激活函数和批归一化处理。为了减少网络结构中的需要训练的参数数量,避免产生过拟合现象,网络中隐藏层节点的随机丢弃率设置为50%,需要说明的是,随机丢弃率可根据实际情况进行设置,在此不做具体限定。
    [0096]
    以下,结合上述所有实施例,通过实验数据来说明本技术方法的有效性。
    [0097]
    实验的训练数据和测试数据使用开源视频数据集kinetics,从中随机选取了7个分类:利用健身球锻炼(execising)、帆伞运动(parasailing)、洗碗(wash dishes)、引体向上(pull ups)、擦鞋(clean shoes)、折纸(fold)和挥拳(pump fist)。将视频中没有背景声音的视频剔除,得到训练集和测试集。
    [0098]
    利用训练好的视频神经网络(i3d)、声音神经网络(an)和双路神经网络(twostream)对选择的多个视频进行动作分类,其中,双路神经网络为视频神经网络和声音神经网络的结合,即本技术的方法。动作分类结果如图4所示,很容易看出,双路神经网络在
    7个类别的分类中,其分类结果的准确率均高于视频神经网络和声音神经网络的动作分类结果的准确率,能够提高视频动作分类任务的准确率。
    [0099]
    表1
    [0100]
    网络输入准确率视频神经网络视频帧40.1%声音神经网络声音纹理特征37.5%双路神经网络视频帧 声音纹理特征47.7%
    [0101]
    结合表1,相对于两个独立的神经网络(视频神经网络、声音神经网络),双路神经网络(即i3d an)在动作分类时准确性得到了7.6%的提升。需要说明的是,训练视频神经网络的数据量12.3mb,而训练声音神经网络的数据量为70kb,可见,只需要增加少量就可以提升动作分类任务的准确性。
    [0102]
    需要说明的是,本技术实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本技术实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
    [0103]
    需要说明的是,上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
    [0104]
    基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种基于声音的视频动作分类装置。
    [0105]
    参考图5,所述基于声音的视频动作分类装置,包括:
    [0106]
    第一获取模块501,被配置为获取待处理视频的音频数据。
    [0107]
    构建模块502,被配置为构建所述音频数据的声音纹理特征。
    [0108]
    第一分类模块503,被配置为将所述声音纹理特征输入至预先训练的第一动作分类网络中,输出第一动作分类结果。
    [0109]
    第二获取模块504,被配置为获取所述待处理视频的视频帧。
    [0110]
    第二分类模块505,被配置为将所述视频帧输入至预先训练的第二动作分类网络中,输出第二动作分类结果。
    [0111]
    结果融合模块506,被配置为利用加权平均的方式对所述第一动作分类结果和所述第二动作类结果进行融合,得到所述待处理视频对应的动作分类结果。
    [0112]
    作为一个可选的实施例,所述构建模块502具体被配置为将所述音频数据进行快速傅里叶变换,得到声音波形数据;利用第一带通滤波器组对所述声音波形数据进行滤波,得到第一子带波形数据;将所述第一子带波形数据,通过希尔伯特变换得到第二子带波形数据;将所述第二子带波形数据进行压缩,得到第三子带波形数据;将所述第三子带波形数据在目标频率进行重新采样,得到第四子带波形数据;获取所述第四子带波形的第一统计数据和第一相关性数据;利用第二带通滤波器组对所述第四子带波形数据进行滤波,得到第五子带波形数据;获取所述第五子带波形的第二统计数据和第二相关性数据;将所述第
    一统计数据、所述第一相关性数据、所述第二统计数据和所述第二相关性数据进行融合,得到所述声音纹理特征。
    [0113]
    作为一个可选的实施例,所述第一统计数据和第二统计数据均包括:平均值、标准差和均方响应;所述第一相关性数据和第二相关性数据均为皮尔逊相关系数。
    [0114]
    作为一个可选的实施例,所述第一带通滤波器组的中心频率范围为20hz~10000hz,所述第二带通滤波器组的中心频率范围为0.5hz~200hz。
    [0115]
    作为一个可选的实施例,所述动作分类结果是通过下式计算得到的:
    [0116]
    p=w1*p1 w2*p2[0117]
    其中,p表示动作分类结果,p1表示第一动作类结果,w1表示第一动作类结果的权重,p2表示第二动作类结果,w2表示第二动作类结果的权重,且w1 w2=1。
    [0118]
    作为一个可选的实施例,所述第一动作分类网络包括:5个隐藏层和1个输出层,其中,所述5个隐藏层的输出维度分别为128、128、64、64和32,输出层的维度为n,n表示动作识别种类的数量。
    [0119]
    作为一个可选的实施例,所述第二动作分类网络为i3d网络。
    [0120]
    为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
    [0121]
    上述实施例的装置用于实现前述任一实施例中相应的基于声音的视频动作分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
    [0122]
    基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于声音的视频动作分类方法。
    [0123]
    图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
    [0124]
    处理器1010可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
    [0125]
    存储器1020可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
    [0126]
    输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
    [0127]
    通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式
    (例如移动网络、wifi、蓝牙等)实现通信。
    [0128]
    总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
    [0129]
    需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
    [0130]
    上述实施例的电子设备用于实现前述任一实施例中相应的基于声音的视频动作分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
    [0131]
    基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于声音的视频动作分类方法。
    [0132]
    本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
    [0133]
    上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于声音的视频动作分类方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
    [0134]
    所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本技术的范围(包括权利要求)被限于这些例子;在本技术的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本技术实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
    [0135]
    另外,为简化说明和讨论,并且为了不会使本技术实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本技术实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本技术的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术实施例。因此,这些描述应被认为是说明性的而不是限制性的。
    [0136]
    尽管已经结合了本技术的具体实施例对本技术进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
    [0137]
    本技术实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本技术实施例的精神和原则之内,所做的任何省略、修改、等同替换、
    改进等,均应包含在本技术的保护范围之内。
    转载请注明原文地址:https://tc.8miu.com/read-2581.html

    最新回复(0)