一种基于检索的文生视频方法

    专利查询2025-04-16  32


    本发明属于视频生成,尤其是涉及一种基于检索的文生视频方法。


    背景技术:

    1、随着人工智能和深度学习技术的快速发展,文本到视频生成技术得到了广泛关注。传统的视频生成技术主要依赖于预训练的深度学习模型,通过输入文本描述生成相应的视频内容。

    2、如公开号为cn114598926a的中国专利文献公开了一种视频生成方法,对待推理文本进行预处理,得到待推理文本的文本标识序列;将待推理文本的文本标识序列输入训练好的神经网络视频生成模型,生成待推理文本对应的视频。

    3、公开号为cn117041459a的中国专利文献公开了一种基于文本的视频生成方法,预先建立视频资源素材库,接收用户输入的文本并确定待生成视频所需的各种素材以及各种素材的风格,对文本进行转换分析获得各种素材的依赖数据,基于各种素材的风格并通过预设的风格匹配规则从视频资源素材库中获得各种目标素材,对依赖数据和各种目标素材进行包装,获得视频各图层数据,基于视频各图层数据渲染得到目标视频。

    4、然而,现有技术在生成视频的真实性和动态一致性方面仍存在显著的挑战。例如,许多现有方法无法生成具有高质量运动特征的视频,或需要大量的计算资源和时间进行模型训练。

    5、现有的文本到视频生成技术主要包括以下几类方法:

    6、基于预训练模型的方法:此类方法通过预训练的深度学习模型生成视频,但在运动特征的捕捉上效果有限。无训练方法:通过不依赖目标视频数据的注释,利用关键帧的交叉注意力机制或深度图、光流等特征提取进行视频生成。视频编辑方法:此类方法通过输入视频的反转噪声和描述目标视频的字幕生成新视频,但在保留原视频特征的同时难以实现高质量的动态生成。

    7、总的来说,现有文本到视频生成技术中主要存在以下问题:

    8、1、运动特征不精准:现有方法在生成视频的运动特征上往往表现不佳,导致生成视频的动态不真实。

    9、2、高计算成本:许多视频生成方法需要大量计算资源和时间进行训练,成本高昂。

    10、3、视频真实性差:生成的视频与真实视频之间存在较大差距,难以在应用中获得良好效果。


    技术实现思路

    1、本发明提供了一种基于检索的文生视频方法,可以提高生成视频的运动特征精准度,降低计算成本的同时提升视频的真实性。

    2、一种基于检索的文生视频方法,包括以下步骤:

    3、(1)对输入的文本提示p进行文本特征提取,获得语义向量;

    4、(2)利用语义向量在文本-视频库中进行检索,匹配相似的文本-视频对,选择与输入的文本提示p最相似的参考视频;

    5、(3)从参考视频中提取关键帧及其关键区域,并进行运动特征的提取;

    6、(4)使用提取的运动特征对预训练的文本-视频生成模型进行微调;

    7、(5)将文本提示p输入到微调后的文本-视频生成模型中,生成最终视频。

    8、本发明通过利用现有的视频资源作为参考,在合成过程中整合动态信息,实现高质量视频生成,可以解决现有视频生成模型在运动特征精准度差、生成成本高的问题,适用于娱乐、教育和虚拟环境等领域的应用。

    9、进一步地,步骤(1)的具体过程为:

    10、(1-1)利用预训练语言模型将输入的文本提示p抽象为句子级语义向量

    11、(1-2)将输入的文本提示p解构重组为多个独立的子句,每个子句能够表示原文本提示中的一个完整且独立的运动信息;并使用预训练语言模型提取这些子句的词向量,从而得到p的原子级语义向量集合sp。

    12、步骤(1-2)中,原子级语义向量的生成包括:输入的文本提示p解析为依存关系树,以建立词之间的关系,根据规则将p拆分为数个独立的子句;对于单个子句,使用预训练语言模型,准确提取子句的运动、动作主体及动作接受者的语义向量s=(vmot,vatr,vrec)∈sp;在所有子句中,包含原文本提示核心运动语义的子句记为score。

    13、步骤(2)的具体过程为:

    14、(2-1)计算输入文本提示p的句子级语义向量与文本-视频库中视频描述文本的语义向量之间的余弦相似度,初步筛选文本-视频对;

    15、(2-2)设计排名分数,评估文本提示p与初步筛选出的文本-视频对的视频描述文本之间的运动语义相似度,并根据排名分数选择最优的文本-视频对,作为参考视频。

    16、步骤(2-2)中,排名分数的计算公式为:

    17、

    18、其中,ti为数据集中第i个视频的文本描述ti,为ti的句子级语义向量,si为ti的原子化语义单元集合,sim(·,·)表示余弦相似度;语义单元之间的匹配分数f定义为:

    19、

    20、其中,α、β和γ是各自参数的系数,与为ti核心语义单元的动作、动作执行者词向量,与为p核心语义单元的动作、动作执行者词向量;sim′(·,·)表示语义单元的相似度计算函数,其定义如下:

    21、

    22、其中,

    23、步骤(3)的具体过程为:

    24、(3-1)基于文本提示p的原子化语义单元和参考视频中文本的原子化语义单元,找到元素紧密匹配的语义单元子集;

    25、(3-2)提取上述语义单元子集中原子化语义单元中的关键词,使用开放式目标检测方法检测参考视频中的关键词对应目标,获取关键帧及其边界框。

    26、步骤(3-2)中,开放式目标检测方法包括:检测视频中的关键词对应目标出现的图片帧及其大致出现的边界框,整合检测结果以得到视频中的关键时间段和关键图像区域。

    27、步骤(4)的具体过程为:

    28、(4-1)采用时序注意力适应方法对提取的关键帧的运动特征进行帧蒸馏,提取出最重要的运动特征;

    29、(4-2)利用蒸馏提取的运动特征对预训练的文本-视频生成模型进行微调,增强其生成能力,其中,文本-视频生成模型采用t2v模型。

    30、与现有技术相比,本发明具有以下有益效果:

    31、1、提高生成视频的运动特征精准度:通过参考真实视频中的动态信息,生成的视频在运动特征上更加逼真。

    32、2、降低计算成本:利用现有视频资源,减少了模型训练所需的计算资源和时间,降低了生成成本。

    33、3、提升视频的真实性:生成的视频在视觉效果和动态一致性方面更接近真实视频,适用范围更广。



    技术特征:

    1.一种基于检索的文生视频方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的基于检索的文生视频方法,其特征在于,步骤(1)的具体过程为:

    3.根据权利要求2所述的基于检索的文生视频方法,其特征在于,步骤(1-2)中,原子级语义向量的生成包括:输入的文本提示p解析为依存关系树,以建立词之间的关系,根据规则将p拆分为数个独立的子句;对于单个子句,使用预训练语言模型,准确提取子句的运动、动作主体及动作接受者的语义向量s=(vmot,vatr,vrec)∈sp;在所有子句中,包含原文本提示核心运动语义的子句记为score。

    4.根据权利要求2所述的基于检索的文生视频方法,其特征在于,步骤(2)的具体过程为:

    5.根据权利要求4所述的基于检索的文生视频方法,其特征在于,步骤(2-2)中,排名分数的计算公式为:

    6.根据权利要求1所述的基于检索的文生视频方法,其特征在于,步骤(3)的具体过程为:

    7.根据权利要求6所述的基于检索的文生视频方法,其特征在于,步骤(3-2)中,开放式目标检测方法包括:检测参考视频中的关键词对应目标出现的图片帧及其大致出现的边界框,整合检测结果以得到视频中的关键时间段和关键图像区域。

    8.根据权利要求1所述的基于检索的文生视频方法,其特征在于,步骤(4)的具体过程为:


    技术总结
    本发明公开了一种基于检索的文生视频方法,包括:(1)对输入的文本提示P进行文本特征提取,获得语义向量;(2)利用语义向量在文本‑视频库中进行检索,匹配相似的文本‑视频对,选择与输入的文本提示P最相似的参考视频;(3)从参考视频中提取关键帧及其关键区域,并进行运动特征的提取;(4)使用提取的运动特征对预训练的文本‑视频生成模型进行微调;(5)将文本提示P输入到微调后的文本‑视频生成模型中,生成最终视频。利用本发明,可以提高生成视频的运动特征精准度,降低计算成本的同时提升视频的真实性。

    技术研发人员:程浩然,彭亮,武伯熹,蔡登
    受保护的技术使用者:浙江大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-27589.html

    最新回复(0)