基于多模态大语言模型的媒体文件无障碍描述的生成方法与流程

专利查询2025-11-03 34

本发明属于人工智能领域，具体涉及一种基于多模态大语言模型的媒体文件无障碍描述的生成方法。

背景技术：

1、随着信息技术的快速发展，视频和音频等媒体文件在日常生活和工作中得到了广泛应用。然而，对于失明和弱视、耳聋和听力丧失、以及有学习障碍和认知局限的人来说，获取这些媒体文件中的信息仍然存在较大障碍。传统的无障碍技术，如字幕和音频描述，虽然在一定程度上缓解了这一问题，但其生成过程通常需要大量的人工干预，效率低、费用高、且准确性差。

2、现有技术中，字幕生成主要依赖于语音识别技术，但由于语音识别技术在噪声环境下的表现不佳，生成的字幕往往需要大量人工的后期校正。此外，视频内容和音频内容的文字描述通常需要人工编写，这不仅耗时耗力，还容易出现主观偏差，影响描述的准确性和一致性。

技术实现思路

1、本发明所要解决的技术问题是：提供一种基于多模态大语言模型的媒体文件无障碍描述的生成方法，解决了现有技术中视频文件字幕生成人工干预多容易出现主观偏差，影响描述的准确性和一致性的问题。

2、本发明为解决上述技术问题采用以下技术方案：

3、基于多模态大语言模型的媒体文件无障碍描述的生成方法，使用多模态大语言模型对媒体文件进行分析预处理，并分别自动生成字幕和带字幕的视频文件、音频部分的文字描述文件、视频部分的文字描述文件以及与视频同步的视频内容的语音描述文件。

4、所述预处理包括，对音频部分进行预处理和对视频部分预处理，其中，

5、对音频部分进行预处理的过程包括音频的分段处理、噪声处理、背景音过滤；

6、对视频部分进行预处理的过程包括在特定的时长内选择特定数量的视频帧进行分析；将视频文件的视频帧转换为灰度图像，调整视频帧大小，去除视频中的视频帧噪声，并对视频帧进行二值化处理。

7、对预处理后的音频文件进行处理包括生成字幕文件和生成音频部分的文字描述文件，具体过程如下：

8、首先，将音频部分转换为文字和对应的开始和结束时间戳；其次，对转换后的文字和时间戳进行校正和优化，生成字幕文件和音频部分的文字描述文件；然后，将生成的字幕和视频内容同步显示，生成带字幕的视频文件。

9、所述对转换后的文字和时间戳进行校正和优化包括：对生成的文字进行内容的校正；对生成的文字进行时间轴的校正；对生成的文字进行多语言翻译；对生成的文字根据不同的说话人进行分类；对生成的文字进行长度和分段的处理。

10、将音频部分转换成文字包括对音频中的语气和背景音进行文字描述。

11、对预处理后的视频文件进行处理的过程如下：

12、选择数个关键帧和对应的开始和结束时间戳；对关键帧进行文字描述；生成视频部分的文字描述文件。

13、所述选择关键帧的步骤包括

14、计算当前帧与最后保存帧之间的结构相似性指数，选择结构相似性指数小于特定阈值的帧作为关键帧并保存；

15、计算当前帧的颜色直方图，对当前帧与最后保存帧的颜色直方图进行差异计算，选择直方图差异大于特定阈值的帧作为关键帧并保存；

16、提取当前帧内的文字内容，对当前帧与最后保存帧的文字内容进行差异计算，选择文字内容具有显著变化的帧作为关键帧并保存。

17、采用如下公式计算结构相似性指数：

18、

19、其中μx和μy分别是图像x和y的均值，σx和σy分别是图像x和y的方差，σxy是图像x和y的协方差，c1和c2是用于稳定的常数。

20、采用如下公式计算当前帧和最后保存帧之间的颜色直方图差异：

21、

22、其中，h1和h2分别是当前帧和最后保存帧的颜色直方图，n是颜色的数量；将视频帧分割为多个区域，并计算每个区域的颜色直方图差异。

23、采用如下公式计算文字差异：

24、

25、其中，t1和t2分别是当前帧和最后保存帧的文字内容，m是文字的数量，δ是文字是否相同的指标，相同为0，不同为1。

26、对关键帧进行文字描述的步骤包括：使用多模态大语言模型对于关键帧，结合特定时间范围内的前后帧及音频内容，进行上下文理解和语义分析，对关键帧进行文字描述；对相邻关键帧之间发生的变化进行文字描述；将生成的文字描述与关键帧的时间戳进行匹配；生成视频部分的文字描述。

27、视频部分的文字描述文件包括：视频部分的文字描述；与文字描述对应的关键帧的开始和结束时间戳。

28、生成与视频同步的视频内容的语音描述文件的具体过程如下：

29、应用根据权利要求11生成的关键帧的文字描述，使用文本转语音系统对每个文字描述生成独立的语音文件；将生成的语音文件与关键帧的时间戳进行匹配；将每个语音文件独立于原视频的音频插入到视频文件两个关键帧的时间间隔中；生成与视频同步的视频内容的语音描述文件。

30、与视频同步的视频内容的语音描述文件的功能包括：用户在视频的任何时间选择播放视频内容的文字描述的音频，即可播放当前视频时间所在时间范围对应的关键帧的语音文字描述。

31、多模态大语言模型，包括预训练的自然语言处理模型、图像处理模型和音频处理模型，其中，

32、图像处理模型，对预处理后的视频文件进行处理，用于对关键帧，结合特定时间范围内的前后帧及音频内容，进行上下文理解和语义分析，对关键帧进行文字描述以及对相邻关键帧之间发生的变化进行文字描述；

33、音频处理模型，对预处理后的音频文件进行处理，用于将音频内容转换为文字以及对音频中的语气和背景音进行文字描述；

34、预训练的自然语言处理模型，用于对转换后的文字进行内容的校正和优化。

35、与现有技术相比，本发明具有以下有益效果：

36、1、高效性：通过使用多模态大语言模型，实现了对媒体文件内容的自动分析和描述生成，提高处理效率，减少人工干预的需求。

37、2、准确性：多模态大语言模型在生成自然语言描述时具有较高的准确性，能够提供更为准确和一致的描述内容。

38、3、多样性：不仅能够生成字幕，还能够生成音频和视频部分的文字描述以及与视频同步的语音描述，满足不同残障人士的需求。

39、4、经济性：通过自动化处理，减少了人工成本，使得无障碍描述生成更加经济高效。

技术特征：

1.基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：使用多模态大语言模型对媒体文件进行分析预处理，并分别自动生成字幕和带字幕的视频文件、音频部分的文字描述文件、视频部分的文字描述文件以及与视频同步的视频内容的语音描述文件。

2.根据权利要求1所述的基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：所述预处理包括，对音频部分进行预处理和对视频部分预处理，其中，

3.根据权利要求2所述的基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：对预处理后的音频文件进行处理包括生成字幕文件和生成音频部分的文字描述文件，具体过程如下：

4.根据权利要求3所述的基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：所述对转换后的文字和时间戳进行校正和优化包括：对生成的文字进行内容的校正；对生成的文字进行时间轴的校正；对生成的文字进行多语言翻译；对生成的文字根据不同的说话人进行分类；对生成的文字进行长度和分段的处理。

5.根据权利要求4所述的基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：将音频部分转换成文字包括对音频中的语气和背景音进行文字描述。

6.根据权利要求2所述的基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：对预处理后的视频文件进行处理的过程如下：

7.根据权利要求6所述的基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：所述选择关键帧的步骤包括

8.根据权利要求7所述的基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：采用如下公式计算结构相似性指数：

9.根据权利要求7所述的基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：采用如下公式计算当前帧和最后保存帧之间的颜色直方图差异：

10.根据权利要求7所述的基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：采用如下公式计算文字差异：

11.根据权利要求6所述的基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：对关键帧进行文字描述的步骤包括：使用多模态大语言模型对于关键帧，结合特定时间范围内的前后帧及音频内容，进行上下文理解和语义分析，对关键帧进行文字描述；对相邻关键帧之间发生的变化进行文字描述；将生成的文字描述与关键帧的时间戳进行匹配；生成视频部分的文字描述。

12.根据权利要求6所述的基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：视频部分的文字描述文件包括：视频部分的文字描述；与文字描述对应的关键帧的开始和结束时间戳。

13.根据权利要求3所述的基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：生成与视频同步的视频内容的语音描述文件的具体过程如下：

14.根据权利要求13所述的基于多模态大语言模型的媒体文件无障碍描述的生成方法，其特征在于：与视频同步的视频内容的语音描述文件的功能包括：用户在视频的任何时间选择播放视频内容的文字描述的音频，即可播放当前视频时间所在时间范围对应的关键帧的语音文字描述。

15.用于调用权利要求1至14中任一项所述方法处理媒体文件的多模态大语言模型，其特征在于：包括预训练的自然语言处理模型、图像处理模型和音频处理模型，其中，

技术总结
本发明公开了基于多模态大语言模型的媒体文件无障碍描述的生成方法，为视频或音频等媒体文件生成字幕、生成音频部分的文字描述、生成视频部分的文字描述；以及为视频等媒体文件提供同步的视频内容的语音描述。本发明通过使用多模态大语言模型，能够准确且高效地为视频或音频等媒体文件生成替代文件，从而直接并有效地帮助残障人士等群体(如失明和弱视、耳聋和听力丧失、以及有学习障碍和认知局限的人等)无障碍地理解视频或音频等媒体文件的内容，保障他们平等获取信息和参与社会生活的权利。本发明不仅提高了媒体文件的可访问性，还提升了信息传递的准确性和效率。

技术研发人员：张庆全,景基恒,郑博文,林金帝,张征,张春宇
受保护的技术使用者：天津天机人工智能有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-31593.html

专利

最新回复(0)