一种图像增广的方法、装置、电子设备和可读存储介质与流程

专利查询2026-06-17 8

本发明实施例涉及视频业务，尤其涉及一种图像增广的方法、装置、电子设备和可读存储介质。

背景技术：

1、现有技术方案中，对于物体空间数据的增广通常是通过三维重建的方法，利用多视角图像进行点云重建，从而获得物体的三维模型，利用常用的渲染软件将三维模型渲染至二维图像中，此方法依赖第三方渲染软件，并且不能生成图像分割或实例分割的数据集，不能生成像素级的、准确的标注。因此，需要解决如何利用少量数据进行采集和标注后，通过图像生成的手段，合成大量标注数据，实现数据增广的问题。

技术实现思路

1、本发明实施例提供一种图像增广的方法、装置、电子设备和可读存储介质，以解决现有的无法准确有效的进行图像数据增广的问题。

2、为了解决上述技术问题，本发明是这样实现的：

3、第一方面，本发明实施例提供了一种图像数据增广的方法，包括：

4、获取目标图像的信息，所述目标图像为二维图像，所述目标图像的信息包括所述目标图像中各个分割区域对应的语义标签；

5、将所述目标图像的信息输入目标神经辐射场，输出所述目标图像对应的三维图像的信息，其中，所述三维图像的信息包括所述目标图像各个分割区域的不同视角；

6、根据所述三维图像的信息得到所述目标图像中不同视角对应的多个二维图像的信息，所述二维图像的信息包括所述分割后的二维图像中各个区域对应的语义标签。

7、可选的，所述目标图像的信息还包括以下至少一项：所述目标图像的rgb彩图和带有所述目标图像中各个区域对应的语义标签的蒙版图像。

8、可选的，所述二维图像的信息还包括：所述分割后的二维图像的rgb彩图和带有所述分割后的二维图像中各个区域对应的语义标签蒙版图像。

9、可选的，所述根据所述三维图像的信息得到所述目标图像中不同视角对应的多个二维图像的信息之后，还包括：

10、根据所述目标图像中各个区域的不同视角对应的多个二维图像的信息构建第一损失函数；

11、根据所述分割后的二维图像中各个区域对应的语义标签对所述第一损失函数设置权重，得到设置权重后的第一损失函数，其中，所述分割后的二维图像中像素占比大的区域对应的语义标签的权重大于所述分割后的二维图像中像素占比小的区域对应的语义标签的权重；

12、根据所述设置权重后的第一损失函数调整所述目标神经辐射场的参数，对所述目标神经辐射场进行优化。

13、可选的，所述根据所述三维图像的信息得到所述目标图像中不同视角对应的多个二维图像的信息之后，还包括：

14、将所述分割后的二维图像的rgb彩图和所述分割后的二维图像中各个区域对应的语义标签输入文本-图像预训练模型，得到所述rgb彩图的第一特征向量和所述语义标签的第二特征向量；

15、根据所述第一特征向量和所述第二特征向量，得到所述第一特征向量和所述第二特征向量的余弦距离的第二损失函数；

16、根据所述第二损失函数调整所述目标神经辐射场的参数，对所述目标神经辐射场进行优化。

17、可选的，还包括：

18、获取所述分割后的二维图像中各个区域对应的语义标签中同一个语义标签的所有目标像素；

19、获取所述目标像素的最小外接矩形，得到目标像素的检测数据集。

20、第二方面，本发明实施例提供了一种图像数据增广的装置，包括：

21、第一获取模块，用于获取目标图像的信息，所述目标图像为二维图像，所述目标图像的信息包括所述目标图像中各个分割区域对应的语义标签；

22、第一处理模块，用于将所述目标图像的信息输入目标神经辐射场，输出所述目标图像对应的三维图像的信息，其中，所述三维图像的信息包括所述目标图像各个分割区域的不同视角；

23、第二处理模块，用于根据所述三维图像的信息得到所述目标图像中不同视角对应的多个二维图像的信息，所述二维图像的信息包括所述分割后的二维图像中各个区域对应的语义标签。

24、可选的，所述目标图像的信息还包括以下至少一项：所述目标图像的rgb彩图和带有所述目标图像中各个区域对应的语义标签的蒙版图像。

25、可选的，所述二维图像的信息还包括：所述分割后的二维图像的rgb彩图和带有所述分割后的二维图像中各个区域对应的语义标签蒙版图像。

26、可选的，还包括：

27、第三处理模块，用于根据所述目标图像中各个区域的不同视角对应的多个二维图像的信息构建第一损失函数；

28、第四处理模块，用于根据所述分割后的二维图像中各个区域对应的语义标签对所述第一损失函数设置权重，得到设置权重后的第一损失函数，其中，所述分割后的二维图像中像素占比大的区域对应的语义标签的权重大于所述分割后的二维图像中像素占比小的区域对应的语义标签的权重；

29、第一优化模块，用于根据所述设置权重后的第一损失函数调整所述目标神经辐射场的参数，对所述目标神经辐射场进行优化。

30、可选的，还包括：

31、第五处理模块，用于将所述分割后的二维图像的rgb彩图和所述分割后的二维图像中各个区域对应的语义标签输入文本-图像预训练模型，得到所述rgb彩图的第一特征向量和所述语义标签的第二特征向量；

32、第六处理模块，用于根据所述第一特征向量和所述第二特征向量，得到所述第一特征向量和所述第二特征向量的余弦距离的第二损失函数；

33、第二优化模块，用于根据所述第二损失函数调整所述目标神经辐射场的参数，对所述目标神经辐射场进行优化。

34、可选的，还包括：

35、第二获取模块，用于获取所述分割后的二维图像中各个区域对应的语义标签中同一个语义标签的所有目标像素；

36、第七处理模块，用于获取所述目标像素的最小外接矩形，得到目标像素的检测数据集。

37、第三方面，本发明实施例提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面中任一项所述的图像数据增广的方法中的步骤。

38、第四方面，本发明实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面中任一项所述的图像数据增广的方法中的步骤。

39、在本发明中，通过获取目标图像的信息，并将所述目标图像的信息输入改进后的加入语义信息的目标神经辐射场，实现采集和标注少量数据，再通过图像生成的手段合成大量标注数据，解决了现有的无法准确有效的进行图像数据增广的问题，并且形成多模态的图像生成架构，利用多模态的信息，实现了视频图像数据的增广。

技术特征：

1.一种图像数据增广的方法，其特征在于，包括：

2.根据权利要求1所述的图像数据增广的方法，其特征在于，

3.根据权利要求1所述的图像数据增广的方法，其特征在于，

4.根据权利要求3所述的图像数据增广的方法，其特征在于，所述根据所述三维图像的信息得到所述目标图像中不同视角对应的多个二维图像的信息之后，还包括：

5.根据权利要求3所述的图像数据增广的方法，其特征在于，所述根据所述三维图像的信息得到所述目标图像中不同视角对应的多个二维图像的信息之后，还包括：

6.根据权利要求1所述的图像数据增广的方法，其特征在于，还包括：

7.一种图像数据增广的装置，其特征在于，包括：

8.根据权利要求7所述的图像数据增广的装置，其特征在于，

9.一种电子设备，其特征在于：包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的图像数据增广的方法中的步骤。

10.一种可读存储介质，其特征在于：所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的图像数据增广的方法中的步骤。

技术总结
本发明提供一种图像增广的方法、装置、电子设备和可读存储介质，该方法包括：获取目标图像的信息，所述目标图像为二维图像，所述目标图像的信息包括所述目标图像中各个分割区域对应的语义标签；将所述目标图像的信息输入目标神经辐射场，输出所述目标图像对应的三维图像的信息，其中，所述三维图像的信息包括所述目标图像各个分割区域的不同视角；根据所述三维图像的信息得到所述目标图像中不同视角对应的多个二维图像的信息，所述二维图像的信息包括所述分割后的二维图像中各个区域对应的语义标签。本发明中，采集和标注少量数据，再通过图像生成的手段合成大量标注数据，实现了数据的增广。

技术研发人员：王嘉璐
受保护的技术使用者：中国移动通信有限公司研究院
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-36276.html

专利

最新回复(0)