全景视频浏览交互方法

    专利查询2024-12-22  58



    1.本公开的实施例涉及图像处理技术领域,具体涉及全景视频特征提取与导航技术。


    背景技术:

    2.现如今,在商用移动360
    °
    相机(例如,insta360 one x和ricoh theta)的帮助下,360
    °
    视频的拍摄变得十分简便和流行。用户可以通过头戴显示器设备(例如,htc vive和oculus rift)观看360
    °
    视频时,能够自由地旋转头部去探索视频中有趣的内容。然而头戴显示器并没有普及,相比之下另一个更加通用的体验360
    °
    视频的方式是通过操控二维屏幕上的nfov(normal field of view,正常视野大小)窗口进行观看。在这种方式下,用户需要通过鼠标或触摸屏手动地改变当前视角来调整观看的内容,而这种交互方式会降低观看时的愉悦度,并增加操作负担。除此以外,用户在观看视频时也很容易错过当前视野外的重要物体或事件。
    3.针对此类问题,hu等人在2017年提出一种基于深度学习的自动分析场景并追踪运动物体的方法来生成nfov视图,但是不支持用户与360
    °
    视频交互;kang等人在2019年提出一种根据视频场景显著性和虚拟相机路径平滑程度来计算最优虚拟相机路径的系统。为了将当前观看窗口外的重要内容可视化,lin等人在2017年提出了outside-in交互界面将其他的候选nfov窗口以缩略图的形式显示在主窗口上,然而这些候选窗口是手动指定并且是固定的。综上,这些方法只能生成单个虚拟相机路径使得用户错过屏幕外的重要内容,或需要手动指定固定的候选窗口而不是通过自动的方式生成虚拟相机路径。
    4.针对该领域研究中现有方法的不足,本公开的实施例提出了一种在二维屏幕上进行全景视频导航和回放的浏览交互方法,该方法通过提出多虚拟相机路径动态规划算法,用统一的优化框架完成全景视频显著分数和光流提取和多虚拟相机路径最优化。本方法在二维屏幕上的全景视频浏览领域能够显著提升用户体验。
    5.本公开的一些实施例要解决的技术问题是:给定输入的360
    °
    视频,如何从全景视频中计算多个虚拟相机运动路径,并以缩略图的形式显示在用户与全景视频的交互窗口上,使得用户在观看当前视图的同时能及时察觉该视图以外的其他重要内容,并能进行内容平滑切换。


    技术实现要素:

    6.本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
    7.本公开的一些实施例提出了全景视频浏览交互方法,来解决以上背景技术部分提到的技术问题中的一项或多项。
    8.第一方面,本公开的一些实施例提供了一种全景视频浏览交互方法,该方法包括:
    将输入的全景视频进行下采样;对下采样后的全景视频使用显著性估计方法和物体检测方法,生成视频逐像素的显著分数,其中,视频逐像素是全景视频中一帧的每个像素,显著分数是全景视频中一帧的每个像素引起用户视觉兴趣程度的分数;对下采样后的全景视频使用光流估计方法,生成视频逐像素的光流;根据主虚拟相机、预定数目个子虚拟相机、上述显著分数和上述光流,结合动态规划算法,生成虚拟相机运动路径信息以进行平滑切换;将全景视频和虚拟相机运动路径信息提供给交互界面,其中,主虚拟相机拍摄画面投射到主窗口,子虚拟相机拍摄画面投射到子窗口,主窗口中的显示内容与子窗口中的显示内容进行平滑切换。
    9.本公开的上述各个实施例具有如下有益效果:本公开的一些实施例提出的名为transitioning360的在二维屏幕上进行全景视频导航和回放的浏览交互方法,用统一的优化框架完成360
    °
    视频特征提取、多虚拟相机路径计算、缩略图展示虚拟相机所拍摄的内容以及用户在多窗口间平滑切换的功能。本方法在二维屏幕上的全景视频浏览领域能够有效增强有趣内容定位能力,并简化操作难度,极大提升用户与360
    °
    视频交互时的愉悦程度和理解程度。
    附图说明
    10.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
    11.图1是根据本公开的全景视频浏览交互方法的一些实施例的流程图;
    12.图2是根据本公开的一些实施例的全景视频浏览交互方法的一个应用场景的示意图;
    13.图3是根据本公开的一些实施例的全景视频浏览交互方法的另一个应用场景的示意图;
    14.图4是根据本公开的一些实施例的全景视频浏览交互方法的另一个应用场景的示意图;
    15.图5是根据本公开的一些实施例的全景视频浏览交互方法的另一个应用场景的示意图。
    具体实施方式
    16.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
    17.另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
    18.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
    19.下面将参考附图并结合实施例来详细说明本公开。
    20.图1是根据本公开的全景视频浏览交互方法的一些实施例的流程图。该全景视频浏览交互方法,包括以下步骤:
    21.步骤101,将输入的全景视频进行下采样。
    22.步骤102,对下采样后的全景视频使用显著性估计方法和物体检测方法,生成视频逐像素的显著分数,其中,视频逐像素是全景视频中一帧的每个像素,显著分数是全景视频中一帧的每个像素引起用户视觉兴趣程度的分数。其中,上述显著分数可以使用zhou等人的方法得到关键帧t在二维空间位置p上的显著分数s
    t
    (p)。
    23.在一些实施例的一些可选的实现方式中,上述对下采样后的全景视频使用显著性估计方法和物体检测方法,生成视频逐像素的显著分数,可以包括以下步骤:
    24.对下采样后的全景视频使用显著性估计方法和物体检测方法生成视频逐像素0到1的分数值,以及采用加权平均的方式得到视频逐像素的显著分数。
    25.步骤103,对下采样后的全景视频使用光流估计方法,生成视频逐像素的光流。
    26.在一些实施例中,上述执行主体可以使用liu等人提出的sift flow(scale invariant feature transform flow,尺度不变特征变换光流算法)方法来计算相邻视频帧的光流并累计连续关键帧间的光流作为对应关键帧的光流。除此以外,使用物体分割的方式检测视频中的语义标签。例如“人类”。因此使用he等人的对象实例分割方法(例如,mask r-cnn)来计算对象的分割图。对于全景视频中一帧的显著分数、光流和对象分割结果如图2所示。
    27.步骤104,根据主虚拟相机、预定数目个子虚拟相机、显著分数和光流,结合动态规划算法,生成虚拟相机运动路径信息以进行平滑切换。
    28.在一些实施例中,上述执行主体可以基于上述步骤104中为对于关键帧数为t的360
    °
    视频的关键帧集合f={f1,...,f
    t
    },计算对应的显著分数图s={s1,...,s
    t
    },光流o={o1,...,o
    t
    }和对象分割图m={m1,...,m
    t
    }。其中,f1表示第1个关键帧。f
    t
    表示第t个关键帧。s1表示第1个显著分数。s
    t
    表示第t个显著分数。o1表示第1个光流。o
    t
    表示第t个光流。m1表示第1个对象分割。m
    t
    表示第t个对象分割。将s,o,m的空间维度统一下采样至大小为w
    ×
    h,为了提升计算效率,其中,w=180像素,h表示像素数量。总的能量公式定义为:
    [0029][0030]
    其中,e(p)表示虚拟相机路径所花费的总能量。p={p1,...,pn}表示初始的虚拟相机路径集合。p1表示第1条初始的虚拟相机路径。p表示虚拟相机路径。pn表示第n条初始的虚拟相机路径。表示第n条虚拟相机路径。表示在关键帧1时的第n条虚拟相机路径。表示在关键帧t时的第n条虚拟相机路径。n表示序号。n表示虚拟相机路径数量。t表示关键帧的序号。t表示关键帧的数量。表示考虑交并比影响的显著分数和mask值的加权平均值。表示考虑交并比影响,在关键帧t时第n条相机路径的显著分数和mask值的加权平均值。w0表示速度项权重。表示相机路径n在关键帧t时在全景视
    频中所处的像素位置坐标。表示相机路径n在关键帧t+1时在全景视频中所处的像素位置坐标。v()表示欧几里得距离。表示到的欧几里得距离。o
    t
    ()表示在关键帧t时像素位置的光流。表示在关键帧t时虚拟相机路径n在视频中所处的像素位置的光流。e()表示总能量。
    [0031]
    由于是在关键帧t时第n条虚拟相机路径所获得的显著分数和对象分割图分数,并且考虑了其它相机路径对它的影响,因此的定义如下:
    [0032][0033]
    其中,表示不考虑交并比的影响,在关键帧t时第n条相机路径的显著分数和mask值的加权平均值。c
    t
    ()表示不考虑交并比影响显著分数和mask值的加权平均值。wd=1.5是一个控制路径多样性的常数。iou()表示交并比,即面积交除以面积并。表示相机路径k在关键帧t时在视频中所处的像素位置坐标。k表示序号。表示以为中心的nfov窗口。表示以为中心的nfov窗口。表示分别以和为中心的两个nfov窗口和的交并比。r()表示nfov窗口。
    [0034]
    综合考虑了显著分数和对象划分的结果,直观上来说,如果没有其它窗口与重叠,那么对应的与相等。否则的值会根据其它引起的交并比被抑制。
    [0035]
    为解决该问题,可以使用动态规划方法。令e
    t
    (p
    t
    )表示从第一个关键帧到关键帧t的n条分别以结尾的最优路径的总能量。e
    t
    (p
    t
    )根据以下公式递归计算:
    [0036][0037]
    其中,p
    t
    表示一个像素坐标集合,包括n个相机路径在关键帧t时的像素坐标。e
    t
    (p
    t
    )表示从关键帧1到关键帧t的n条分别以结尾的最优路径的总能量。表示关键帧t的第1条虚拟相机路径。表示关键帧t的第n条虚拟相机路径。表示关键帧t-1的最优路径。表示关键帧t-1的最优路径的能量。表示最优路径。表示相机路径n在关键帧t-1的最优路径。e
    t
    ()表示从第一个关键帧到关键帧t的最优路径的总能量。o
    t-1
    ()表示在关键帧t-1时的像素位置的光流。表示
    到的欧几里得距离。表示的光流。
    [0038]
    到关键帧t-1的最优路径通过如下方式计算:
    [0039][0040]
    其中,表示的邻近区域。表示相机路径n的最优路径。e
    t-1
    ()表示关键帧t-1的最优路径的能量。表示相机路径n在关键帧t-1的最优路径的能量。表示到的欧几里得距离。表示在关键帧t-1时相机路径n的最优路径在视频中所处的像素位置的光流。
    [0041]
    最优路径e
    t
    (p
    t
    )可以通过从1到t递增枚举t值获得,然后通过回溯的方式得到全局最优解e
    t
    (p
    t
    )的最优路径p。接着,对每个相机的路径pn进行如下平滑操作:
    [0042][0043]
    其中,表示平滑后的最优路径。表示平滑后的总能量。表示平滑后的最优路径的总能量。表示在关键帧t时平滑后的相机路径所在像素位置。p
    t
    表示动态规划步骤中算出的相机路径在关键帧t时的像素坐标。wv表示速度项。表示在关键帧t+1时平滑后的相机路径所在像素位置。wa表示加速度项。表示在关键帧t-1时平滑后的相机路径所在像素位置。
    [0044]
    在一些实施例的一些可选的实现方式中,上述虚拟相机运动路径信息可以包括但不限于以下几项:主虚拟相机拍摄画面,子虚拟相机拍摄画面,虚拟相机运动路径,虚拟相机运动速度和虚拟相机间的视野重叠率。
    [0045]
    在一些实施例的一些可选的实现方式中,上述根据主虚拟相机、预定数目个子虚拟相机、上述显著分数和上述光流,结合动态规划算法,生成虚拟相机运动路径信息以进行平滑切换,可以包括以下步骤:
    [0046]
    第一步,将下采样后的全景视频压缩成大小为9
    ×
    5的小比例全景视频,得到小比例显著分数和小比例光流。
    [0047]
    第二步,对上述小比例显著分数、上述小比例光流、虚拟相机运动速度以及多个虚拟相机间的视野重叠程度进行能量函数优化,得到粗糙虚拟相机运动路径。
    [0048]
    第三步,在下采样后的全景视频上对每条粗糙虚拟相机运动路径进行优化操作,生成虚拟相机运动路径信息以进行平滑切换。
    [0049]
    在一些实施例中,由于动态规划算法的复杂度随相机数n的增加是指数级增长的,因此采用一种由粗到细的策略,先在粗的范围上进行联合动态规划,然后对每条相机路径进行最优化。
    [0050]
    作为示例,先将显著分数s,光流o和对象分割m下采样至上的
    其中表示下采样显著分数,表示下采样光流,表示下采样对象分割。sw和sy是缩放因子。令是缩放因子。令令q=(q
    x
    ,qy)表示粗范围上的二维坐标,q
    x
    表示横坐标取值,qy表示纵坐标取值,空间映射函数为:
    [0051]
    f(q)={(x,y)|sw·qx
    ≤x<sw·
    (q
    x
    +1),sy·
    qy≤y<sy·
    (qy+1)}。
    [0052]
    其中,sw表示缩放因子。sy表示缩放因子。q
    x
    表示横坐标取值。qy表示纵坐标取值。(x,y)表示粗范围上的二维坐标。f(q)表示空间映射函数。x表示横坐标。y表示纵坐标。
    [0053]
    为了计算首先对f(q)中的光流向量根据其向量长度进行排序,然后从中选出前k个最大的候选光流为{o
    t
    (g
    ′1),...,o
    t
    (g
    ′k)}。其中,k表示数量。o
    t
    ()表示光流。g
    ′1表示第1个像素。g
    ′k表示第k个像素。o
    t
    (g
    ′1)表示像素g
    ′1的光流。o
    t
    (g
    ′k)表示像素g
    ′k的光流。然后对这些光流采取投票的方式决定一个粗范围上的二维坐标位置q使得绝大多数候选光流的终点{g
    ′k+o
    t
    (g
    ′k)|1≤k≤k}落在f(q

    )中。f(q

    )表示粗范围上的二维坐标位置q

    空间映射函数。最后,粗范围关键帧t的光流通过计算。其中,表示粗范围上二维坐标的下采样光流。包含个光流的光流子集通过贡献到f(q

    )中,从细范围像素开始。其中,表示数量。表示细范围上的第1个像素。表示细范围上的第个像素。表示细范围上的第1个像素的光流。表示细范围上的第个像素的光流。粗范围上的显著分数和对象划分通过计算细范围像素g
    *
    上的平均值获得。图3展示了通过上述方法计算出来的结果。与直接平均下采样方法相比,上述方法能够更好地提取出细范围上的运动和显著分数。
    [0054]
    在最优化粗范围的初始路径时,其中,表示最优化粗范围中的第1条初始路径。表示最优化粗范围中的第n条初始路径。表示最优化粗范围中的第n条初始路径。将邻近空间设置为3
    ×
    3像素大小并且使用参数控制粗范围上的相机运动速度。之后通过枚举临近区域里可能的坐标细化粗范围上的路径。根据上述策略,上述方法在几分钟内可以有效计算出最多n=4条相机路径,而根据上述实验观察,4条路径足以捕捉到绝大多数重要的视频内容。图4展示了由粗到细的细化过程。最后针对每条相机路径进行平滑操作并最后将与其对应的nfov视频渲染出来。
    [0055]
    步骤105,将全景视频和虚拟相机运动路径信息提供给交互界面,其中,主虚拟相机拍摄画面投射到主窗口,子虚拟相机拍摄画面投射到子窗口,主窗口中的显示内容与子窗口中的显示内容进行平滑切换。
    [0056]
    在一些实施例的一些可选的实现方式中,上述将全景视频和虚拟相机运动路径信息提供给交互界面,其中,主虚拟相机拍摄画面投射到主窗口,子虚拟相机拍摄画面投射到
    子窗口,主窗口中的显示内容与子窗口中的显示内容进行平滑切换,可以包括以下步骤:
    [0057]
    第一步,控制预定数目个子虚拟相机根据虚拟相机运动路径进行运动。
    [0058]
    第二步,将预定数目个子虚拟相机所拍摄的画面投射到子窗口上。
    [0059]
    第三步,控制主虚拟相机跟随其中一个子虚拟相机运动,并将主虚拟相机所拍摄的画面投射到主窗口上。其中,控制键盘方向键切换主虚拟相机的运动为跟随该方向上距离主虚拟相机最近的子虚拟相机运动或采用点击子窗口的方式切换主虚拟相机的运动为跟随指定子虚拟相机运动,切换过程中采用平滑过渡。
    [0060]
    在一些实施例中,相机路径计算出来以后,用户可以通过transitioning360的交互模块进行全景视频体验。在该模块中,相机路径对应的nfov缩略图被渲染出来,用户可以方便快捷地平滑切换到自己感兴趣地nfov窗口上。transitioning360交互模块的两种界面如图5所示,其中(a)为将虚拟相机路径对应的视频缩略图水平放置在主窗口下方,(b)为利用outside-in方法将缩略图放置在主窗口中,其中缩略图会根据近似几何投影进行变形。
    [0061]
    附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
    [0062]
    本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
    [0063]
    以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

    技术特征:
    1.一种全景视频浏览交互方法,包括:s1:将输入的全景视频进行下采样;s2:对下采样后的全景视频使用显著性估计方法和物体检测方法,生成视频逐像素的显著分数,其中,视频逐像素是全景视频中一帧的每个像素,显著分数是全景视频中一帧的每个像素引起用户视觉兴趣程度的分数;s3:对下采样后的全景视频使用光流估计方法,生成视频逐像素的光流;s4:根据主虚拟相机、预定数目个子虚拟相机、所述显著分数和所述光流,结合动态规划算法,生成虚拟相机运动路径信息以进行平滑切换;s5:将全景视频和虚拟相机运动路径信息提供给交互界面,其中,主虚拟相机拍摄画面投射到主窗口,子虚拟相机拍摄画面投射到子窗口,主窗口中的显示内容与子窗口中的显示内容进行平滑切换。2.根据权利要求1所述的方法,其中,所述对下采样后的全景视频使用显著性估计方法和物体检测方法,生成视频逐像素的显著分数,包括:对下采样后的全景视频使用显著性估计方法和物体检测方法生成视频逐像素0到1的分数值,以及采用加权平均的方式得到视频逐像素的显著分数。3.根据权利要求2所述的方法,其中,所述虚拟相机运动路径信息包括以下至少一项:主虚拟相机拍摄画面,子虚拟相机拍摄画面,虚拟相机运动路径,虚拟相机运动速度和虚拟相机间的视野重叠率。4.根据权利要求3所述的方法,其中,所述根据主虚拟相机、预定数目个子虚拟相机、所述显著分数和所述光流,结合动态规划算法,生成虚拟相机运动路径信息以进行平滑切换,包括:将下采样后的全景视频压缩成大小为9
    ×
    5的小比例全景视频,得到小比例显著分数和小比例光流;对所述小比例显著分数、所述小比例光流、虚拟相机运动速度以及多个虚拟相机间的视野重叠程度进行能量函数优化,得到粗糙虚拟相机运动路径;在下采样后的全景视频上对每条粗糙虚拟相机运动路径进行优化操作,生成虚拟相机运动路径信息以进行平滑切换。5.根据权利要求4所述的方法,其中,所述将全景视频和虚拟相机运动路径信息提供给交互界面,其中,主虚拟相机拍摄画面投射到主窗口,子虚拟相机拍摄画面投射到子窗口,主窗口中的显示内容与子窗口中的显示内容进行平滑切换,包括:控制预定数目个子虚拟相机根据虚拟相机运动路径进行运动;将预定数目个子虚拟相机所拍摄的画面投射到子窗口上;控制主虚拟相机跟随其中一个子虚拟相机运动,并将主虚拟相机所拍摄的画面投射到主窗口上,其中,控制键盘方向键切换主虚拟相机的运动为跟随该方向上距离主虚拟相机最近的子虚拟相机运动或采用点击子窗口的方式切换主虚拟相机的运动为跟随指定子虚拟相机运动,切换过程中采用平滑过渡。

    技术总结
    本公开的实施例公开了全景视频浏览交互方法。该方法的具体实施方式包括:将输入的全景视频进行下采样;对下采样后的全景视频使用显著性估计方法和物体检测方法,生成显著分数;对下采样后的全景视频使用光流估计方法,生成光流;根据主虚拟相机、预定数目个子虚拟相机、显著分数和光流,结合动态规划算法,生成虚拟相机运动路径信息以进行平滑切换;将全景视频和虚拟相机运动路径信息提供给交互界面。该实施方式可以使用户在观看二维屏幕上主窗口显示内容的同时也能察觉到子窗口显示的重要信息,并随时平滑切换子窗口的内容到主窗口上,从而显著提升用户在二维屏幕上观看全景视频内容的感知程度,极大地减少了用户与全景视频交互的难度。频交互的难度。频交互的难度。


    技术研发人员:汪淼 李奕君 张文煊
    受保护的技术使用者:北京航空航天大学
    技术研发日:2020.11.05
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-25538.html

    最新回复(0)