一种视频通话方法及装置与流程

    专利查询2022-08-23  139



    1.本公开涉及人机交互技术领域,尤其涉及一种视频通话方法及装置。


    背景技术:

    2.视频通话,又称视频电话,通常是指基于互联网端,通过手机或电脑等显示设备之间实时传送人的语音和图像的一种通信方式。在进行视频通话时,由于显示屏与相机的位置存在偏差,人看向显示屏时视线会和相机光轴呈现一定夹角,因此在呈现的视频画面中人的眼神往往不是直视前方的,难以使视频通话的双方产生对视的体验感。
    3.为了解决上述问题,可以通过存储不同角度的人物画面,并通过神经网络生成某一固定视线角度的人物画面,将该固定视线角度的人物画面与实时录制的人物画面进行合成处理,获得具有固定视线角度的人物画面,以替代视频通话时呈现的人物画面。
    4.但是,上述用于生成某一固定视线角度的人物画面是提前录制的,录制的场景和当前进行视频通话时的场景存在差异,因此得到的具有固定视线角度的人物画面与实时录制的人物画面无法完美的合成在一起,使的视频通话时呈现的人物画面中出现异常的像素帧,不利于用户体验。


    技术实现要素:

    5.为了解决上述视频通话所产生的技术问题,提出了本公开。本公开的实施例提供了一种视频通话方法及装置,用于解决视频通话的双方难以产生对视的体验感的问题。具体地,本公开实施例提供如下技术方案:
    6.根据本公开的第一方面,提供了一种视频通话方法,包括:
    7.获取由多个相机拍摄的多个画面,所述多个画面是所述多个相机同一时刻拍摄的目标区域的画面,所述多个画面至少包括第一相机拍摄的第一画面以及第二相机拍摄的第二画面;
    8.确定第一目标人物,所述第一目标人物是所述目标区域中的人物;
    9.根据所述第一画面和所述第二画面,获取第一眼部区域坐标,所述第一眼部区域坐标是所述第一目标人物的眼部区域在所述第一相机的参考坐标系中的三维坐标;
    10.确定第二目标人物图像,所述第二目标人物图像是显示屏中显示的第二目标人物的图像,所述第二目标人物是所述第一目标人物进行视频通话的对象;
    11.根据所述第二目标人物图像,获取第二眼部区域坐标,所述第二眼部区域坐标是所述第二目标人物图像中的眼部区域图像在所述第一相机的参考坐标系中的三维坐标;
    12.根据所述第一眼部区域坐标和所述第二眼部区域坐标,调整所述第二目标人物图像中的眼部区域图像的角度朝向至第一目标人物的眼部区域。
    13.根据本公开的第二方面,提供了一种视频通话装置,包括:
    14.多个相机,用于拍摄多个画面,所述多个画面是所述多个相机同一时刻拍摄的目标区域的画面,所述多个画面包括第一相机拍摄的第一画面以及第二相机拍摄的第二画
    面;
    15.显示屏,用于呈现进行视频通话双方的画面;
    16.第一人物获取模块,用于确定第一目标人物,所述第一目标人物是所述多个相机拍摄的所述目标区域中的人物;
    17.第一解析模块,用于根据所述第一相机和所述第二相机拍摄的所述第一画面和所述第二画面,获取第一眼部区域坐标,所述第一眼部区域坐标是所述第一目标人物的眼部区域在所述第一相机的参考坐标系中的三维坐标;
    18.第二人物获取模块,用于确定第二目标人物图像,所述第二目标人物图像是所述显示屏中显示的第二目标人物的图像,所述第二目标人物是所述第一目标人物进行视频通话的对象;
    19.第二解析模块,用于根据所述第二人物获取模块确定的第二目标人物图像,获取第二眼部区域坐标,所述第二眼部区域坐标是所述第二目标人物图像中的眼部区域图像在所述第一相机的参考坐标系中的三维坐标;
    20.视线重定向模块,用于根据所述第一解析模块得到的所述第一眼部区域坐标和所述第二解析模块得到的所述第二眼部区域坐标,调整所述第二目标人物图像中的眼部区域图像的角度朝向至第一目标人物的眼部区域。
    21.根据本公开的第三方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述的视频通话方法。
    22.根据本公开的第四方面,提供了一种电子设备,所述电子设备包括
    23.处理器;
    24.用于存储所述处理器可执行指令的存储器;
    25.所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的视频通话方法。
    26.本公开提供的一种视频通话方法、装置、计算机可读存储介质及电子设备,通过根据视频者的视线角度,调整与视频者进行视频通话的视频画面中人物的视线角度,使视频双方产生对视的体验感,有利于用户体验。
    附图说明
    27.通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
    28.图1是本公开实施例提供的一种场景结构示意图;
    29.图2是本公开实施例提供的一种视频通话场景的示意图;
    30.图3是本公开一示例性实施例提供的视频通话方法的流程示意图;
    31.图4是本公开一示例性实施例提供的确定第一目标人物步骤的流程示意图;
    32.图5是本公开一示例性实施例提供的获取第二嘴部区域坐标步骤的流程示意图;
    33.图6是本公开一示例性实施例提供的另一确定第一目标人物步骤的流程示意图;
    34.图7是本公开一示例性实施例提供的另一确定第一目标人物步骤的流程示意图;
    35.图8是本公开一示例性实施例提供的获取第一眼部区域坐标步骤的流程示意图;
    36.图9是本公开一示例性实施例提供的获取第二眼部区域坐标步骤的流程示意图;
    37.图10是本公开一示例性实施例提供的调整第二目标人物图像中的眼球图像角度的流程示意图;
    38.图11是本公开提供的调整第二目标人物图像视线角度前后的对比图;
    39.图12是本公开实施例提供的一种视频通话装置的结构示意图;
    40.图13是本公开一示例性实施例提供的第一人物获取模块的结构示意图;
    41.图14是本公开实施例提供的电子设备的结构图。
    具体实施方式
    42.下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
    43.申请概述
    44.在进行视频通话时,由于显示屏与相机的位置存在偏差,人看向显示屏时视线会和相机光轴呈现一定夹角,因此在呈现的视频画面中人的眼神往往不是直视前方的,难以使视频通话的双方产生对视的体验感。例如,驾驶员在车中进行驾驶时,为了驾驶的安全,通常视线是直视前方的,尽管视线偶尔会左右环顾,但是视线一般不会发生上下的偏移。而当驾驶员在通过车内的视频通话系统(视频通话系统包括用于显示人物图像的显示屏和用于采集人物图像的相机)与他人进行视频通话时,由于正在驾驶,因此视线往往不会朝向该视频通话系统的相机,一方面,相机采集到的人物图像的视线由于和相机光轴呈现一定夹角,使得与驾驶员正在进行视频通话的人收到的视频画面中人的眼神往往不是直视前方的,难以产生对视的体验感,另一方面,驾驶员看向该视频通话系统时,与该驾驶员正在进行视频通话的人若未直视用于采集与该驾驶员正在进行视频通话的人的相机,驾驶员接收到的人物图像的视线也不是直视前方的,难以使驾驶员产生对视的体验感。
    45.基于上述技术问题,本公开提供了一种视频通话系统、方法及装置,可以根据显示屏前的人物的眼球位置,调整显示屏中人物的视线角度,以使视频双方产生对视的感觉,有利于用户的体验。
    46.示例性系统
    47.参见图1,为本公开实施例提供的一种场景结构示意图。所述系统包括:显示屏100、检测器200以及服务器300。显示屏100和检测器200分别与服务器通过无线网络连接,比如通过网关设备与服务器300通信。
    48.其中,所述服务器300可以是一种网络设备。可选的,所述服务器300还可以是控制器、数据中心、云平台等。
    49.所述无线网络可以是任意无线通信系统,比如,长期演进(long term evolution,lte)系统,或第五代移动通信系统(the 5th generation,5g),此外还可以应用于以后的通信系统,比如第六代、第七代移动通信系统等。
    50.参见图2,为本公开实施例提供的一种视频通话场景的示意图。
    51.如图2所示,所述显示屏100用于在第一用户在与第二用户进行视频通话时,接收
    并显示由服务器300传来的第二用户所在环境的画面,具体的,所述显示屏100可以是如车载显示屏、电视显示屏、可穿戴设备显示屏以及手机显示屏等具有实体屏幕的显示屏100,视频画面可以直接显示在该类具有实体屏幕的显示屏100;所述显示屏100也可以是如抬头显示屏(head up display,hud)等投屏到挡风玻璃上的没有实体屏幕的虚拟显示屏。
    52.进一步如图1和2所示,所述检测器200用于采集外部环境或与外部交互的信号。例如,检测器200包括光接收器,用于采集环境光线强度的传感器;或者,检测器200包括图像采集器,如相机200a,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器200包括声音采集器,如麦克风200b,用于接收外部声音。
    53.在一种示例性实施例中,所述相机200a-1用于采集第一用户所在环境的画面,并在第一用户在与第二用户进行视频通话时,将采集到的第一用户所在环境的画面发送至服务器300中,以使得第二用户的显示屏100b接收并显示第一用户所在环境的画面,进一步地,相机200a-2用于采集第二用户所在环境的画面,并在第一用户在与第二用户进行视频通话时,将采集到的第二用户所在环境的画面发送至服务器300中,以使得第一用户的显示屏100a接收并显示第二用户所在环境的画面。
    54.所述麦克风200b-1用于采集第一用户的声音,并在第一用户与第二用户进行视频通话时,将采集到的第一用户的声音实时发送至服务器300中,以使第二用户接收第一用户的声音,进一步地,麦克风200b-2用于采集第二用户的声音,并在第二用户在与第一用户进行视频通话时,将采集到的第二用户的声音实时发送至服务器300中,以使第一用户接收第二用户的声音,实现第一用户与第二用户之间的语音对话。
    55.本实施例提供的技术方案可通过软件、硬件、软硬件结合的任意方式实现。其中,硬件可提供声音和图像的输入,软件则可通过c 程序设计语言、java等实现,视频通话功能则可通过基于python程序设计语音的进行开发、实现,或者还可以通过其他软硬件来实现,本公开对具体实现的硬件、软件结构、功能不做限制。
    56.示例性方法
    57.图3是本公开一示例性实施例提供的视频通话方法的流程示意图。
    58.本实施例可应用在电子设备上,具体可应用于各种具有视频通话功能的电子设备中。如图3所示,本公开一示例性实施例提供的视频通话方法至少包括如下步骤:
    59.步骤101:获取由多个相机拍摄的多个画面。
    60.其中,所述多个画面是所述多个相机同一时刻拍摄的目标区域的画面,所述多个画面至少包括第一相机拍摄的第一画面以及第二相机拍摄的第二画面。
    61.在一实施例中,目标区域是在显示屏前进行视频通话的若干人物所在的区域,可以将这些在显示屏前进行视频通话的人物称为说话者,显示屏可以是如车载显示屏、电视显示屏、可穿戴设备显示屏以及手机显示屏等具有实体屏幕的显示屏,显示屏也可以是如抬头显示屏(headup display,hud)等投屏到挡风玻璃上的没有实体屏幕的虚拟显示屏。显示屏用于显示与说话者进行对话的人物的图像,将显示屏中显示的与说话者进行对话的人物称为对话者,说话者可以通过任一相机拍摄得到其影视图像,并将该影视图像传输至对话者的通话设备上,以使对话者在其显示屏中可以看到说话者的影视图像,此外,说话者和对话者可以通过各自的麦克风,与对方进行语音交流。
    62.在一实施例中,通过多个相机拍摄,可以得到多个画面,从多个画面中任选两个,
    将其中一个确定为第一画面,将拍摄第一画面的相机确定为第一相机,另一个确定为第二画面,将拍摄第二画面的相机确定为第二相机,其中,第一画面和第二画面中都至少包括说话者的人物脸部图像,且由于第一相机和第二相机所处的位置不同,拍摄得到的第一画面和第二画面中同一个说话者的眼球朝向角度不同。
    63.步骤102:确定第一目标人物。
    64.其中,所述第一目标人物是所述目标区域中的人物。
    65.在一实施例中,第一目标人物是在显示屏前正在说话的某一个说话者,第一画面和第二画面中均包括第一目标人物的脸部图像,第一目标人物的脸部图像可以包括第一目标人物的眼部区域、嘴部区域、鼻部区域、耳部区域等。
    66.步骤103:根据所述第一画面和所述第二画面,获取第一眼部区域坐标。
    67.其中,所述第一眼部区域坐标是所述第一目标人物的眼部区域在所述第一相机的参考坐标系中的三维坐标。
    68.在一实施例中,第一相机的参考坐标系是以第一相机为坐标原点,建立的三维坐标系,该三维坐标系的x轴和y轴形成的平面即是水平面,z轴与水平面相垂直,第一眼部区域坐标是在以第一相机为坐标原点的坐标系中,第一目标人物的眼部区域的坐标。
    69.其中,第一目标人物的眼部区域的坐标可以是根据第一画面和第二画面得到的第一目标人物的整个眼部区域的关键点在第一相机的参考坐标系中的坐标。
    70.步骤104:确定第二目标人物图像。
    71.其中,所述第二目标人物图像是显示屏中显示的第二目标人物的图像,所述第二目标人物是所述第一目标人物进行视频通话的对象。
    72.在一些实施例中,当显示屏是没有实体屏幕的虚拟显示屏,如抬头显示屏时,可以对该虚拟显示屏显示的画面进行扫描,获取显示屏显示的画面中各像素点的位置关系以及填充的颜色信息,并基于获取到的各像素点的位置关系以及填充的颜色信息,确定第二目标人物图像。
    73.在一些实施例中,当所述显示屏是具有实体屏幕的显示屏时,第二目标人物图像可以是基于用于指示该显示屏显示画面的程序直接得到的。
    74.在一实施例中,说话者可以在显示屏中看到若干对话者的人物图像,第二目标人物图像即为说话者在显示屏中看到的某一个或某几个对话者的人物图像。
    75.步骤105:根据所述第二目标人物图像,获取第二眼部区域坐标。
    76.其中,所述第二眼部区域坐标是所述第二目标人物图像中的眼部区域图像在所述第一相机的参考坐标系中的三维坐标。
    77.具体的,第二目标人物图像至少包括第二目标人物的脸部图像,第二目标人物的脸部图像可以包括第二目标人物的眼部区域、嘴部区域、鼻部区域、耳部区域等,第二眼部区域坐标是在以第一相机为坐标原点的坐标系中,第二目标人物的眼部区域的坐标。
    78.在一些实施例中,当显示屏是具有实体屏幕的显示屏时,可以通过用于指示该显示屏显示画面的程序,直接获取该显示屏显示的画面,并控制将获取到的该显示屏显示的画面输入至用于进行人脸检测(人脸关键点检测)的深度神经网络模型中,对该显示屏显示的画面中第二目标人物图像的整个眼部区域的眼部关键点进行检测,得到第二目标人物图像的整个眼部区域的眼部关键点在所述显示屏的参考坐标系中的二维坐标,并结合显示屏
    与第一相机的位置关系,得到第二目标人物图像中的整个眼部区域的眼部关键点在第一相机的参考坐标系中的三维坐标,即第二眼部区域坐标。
    79.在一些实施例中,当显示屏是没有实体屏幕的虚拟显示屏时,可以通过扫描器对该虚拟显示屏显示的画面进行扫描,该扫描器可以包括扫描线算法应用程序,当扫描器对该虚拟显示屏显示的画面进行扫描时,触发启动扫描线算法应用程序,并通过扫描线算法解析扫描的画面,获取显示屏显示的画面中各像素点的位置关系以及填充的颜色信息,并控制将得到的各像素点的位置关系以及填充的颜色信息输入至用于进行人脸检测(人脸关键点检测)的深度神经网络模型中,该深度神经网络模型可以基于输入的各像素点的位置关系以及填充的颜色信息,还原该虚拟显示屏显示的画面,以及检测还原的画面中第二目标人物图像的整个眼部区域的眼部关键点在所述显示屏的参考坐标系中的二维坐标,并结合显示屏与第一相机的位置关系,得到第二目标人物图像中的整个眼部区域的眼部关键点在第一相机的参考坐标系中的三维坐标,即第二眼部区域坐标。
    80.步骤106:根据所述第一眼部区域坐标和所述第二眼部区域坐标,调整所述第二目标人物图像中的眼部区域图像的角度朝向至第一目标人物的眼部区域。
    81.在一实施例中,根据第一眼部区域坐标和第二眼部区域坐标对显示屏中显示的第二目标人物图像中的眼部区域图像的角度进行调整,以使说话者产生与屏幕中显示的第二目标人物图像的对视体验感。
    82.在本实施例中,根据同一时刻不同角度拍摄得到的目标区域的画面,确定第一目标人物,得到第一目标人物对应的第一眼部区域坐标;根据显示屏中显示的每一个第二目标人物图像,获取每一个第二目标人物图像对应的第二眼部区域坐标,根据第一眼部区域坐标和第二眼部区域坐标,调整每一个第二目标人物图像中的眼部区域图像的角度朝向至第一目标人物的眼部区域,以使第一目标人物在看向显示屏中显示的第二目标人物图像时,产生对视的感觉,有利于用户体验。
    83.图4示出了如图3所示的实施例中确定第一目标人物步骤的流程示意图。
    84.如图4所示,在上述图3所示实施例的基础上,本公开一个示例性实施例中,步骤102所示确定第一目标人物步骤具体可以包括如下步骤:
    85.步骤201:根据所述第一画面和所述第二画面,获取所述目标区域中每一个人物的第一嘴部区域坐标。
    86.其中,所述第一嘴部区域坐标是所述目标区域中的人物的嘴部区域在所述第一相机的参考坐标系中的三维坐标。
    87.在一些实施例中,可以根据所述目标区域中每一个人物在第一画面中的人物图像,获取目标区域中每一个人物的第三嘴部区域坐标,其中所述第三嘴部区域坐标是所述目标区域中的人物在所述第一画面中的嘴部区域图像在所述第一画面的参考坐标系中的二维坐标,并根据目标区域中每一个人物在第二画面中的人物图像,获取目标区域中每一个人物的第四嘴部区域坐标,其中所述第四嘴部区域坐标是所述目标区域中的人物在所述第二画面中的嘴部区域图像在所述第二画面的参考坐标系中的二维坐标,根据得到的第三嘴部区域坐标和第四嘴部区域坐标,基于双目定位原理,可以获取目标区域中每一个人物在第一相机的参考坐标系中的第一嘴部区域坐标。
    88.步骤202:根据麦克风阵列采集的目标区域中的人物的声音进行声源定位,获取第
    二嘴部区域坐标。
    89.其中,所述第二嘴部区域坐标是所述麦克风阵列采集的声音的声源位置处对应的人物在所述第一相机的参考坐标系中的三维坐标。
    90.在一些实施例中,可以根据各麦克风采集到的目标区域中的每一个人物发出的声音,比较采集到的各声音的强度,并将具有最大强度的声音与声源的频率进行匹配,以定位声源与各麦克风之间的距离,从而定位声源位置,得到对应的第二嘴部区域坐标。
    91.具体的,以麦克风的数量为2个为例,分别为麦克风a和麦克风b,若目标区域中有3个人物同时发出声音,麦克风a和麦克风b分别对这3个人物发出的声音进行采集,可记为(a1,b1)、(a2,b2)以及(a3,b3),若经过比较,得到(a2,b2)具有最大的声音强度,则将采集到的(a2,b2)对应的声音与声源的频率进行匹配,例如男声、女声以及童声等不同声源具有不同的频率,以定位声源与各麦克风之间的距离,从而精确定位声源的位置,并基于麦克风a和麦克风b与第一相机的位置关系,获取在以第一相机为坐标原点的参考坐标系中的第二嘴部区域坐标。
    92.步骤203:将与所述第二嘴部区域坐标直线距离最接近的一个第一嘴部区域坐标对应的人物确定为第一目标人物。
    93.具体的,由于第一嘴部区域坐标和若干第二嘴部区域坐标均处于第一相机的参考坐标系中,可以基于三维空间中两点之间的距离公式,获取第二嘴部区域坐标与每一个第一嘴部区域坐标之间的距离,并将与第二嘴部区域坐标直线距离最接近的一个第一嘴部区域坐标对应的人物确定为第一目标人物,其中,三维空间中两点之间的距离公式为:
    [0094][0095]
    图5示出了如图4所示的实施例中获取第二嘴部区域坐标步骤的流程示意图。
    [0096]
    如图5所示,在上述图4所示实施例的基础上,本公开一个示例性实施例中,步骤202所示获取第二嘴部区域坐标步骤具体可以包括如下步骤:
    [0097]
    步骤301:获取第一转换参数,所述第一转换参数用于将所述麦克风的参考坐标系中的坐标转换为所述第一相机的参考坐标系中的坐标。
    [0098]
    具体的,选取麦克风阵列中的任意一个麦克风作为主麦克风,标定主麦克风的参考坐标系与第一相机的参考坐标系之间的转换关系,以获取第一转换参数。例如,选取麦克风m作为主麦克风,可以根据转换公式pa=r
    ma
    ·
    pm,获取麦克风m的参考坐标系到第一相机的参考坐标系的第一转换参数r
    ma
    ,其中,pa和pm表示世界坐标系下的任意一个点p分别在第一相机的参考坐标系中和麦克风m的参考坐标系中的坐标,如表示点p在第一相机的参考坐标系中的坐标,表示点p在麦克风m的参考坐标系中的坐标,麦克风m的参考坐标系即为以麦克风m所在的位置为坐标原点建立的三维坐标系。
    [0099]
    步骤302:根据所述麦克风采集的声音在所述麦克风的参考坐标系中的坐标和所述第一转换参数,获取第二嘴部区域坐标。
    [0100]
    具体的,根据具有最大的声音强度的声音的声源位置处对应的人物与麦克风m之
    间的距离,获取具有最大的声音强度的声音的声源位置处对应的人物在麦克风m的参考坐标系中的坐标,并根据第一转换参数r
    ma
    ,将具有最大的声音强度的声音的声源位置处对应的人物在麦克风m的参考坐标系中的坐标转换为在第一相机的参考坐标系中的坐标,其中,具有最大的声音强度的声音的声源位置处对应的人物在第一相机的参考坐标系中的坐标即为第二嘴部区域坐标。
    [0101]
    图6示出了如图4所示的实施例中若无法实现获取第二嘴部区域坐标步骤的流程示意图。
    [0102]
    如图6所示,在上述图4所示实施例的基础上,本公开一个示例性实施例中,若无法实现步骤202所示的获取第二嘴部区域坐标步骤,则还可以包括如下步骤:
    [0103]
    步骤401:根据麦克风阵列采集的声音,若无法获取第二嘴部区域坐标,则识别所述第一画面中所有人物图像的脸部轮廓,生成与识别到的所述脸部轮廓对应数量的人脸检测框。
    [0104]
    具体的,当目标区域中的人物都没有发出声音时,或者目标区域中存在噪音使得麦克风无法清晰的采集到目标区域中的人物发出的声音时,则无法获取第二嘴部区域坐标。
    [0105]
    当无法获取第二嘴部区域坐标时,可以识别第一画面中所有人物图像的脸部轮廓,并基于每一个人物图像的脸部轮廓的最高点、最低点、最左点以及最右点,生成与识别到的脸部轮廓对应数量的人脸检测框,该人脸检测框可以为矩形,矩形的相邻的两条边的长度分别对应了该脸部轮廓的最高点到最低点之间的距离和最左点到最右点之间的距离。
    [0106]
    步骤402:将具有最大面积的所述人脸检测框对应的所述脸部轮廓确定为目标脸部轮廓;
    [0107]
    具体的,根据每一个人脸检测框相邻的两条边的长度参数,计算每一个生成的人脸检测框的面积,将具有最大面积的人脸检测框对应的脸部轮廓确定为目标脸部轮廓。例如,若目标区域中共存在3个人物,在无法获取第二嘴部区域坐标时,将生成与这3个人物一一对应的3个人脸检测框,分别为人脸检测框a、人脸检测框b以及人脸检测框c,分别获取每一个人脸检测框任意相邻的两条边的长度参数,记为(a
    11
    ,a
    12
    )、(b
    11
    ,b
    12
    )以及(c
    11
    ,c
    12
    ),分别计算a
    11
    ×a12
    、b
    11
    ×b12
    以及c
    11
    ×c12
    的值,其中,若a
    11
    ×a12
    》b
    11
    ×b12
    》c
    11
    ×c12
    ,则将人脸检测框a确定为目标脸部轮廓。
    [0108]
    步骤403:将所述目标脸部轮廓对应的人物确定为第一目标人物。
    [0109]
    具体的,获取在第一画面中目标脸部轮廓对应的人物图像,将与前述人物图像对应的人物确定为第一目标人物。
    [0110]
    可选的,图7示出了如图3所示的实施例中确定第一目标人物步骤的流程示意图。
    [0111]
    如图7所示,在上述图3所示实施例的基础上,本公开一个示例性实施例中,若存在两个或两个以上与第二嘴部区域坐标直线距离最接近的第一嘴部区域坐标,则还可以包括如下步骤:
    [0112]
    步骤501:识别所有与所述第二嘴部区域坐标直线距离最接近的第一嘴部区域坐标对应的人物在所述第一画面中的脸部轮廓,生成与识别到的所述脸部轮廓对应数量的人脸检测框。
    [0113]
    步骤502:将具有最大面积的所述人脸检测框对应的所述脸部轮廓确定为目标脸
    部轮廓。
    [0114]
    步骤503:将所述目标脸部轮廓对应的人物确定为第一目标人物。
    [0115]
    本实施例中,关于人脸检测框检测框的生成、确定目标脸部轮廓的方法以及根据目标脸部轮廓确定第一目标人物的方法可以参照上述步骤401~步骤403,在此不作赘述。
    [0116]
    图8示出了如图3所示的实施例中获取第一眼部区域坐标步骤的流程示意图。
    [0117]
    如图8所示,在上述图3所示实施例的基础上,本公开一个示例性实施例中,步骤103所示获取第一眼部区域坐标步骤具体可以包括如下步骤:
    [0118]
    步骤601:获取第二转换参数,所述第二转换参数用于将所述第一相机的参考坐标系中的坐标转换为所述第二相机的参考坐标系中的坐标。
    [0119]
    具体的,可以标定第一相机的参考坐标系和第二相机的参考坐标系之间的转换关系,以获取第二转换参数,第二转换参数包括旋转参数r
    ba
    和平移参数t
    ba
    ,例如,可以根据转换公式pa=r
    ba
    ·
    pb t
    ba
    ,获取第一相机的参考坐标系到第二相机的参考坐标系的旋转参数r
    ba
    和平移参数t
    ba
    ,其中,pa和pb表示世界坐标系下的任意一个点p分别在第一相机的参考坐标系中和第二相机的参考坐标系中的坐标值,如表示点p在第一相机的参考坐标系中的坐标,表示点p在第二相机的参考坐标系中的坐标。
    [0120]
    步骤602:获取第三眼部区域坐标,所述第三眼部区域坐标是所述第一目标人物在所述第一画面中的眼部区域图像在所述第一画面的参考坐标系中的二维坐标。
    [0121]
    具体的,以第一画面中的某一个点作为坐标原点,在第一画面中建立一个二维的参考坐标系。例如,以第一画面中的某一个端点作为坐标原点,将经过该坐标原点的相邻的两条目标画面的边界分别确定为x轴和y轴,以在第一画面中建立一个二维的参考坐标系,其中,将第一画面中的坐标原点定义为p10=[0,0,0]
    t
    ,基于第一目标人物在第一画面中的眼部区域图像与坐标原点p10=[0,0,0]
    t
    的距离,可以得到第一目标人物在第一画面中的眼部区域图像在第一画面的参考坐标系中的二维坐标,并将第一目标人物在第一画面中的眼部区域图像在第一画面的参考坐标系中的二维坐标确定为第三眼部区域坐标。
    [0122]
    步骤603:获取第四眼部区域坐标,所述第四眼部区域坐标是所述第一目标人物在所述第二画面中的眼部区域图像在所述第二画面的参考坐标系中的二维坐标。
    [0123]
    具体的,以第二画面中的某一个点作为坐标原点,在第二画面中建立一个二维的参考坐标系。例如,以第二画面中的某一个端点作为坐标原点,将经过该坐标原点的相邻的两条目标画面的边界分别确定为x轴和y轴,以在第二画面中建立一个二维的参考坐标系,其中,将第二画面中的坐标原点定义为p20=[0,0,0]
    t
    ,基于第一目标人物在第二画面中的眼部区域图像与坐标原点p20=[0,0,0]
    t
    的距离,可以得到第一目标人物在第二画面中的眼部区域图像在第二画面的参考坐标系中的二维坐标,并将第一目标人物在第二画面中的眼部区域图像在第二画面的参考坐标系中的二维坐标确定为第四眼部区域坐标。
    [0124]
    步骤604:根据所述第三眼部区域坐标、所述第四眼部区域坐标和所述第二转换参数,获取所述第一眼部区域坐标。
    [0125]
    具体的,将第三眼部区域坐标[x1,y1]转换为第一相机的参考坐标系中对应的坐标为将第四眼部区域坐标[x2,y2]转换为第二相机的参考坐标系中对应的坐标为其中,k1表示第一相机的相机内参,k2表示第二相机的相机内参,需要说明的是,相机内参是相机的本质参数,是在相机出厂后就固定的,可以直接获取。
    [0126]
    得到第三眼部区域坐标[x1,y1]转换为第一相机的参考坐标系中对应的坐标p11和第四眼部区域坐标[x2,y2]转换为第二相机的参考坐标系中对应的坐标p21后,基于旋转参数r
    ba
    和平移参数t
    ba
    ,可以将第二相机的参考坐标系中的坐标通过旋转和平移转换为第一相机的参考坐标系中的坐标,转换公式如下:
    [0127]
    p120=r
    ba
    *p20 t
    ba

    [0128]
    p121=r
    ba
    *p21 t
    ba

    [0129]
    其中,p120为第二相机的参考坐标系中的原点坐标p20通过旋转和平移转换为第一相机的参考坐标系中的坐标p120,p121为p21通过旋转和平移转换为第一相机的参考坐标系中的坐标p120。
    [0130]
    基于上述计算得到的p120和p121,可以定义在第一相机的参考坐标系中的两条直线方程,得到方程组:
    [0131][0132]
    其中,d1和d2是两个不同的一维变量,并另p1
    p
    =p2
    p
    ,求解上述方程组中的d1和d2的数值,并将求得的d1和d2的数值再代入到上述方程组中,得到p1
    p
    (或p2
    p
    )的数值是以坐标的形式表示的,p1
    p
    (或p2
    p
    )的数值即为第一眼部区域坐标。
    [0133]
    图9示出了如图3所示的实施例中获取第二眼部区域坐标步骤的流程示意图。
    [0134]
    如图9所示,在上述图3所示实施例的基础上,本公开一个示例性实施例中,步骤105所示获取第二眼部区域坐标步骤具体可以包括如下步骤:
    [0135]
    步骤701:获取第三转换参数,所述第三转换参数用于将所述显示屏的参考坐标系中的坐标转换为所述第一相机的参考坐标系中的坐标;
    [0136]
    具体的,可以标定显示屏的参考坐标系和第一相机的参考坐标系之间的转换关系,以获取第三转换参数,第三转换参数包括旋转参数r
    sa
    和平移参数t
    sa
    。例如,可以根据转换公式pa=r
    sa
    ·
    ps t
    sa
    ,获取显示屏的参考坐标系到第一相机的参考坐标系的旋转参数r
    sa
    和平移参数t
    sa
    ,其中,pa和ps表示世界坐标系下的任意一个点p分别在第一相机的参考坐标系中和显示屏的参考坐标系中的坐标值,如表示点p在第一相机的参考坐标系中的坐标,表示点p在显示屏的参考坐标系中的坐标,显示屏的参考坐标系即为以显示屏所在的位置为坐标原点建立的三维坐标系。
    [0137]
    步骤702:获取第五眼部区域坐标,所述第五眼部区域坐标是所述第二目标人物图
    像中的眼部区域图像在所述显示屏的参考坐标系中的二维坐标。
    [0138]
    在一些实施例中,当显示屏是没有实体屏幕的虚拟显示屏,如抬头显示屏,可以通过扫描器对该虚拟显示屏进行扫描,该扫描器包括扫描线算法应用程序,当扫描器对该虚拟显示屏进行扫描时,触发启动扫描线算法应用程序,并通过扫描线算法解析扫描的画面,获取扫描到的该虚拟显示屏显示的画面中各像素点的位置关系以及填充的颜色信息,并控制将得到的各像素点的位置关系以及填充的颜色信息输入至用于进行人脸检测(人脸关键点检测)的深度神经网络模型中,该深度神经网络模型可以基于输入的各像素点的位置关系以及填充的颜色信息,还原该虚拟显示屏显示的画面,并在该还原的画面中建立一个二维的参考坐标系,通过检测得到第二目标人物图像在该二维的参考坐标系中的位置,以及得到第二目标人物图像的整个眼部区域的眼部关键点在该参考坐标系中的二维坐标,其中,第二目标人物图像的整个眼部区域的眼部关键点在该参考坐标系中的二维坐标即为第五眼部区域坐标。具体的,可以将输入该深度神经网络模型中的第一个像素点信息对应的像素点作为坐标原点,将通过该坐标原点的任意两个相互垂直的方向分别确定为x轴和y轴,以在该深度神经网络模型中还原的虚拟显示屏显示的画面中建立一个二维的参考坐标系,其中,可以将还原的画面中的坐标原点定义为p30=[0,0,0]
    t
    ,基于第二目标人物在该还原的画面中的眼部区域图像与坐标原点p30=[0,0,0]
    t
    的距离,可以得到第二目标人物图像的整个眼部区域的眼部关键点在该还原的画面的参考坐标系中的二维坐标,即可以得到第二目标人物图像的整个眼部区域的眼部关键点在该虚拟显示屏的参考坐标系中的二维坐标,并将第二目标人物图像的整个眼部区域的眼部关键点在该虚拟显示屏的参考坐标系中的二维坐标确定为第五眼部区域坐标。
    [0139]
    在一些实施例中,当所述显示屏是具有实体屏幕的显示屏时,可以通过用于指示该显示屏显示画面的程序,直接获取该显示屏显示的画面,并控制将获取到的该显示屏显示的画面输入至用于进行人脸检测(人脸关键点检测)的深度神经网络模型中,对该显示屏显示的画面中第二目标人物图像的整个眼部区域的眼部关键点进行检测,得到第二目标人物图像的整个眼部区域的眼部关键点在所述显示屏的参考坐标系中的二维坐标,并将第二目标人物图像的整个眼部区域的眼部关键点在所述显示屏的参考坐标系中的二维坐标确定为第五眼部区域坐标,具体的,可以将显示屏显示的画面中的某一个点(或像素点)作为坐标原点,在显示屏中建立一个二维的参考坐标系。例如,以显示屏上的某一个点作为坐标原点,将经过该坐标原点的相邻的两条边界分别确定为x轴和y轴,以在显示屏中建立一个二维的参考坐标系,其中,将显示屏中的坐标原点定义为p30=[0,0,0]
    t
    ,基于第二目标人物在显示屏中的眼部区域图像与坐标原点p30=[0,0,0]
    t
    的距离,可以得到第二目标人物图像的整个眼部区域的眼部关键点在该实体显示屏的参考坐标系中的二维坐标,并将第二目标人物图像的整个眼部区域的眼部关键点在该实体显示屏的参考坐标系中的二维坐标确定为第五眼部区域坐标。
    [0140]
    步骤703:根据所述第五眼部区域坐标和所述第三转换参数,获取所述第二眼部区域坐标。
    [0141]
    具体的,根据第五眼部区域坐标,可以得到第五眼部区域坐标在显示屏的参考坐标系中的三维表示ps,并根据第五眼部区域坐标在显示屏的参考坐标系中的三维表示和第三转换参数,获取第二眼部区域坐标。例如,第五眼部区域坐标在显示屏的参考坐标系中的
    坐标为[x3,y3],则第五眼部区域坐标在显示屏的参考坐标系中的三维表示可以是ps=[x3,y3,z3],其中,z3=0。并根据pa=r
    sa
    ·
    ps t
    sa
    ,将在显示屏的参考坐标系中的第五眼部区域坐标转换为在第一相机的参考坐标系中的坐标,并将在显示屏的参考坐标系中的第五眼部区域坐标转换为在第一相机的参考坐标系中的坐标确定为第二眼部区域坐标。
    [0142]
    图10示出了如图3所示的实施例中调整所述第二目标人物图像中的眼部区域图像的角度朝向至第一目标人物的眼部区域步骤的流程示意图。
    [0143]
    如图10所示,在上述图3所示实施例的基础上,本公开一个示例性实施例中,所述第一眼部区域坐标包括第一左眼球区域坐标和第一右眼球区域坐标,所述第二眼部区域坐标包括第二左眼球区域坐标和第二右眼球区域坐标,根据步骤106所示的根据所述第一眼部区域坐标和所述第二眼部区域坐标,调整所述第二目标人物图像中的眼部区域图像的角度朝向至第一目标人物的眼部区域步骤具体可以包括如下步骤:
    [0144]
    步骤801:根据所述第一左眼球区域坐标和所述第二左眼球区域坐标的差,调整所述第二目标人物图像中的左眼球区域图像的角度。
    [0145]
    具体的,基于视线重定向算法,调整第二目标人物图像中的左眼球区域图像的角度,使其朝向第一目标人物的左眼球区域,以实现“对视”的效果。例如,若第一左眼球区域坐标第二左眼球区域坐标第二左眼球区域坐标则可以计算第二目标人物图像中的左眼球区域图像需要调整的欧拉角,欧拉角包括俯仰角pitch和偏航角yaw,根据求得的俯仰角pitch和偏航角yaw,对第二目标人物图像中的左眼球区域图像的角度进行调整,使得第二目标人物图像中的左眼球区域图像的角度朝向第一目标人物的左眼球区域,以实现“对视”的效果。
    [0146]
    俯仰角pitch和偏航角yaw的计算公式分别为:
    [0147]
    pitch=arcsin(y),
    [0148][0149]
    其中,
    [0150][0151]
    步骤802:根据所述第一右眼球区域坐标和所述第二右眼球区域坐标的差,调整所述第二目标人物图像中的右眼球区域图像的角度。
    [0152]
    具体的,基于视线重定向算法,调整第二目标人物图像中的右眼球区域图像的角度,使其朝向第一目标人物的右眼球区域,以实现“对视”的效果。例如,若第一右眼球区域坐标第二右眼球区域坐标第二右眼球区域坐标则可以计算第二目标人物图像中的右眼球区域图像需要调整的欧拉角,欧拉角包括俯仰角pitch和偏航角yaw,根据求得的俯仰角pitch和偏航角yaw,对第二目标人物图像中的右眼球区域图像的角度进行调整,使得第二目标人物图像中的右眼球区域图像的角度朝向第一目标人物的右眼球区域,以实现“对视”的效果。
    [0153]
    俯仰角pitch和偏航角yaw的计算公式分别为:
    [0154]
    pitch=arcsin(y),
    [0155][0156]
    其中,
    [0157][0158]
    示例性的,参见图11,为本公开提供的调整第二目标人物图像视线角度前后的对比图。如图11所示,a图为调整第二目标人物图像视线角度前的画面,a图中,每一个显示屏中显示的人物图像都可以是第二目标人物图像,通过计算每一个第二目标人物图像的第二眼部区域坐标,并根据第一目标人物的第一眼部区域坐标,计算第二目标人物图像中的左眼球区域图像和右眼球区域图像分别需要调整的俯仰角pitch和偏航角yaw,并根据计算得到的俯仰角pitch和偏航角yaw,调整第二目标人物图像中的左眼球区域图像和右眼球区域图像的眼球区域角度,调整后的第二目标人物图像的视线角度如图b所示,每一个第二目标人物图像的视线角度均朝向第一目标人物。
    [0159]
    示例性装置
    [0160]
    参见图12,为本公开实施例提供的一种视频通话装置的结构示意图,该装置用于实现前述方法实施例的全部或部分功能。具体地,所述视频通话装置包括相机111、显示屏112、第一人物获取模块113、第一解析模块114、第二人物获取模块115、第二解析模块116以及视线重定向模块117等,此外,该装置还可以包括其他更多模块,比如存储模块、发送模块等,本实施例对此不予限制。
    [0161]
    具体地,本公开实施例中的相机111的数量至少为2个,用于拍摄目标区域中的画面,所述多个画面是所述多个相机111同一时刻拍摄的目标区域的画面,所述多个画面包括第一相机拍摄的第一画面以及第二相机拍摄的第二画面。
    [0162]
    显示屏112,用于呈现进行视频通话双方的画面。
    [0163]
    第一人物获取模块113,用于确定第一目标人物。
    [0164]
    其中,所述第一目标人物是所述多个相机111拍摄的所述目标区域中的人物
    [0165]
    第一解析模块114,用于根据所述第一相机和所述第二相机拍摄的所述第一画面和所述第二画面,获取第一眼部区域坐标。
    [0166]
    其中,所述第一眼部区域坐标是所述第一目标人物的眼部区域在所述第一相机的参考坐标系中的三维坐标。
    [0167]
    第二人物获取模块115,用于确定第二目标人物图像。
    [0168]
    其中,所述第二目标人物图像是所述显示屏112中显示的第二目标人物的图像,所述第二目标人物是所述第一目标人物进行视频通话的对象。
    [0169]
    第二解析模块116,用于根据所述第二人物获取模块115确定的第二目标人物图像,获取第二眼部区域坐标。
    [0170]
    其中,所述第二眼部区域坐标是所述第二目标人物图像中的眼部区域图像在所述第一相机的参考坐标系中的三维坐标。
    [0171]
    视线重定向模块117,用于根据所述第一解析模块116得到的所述第一眼部区域坐标和所述第二解析模块得到的所述第二眼部区域坐标,调整所述显示屏112中显示的所述第二目标人物图像中的眼部区域图像的角度朝向至第一目标人物的眼部区域。
    [0172]
    其中,可选的,如图13所示,第一人物获取模块113还包括声音采集模块118。
    [0173]
    可选的,在本实施例的一种实现方式中,在第一人物获取模块113确定第一目标人物时,可通过麦克风/麦克风阵列的声音采集模块118获得。
    [0174]
    进一步地,声音采集模块118,用于采集目标区域中每一个人物发出的声音,并根据采集到的目标区域中的人物的声音进行声源定位,获取声源位置处对应的人物在第一相机的参考坐标系中的三维坐标。
    [0175]
    可选的,在本实施例的另一种实现方式中,确定第一目标人物,包括:根据所述第一画面和所述第二画面,获取所述目标区域中每一个人物的第一嘴部区域坐标,所述第一嘴部区域坐标是所述目标区域中的人物的嘴在所述第一相机的参考坐标系中的三维坐标;根据麦克风阵列采集的目标区域中的人物的声音进行声源定位,获取第二嘴部区域坐标,所述第二嘴部区域坐标是所述麦克风阵列采集的声音的声源位置处对应的人物在所述第一相机的参考坐标系中的三维坐标;
    [0176]
    将与所述第二嘴部区域坐标直线距离最接近的一个第一嘴部区域坐标对应的人物确定为第一目标人物。
    [0177]
    可选的,在本实施例的另一种实现方式中,根据麦克风阵列采集的声音,获取第二嘴部区域坐标,还包括:获取第一转换参数,所述第一转换参数用于将所述麦克风阵列的参考坐标系中的坐标转换为所述第一相机的参考坐标系中的坐标;根据所述麦克风阵列采集的声音在所述麦克风阵列的参考坐标系中的坐标和所述第一转换参数,获取第二嘴部区域坐标。
    [0178]
    或者,在本实施例的另一种实现方式中,根据麦克风阵列采集的声音,若无法获取第二嘴部区域坐标,则识别所述第一画面中所有人物图像的脸部轮廓,生成与识别到的所述脸部轮廓对应数量的人脸检测框;将具有最大面积的所述人脸检测框对应的所述脸部轮廓确定为目标脸部轮廓;将所述目标脸部轮廓对应的人物确定为第一目标人物。
    [0179]
    可选的,在本实施例的另一种实现方式中,根据所述第一画面和所述第二画面,获取第一眼部区域坐标,包括:获取第二转换参数,所述第二转换参数用于将所述第一相机的参考坐标系中的坐标转换为所述第二相机的参考坐标系中的坐标;获取第三眼部区域坐标,所述第三眼部区域坐标是所述第一目标人物在所述第一画面中的眼部区域图像在所述第一画面的参考坐标系中的二维坐标;获取第四眼部区域坐标,所述第四眼部区域坐标是所述第一目标人物在所述第二画面中的眼部区域图像在所述第二画面的参考坐标系中的二维坐标;根据所述第三眼部区域坐标、所述第四眼部区域坐标和所述第二转换参数,获取所述第一眼部区域坐标。
    [0180]
    可选的,在本实施例的另一种实现方式中,根据所述第二目标人物图像,获取第二眼部区域坐标,包括:获取第三转换参数,所述第三转换参数用于将所述显示屏的参考坐标系中的坐标转换为所述第一相机的参考坐标系中的坐标;获取第五眼部区域坐标,所述第五眼部区域坐标是所述第二目标人物图像中的眼部区域图像在所述显示屏的参考坐标系中的二维坐标;根据所述第五眼部区域坐标和所述第三转换参数,获取所述第二眼部区域
    坐标。
    [0181]
    可选的,在本实施例的另一种实现方式中,所述第一眼部区域坐标包括第一左眼球区域坐标和第一右眼球区域坐标,所述第二眼部区域坐标包括第二左眼球区域坐标和第二右眼球区域坐标,所述根据所述第一眼部区域坐标和所述第二眼部区域坐标,调整所述第二目标人物图像中的眼部区域图像的角度朝向至第一目标人物的眼部区域,包括:根据所述第一左眼球区域坐标和所述第二左眼球区域坐标的差,调整所述第二目标人物图像中的左眼球区域图像的角度;根据所述第一右眼球区域坐标和所述第二右眼球区域坐标的差,调整所述第二目标人物图像中的右眼球区域图像的角度。
    [0182]
    另外,本装置实施例中,如图12所示的各个模块的功能与前述如图3所示的方法实施例对应,比如,多个相机用于执行前述方法步骤101,或者第一人物获取模块用于执行前述方法步骤102、第一解析模块用于执行前述方法步骤103、第二人物获取模块和显示屏用于执行前述方法步骤104,第二解析模块用于执行前述方法步骤105以及视线重定向模块用于执行前述方法步骤106等。
    [0183]
    示例性电子设备
    [0184]
    下面,参考图12来描述根据本公开实施例的电子设备。该电子设备10可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
    [0185]
    图14示出了根据本公开实施例的电子设备的框图。
    [0186]
    如图14所示,电子设备10包括一个或多个处理器11和存储器12。
    [0187]
    处理器11可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
    [0188]
    存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本公开的各个实施例的视频通话方法中的步骤以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
    [0189]
    在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
    [0190]
    例如,在该电子设备是第一设备或第二设备时,该输入装置13可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置13可以是通信网络连接器,用于从第一设备和第二设备接收所采集的输入信号。
    [0191]
    此外,该输入设备13还可以包括例如键盘、鼠标等等。
    [0192]
    该输出装置14可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
    [0193]
    当然,为了简化,图13中仅示出了该电子设备10中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还
    可以包括任何其他适当的组件。
    [0194]
    示例性计算机程序产品和计算机可读存储介质
    [0195]
    除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频通话方法中的步骤。
    [0196]
    所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c 等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
    [0197]
    此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的视频通话方法中的步骤。
    [0198]
    所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
    [0199]
    以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
    [0200]
    本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
    [0201]
    还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
    [0202]
    提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
    [0203]
    为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

    技术特征:
    1.一种视频通话方法,包括:获取由多个相机拍摄的多个画面,所述多个画面是所述多个相机同一时刻拍摄的目标区域的画面,所述多个画面至少包括第一相机拍摄的第一画面以及第二相机拍摄的第二画面;确定第一目标人物,所述第一目标人物是所述目标区域中的人物;根据所述第一画面和所述第二画面,获取第一眼部区域坐标,所述第一眼部区域坐标是所述第一目标人物的眼部区域在所述第一相机的参考坐标系中的三维坐标;确定第二目标人物图像,所述第二目标人物图像是显示屏中显示的第二目标人物的图像,所述第二目标人物是所述第一目标人物进行视频通话的对象;根据所述第二目标人物图像,获取第二眼部区域坐标,所述第二眼部区域坐标是所述第二目标人物图像中的眼部区域图像在所述第一相机的参考坐标系中的三维坐标;根据所述第一眼部区域坐标和所述第二眼部区域坐标,调整所述第二目标人物图像中的眼部区域图像的角度朝向至第一目标人物的眼部区域。2.根据权利要求1所述的方法,其中,所述确定第一目标人物,包括:根据所述第一画面和所述第二画面,获取所述目标区域中每一个人物的第一嘴部区域坐标,所述第一嘴部区域坐标是所述目标区域中的人物的嘴部区域在所述第一相机的参考坐标系中的三维坐标;根据麦克风阵列采集的目标区域中的人物的声音进行声源定位,获取第二嘴部区域坐标,所述第二嘴部区域坐标是所述麦克风阵列采集的声音的声源位置处对应的人物在所述第一相机的参考坐标系中的三维坐标;将与所述第二嘴部区域坐标直线距离最接近的一个第一嘴部区域坐标对应的人物确定为第一目标人物。3.根据权利要求2所述的方法,其中,所述根据麦克风阵列采集的声音,获取第二嘴部区域坐标,还包括:获取第一转换参数,所述第一转换参数用于将所述麦克风阵列的参考坐标系中的坐标转换为所述第一相机的参考坐标系中的坐标;根据所述麦克风阵列采集的声音在所述麦克风阵列的参考坐标系中的坐标和所述第一转换参数,获取第二嘴部区域坐标。4.根据权利要求2所述的方法,其中,还包括:根据麦克风阵列采集的声音,若无法获取第二嘴部区域坐标,则识别所述第一画面中所有人物图像的脸部轮廓,生成与识别到的所述脸部轮廓对应数量的人脸检测框;将具有最大面积的所述人脸检测框对应的所述脸部轮廓确定为目标脸部轮廓;将所述目标脸部轮廓对应的人物确定为第一目标人物。5.根据权利要求1所述的方法,其中,所述根据所述第一画面和所述第二画面,获取第一眼部区域坐标,包括:获取第二转换参数,所述第二转换参数用于将所述第一相机的参考坐标系中的坐标转换为所述第二相机的参考坐标系中的坐标;获取第三眼部区域坐标,所述第三眼部区域坐标是所述第一目标人物在所述第一画面中的眼部区域图像在所述第一画面的参考坐标系中的二维坐标;
    获取第四眼部区域坐标,所述第四眼部区域坐标是所述第一目标人物在所述第二画面中的眼部区域图像在所述第二画面的参考坐标系中的二维坐标;根据所述第三眼部区域坐标、所述第四眼部区域坐标和所述第二转换参数,获取所述第一眼部区域坐标。6.根据权利要求1所述的方法,其中,所述根据所述第二目标人物图像,获取第二眼部区域坐标,包括:获取第三转换参数,所述第三转换参数用于将所述显示屏的参考坐标系中的坐标转换为所述第一相机的参考坐标系中的坐标;获取第五眼部区域坐标,所述第五眼部区域坐标是所述第二目标人物图像中的眼部区域图像在所述显示屏的参考坐标系中的二维坐标;根据所述第五眼部区域坐标和所述第三转换参数,获取所述第二眼部区域坐标。7.根据权利要求1所述的方法,其中,所述第一眼部区域坐标包括第一左眼球区域坐标和第一右眼球区域坐标,所述第二眼部区域坐标包括第二左眼球区域坐标和第二右眼球区域坐标,所述根据所述第一眼部区域坐标和所述第二眼部区域坐标,调整所述第二目标人物图像中的眼部区域图像的角度朝向至第一目标人物的眼部区域,包括:根据所述第一左眼球区域坐标和所述第二左眼球区域坐标的差,调整所述第二目标人物图像中的左眼球区域图像的角度;根据所述第一右眼球区域坐标和所述第二右眼球区域坐标的差,调整所述第二目标人物图像中的右眼球区域图像的角度。8.一种视频通话装置,包括:多个相机,用于拍摄多个画面,所述多个画面是所述多个相机同一时刻拍摄的目标区域的画面,所述多个画面包括第一相机拍摄的第一画面以及第二相机拍摄的第二画面;显示屏,用于呈现进行视频通话双方的画面;第一人物获取模块,用于确定第一目标人物,所述第一目标人物是所述多个相机拍摄的所述目标区域中的人物;第一解析模块,用于根据所述第一相机和所述第二相机拍摄的所述第一画面和所述第二画面,获取第一眼部区域坐标,所述第一眼部区域坐标是所述第一目标人物的眼部区域在所述第一相机的参考坐标系中的三维坐标;第二人物获取模块,用于确定第二目标人物图像,所述第二目标人物图像是所述显示屏中显示的第二目标人物的图像,所述第二目标人物是所述第一目标人物进行视频通话的对象;第二解析模块,用于根据所述第二人物获取模块确定的第二目标人物图像,获取第二眼部区域坐标,所述第二眼部区域坐标是所述第二目标人物图像中的眼部区域图像在所述第一相机的参考坐标系中的三维坐标;视线重定向模块,用于根据所述第一解析模块得到的所述第一眼部区域坐标和所述第二解析模块得到的所述第二眼部区域坐标,调整所述第二目标人物图像中的眼部区域图像的角度朝向至第一目标人物的眼球。9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的视频通话方法。
    10.一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7任一所述的视频通话方法。

    技术总结
    公开了一种视频通话方法及装置,可以根据同一时刻不同角度拍摄得到的目标区域的画面,确定第一目标人物,得到第一目标人物对应的第一眼部区域坐标;根据显示屏中显示的第二目标人物图像,获取第二目标人物图像对应的第二眼部区域坐标,根据第一眼部区域坐标和第二眼部区域坐标,调整第二目标人物图像中的眼部区域图像的角度朝向至第一目标人物的眼部区域,以使第一目标人物在看向显示屏中显示的第二目标人物图像时,产生对视的感觉,有利于用户体验。验。验。


    技术研发人员:黄赫 陶冶 冯玉玺 江筱 杨超
    受保护的技术使用者:深圳地平线机器人科技有限公司
    技术研发日:2022.02.18
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-11039.html

    最新回复(0)