三维游览场景的展示方法和展示系统、显示终端与流程

专利查询2022-08-22 115

1.本发明属于显示技术领域，具体涉及一种三维游览场景的展示方法和展示系统、显示终端。

背景技术：

2.目前，在博物馆等的游览场地，通常会配置大尺寸一体机，如终端显示屏，其主要播放一些提前录制好的二维视频讲解内容，形式单一；基于此，在博物馆等游览场地，游客想要更加深入地了解博物馆内文物的详细信息，还是主要依靠场馆讲解人员的详细讲解。
3.但在博物馆等游览场地中，由于讲解人员较少，当游客数量较大时，仅依靠馆内的终端显示屏，往往无法满足游客较高的游览和观展需求，致使游客在博物馆等游览场地的游览和观展体验较差。

技术实现要素：

4.本发明针对上述的问题，提供一种三维游览场景的展示方法和展示系统、显示终端。该三维游览场景的展示方法使游客在游览场地有更好的身临其境的游览体验，同时解决了游览场地没有讲解员时如何使游客更好地游览和观展，提升游客游览和观展体验的技术问题。
5.本发明提供一种三维游览场景的展示方法，所述三维游览场景为基于游览场地创建的三维游览场景，包括：
6.提前在展示终端上制作三维游览场景视频；所述三维游览场景视频包括所述三维游览场景和讲解员对所述游览场地的讲解；所述游览场地配置有所述展示终端和感测器件；
7.所述感测器件感测所述游览场地是否有游客且没有所述讲解员，并判断所述游客是否需要所述游览场地的讲解；
8.如果是，则控制展示终端播放所述三维游览场景视频。
9.可选地，所述展示终端配置有录制模式；
10.所述提前在展示终端上制作三维游览场景视频，包括：
11.开启所述展示终端的所述录制模式；
12.所述展示终端录制所述讲解员对所述游览场地的讲解视频；
13.所述展示终端将所述游览场地的讲解视频转换为所述三维游览场景视频。
14.可选地，所述展示终端配置有录制模式；
15.所述提前在展示终端上制作三维游览场景视频，包括：
16.所述展示终端实时录制所述游览场地视频；
17.所述感测器件感测所述游览场地是否有所述讲解员；
18.如果是，则判断所述讲解员是否在讲解状态；
19.如果是，则所述展示终端从所述游览场地视频中截取所述讲解员讲解的视频，并
将所述讲解员讲解的视频转换为所述三维游览场景视频。
20.可选地，所述提前在展示终端上制作三维游览场景视频，包括：
21.提前对所述游览场地建立三维模型，并将所述三维模型存储在所述展示终端；
22.提前采集所述讲解员的头像，合成所述讲解员的三维人脸，并将所述三维人脸存储在所述展示终端；
23.所述展示终端实时采集所述讲解员的讲解语音、讲解动作和讲解时的表情信息；
24.所述展示终端将所述游览场地三维模型、所述讲解员的三维人脸以及所述讲解员的讲解语音、讲解动作和讲解时的表情信息合成所述三维游览场景视频。
25.可选地，所述提前在展示终端上制作三维游览场景视频，包括：
26.提前对所述游览场地建立三维模型，并将所述三维模型存储在所述展示终端；
27.提前采集所述讲解员的头像，合成所述讲解员的三维人脸，并将所述三维人脸存储在所述展示终端；
28.根据所述讲解员的语音片段和所述讲解员针对所述游览场地需要讲解的文本信息合成讲解语音信息；
29.所述展示终端将所述游览场地三维模型、所述讲解员的三维人脸、所述讲解语音信息合成所述三维游览场景视频。
30.可选地，所述感测器件感测所述游览场地是否有所述讲解员，包括：
31.所述感测器件拍摄所述游览场地内的人的头像；
32.将拍摄到的头像与存储在所述展示终端内的所述讲解员的头像进行比对；
33.如果拍摄到的头像中有与所述讲解员的头像一致的头像，则确定所述游览场地有所述讲解员。
34.可选地，所述判断所述讲解员是否在讲解状态，包括：
35.判断所述游览场地除所述讲解员以外的人数是否大于或等于1，且判断所述游览场地的声音中是否有和所述游览场地相关的讲解声音；
36.如果是，则确定所述讲解员在讲解状态；
37.或者，判断在所述游览场地的人的滞留时间是否大于或等于第一设定时间；
38.如果是，则确定所述讲解员在讲解状态。
39.可选地，所述展示终端从所述游览场地视频中截取所述讲解员讲解的视频时，截取视频的开始时间定制为所述游览场地除所述讲解员以外的人数大于或等于1，且所述游览场地视频中开始出现所述讲解员的讲解声音；
40.截取视频的终止时间定制为所述游览场地人消失且无声音。
41.可选地，所述提前对所述游览场地建立三维模型，包括：
42.采用深度相机对所述游览场地进行拍摄，获取所述游览场地的深度图像；
43.对所述游览场地的深度图像进行去噪处理；
44.估计所述深度相机位姿，将所述深度相机在不同位姿下拍摄的深度图像进行统一；
45.将统一的所述深度图像融合进重建的三维模型中。
46.可选地，所述提前对所述游览场地建立三维模型，在所述将统一的所述深度图像融合进重建的三维模型中之后还包括：
47.为所述重建的三维模型增加颜色纹理信息。
48.可选地，所述提前采集所述讲解员的头像，合成所述讲解员的三维人脸，包括：
49.采用摄像设备获取不同视点的人脸图像，并建立一般三维人脸网格模型；
50.从所述不同视点的人脸图像提取人脸特征点；
51.计算所述人脸特征点在三维空间的点位置，并基于所述点位置使所述一般三维人脸网格模型变形，以建立人脸的几何模型；
52.基于所述不同视点的人脸图像合成人脸的纹理图像并进行纹理映射，以建立具有真实感的三维人脸。
53.可选地，所述根据所述讲解员的语音片段和所述讲解员针对所述游览场地需要讲解的文本信息合成讲解语音信息，包括：
54.提前采集所述讲解员的语音片段；
55.从所述语音片段中提取所述讲解员的声音特征信息；
56.从所述讲解员针对所述游览场地需要讲解的文本信息中提取文本向量；
57.将所述声音特征信息和所述文本向量合成语音频谱；
58.将所述语音频谱转换为所述讲解语音信息。
59.可选地，所述感测器件感测所述游览场地是否有游客且没有所述讲解员，包括：
60.所述感测器件采集所述游览场地的人脸信息；
61.将所述人脸信息与存储在所述展示终端内的所述讲解员的人脸信息进行比对；
62.如果比对结果都不一致，则确定所述游览场地有游客且没有所述讲解员。
63.可选地，所述判断所述游客是否需要所述游览场地的讲解，包括：
64.所述感测器件识别所述游客是否在观看所述游览场地内的目标物；
65.和/或，所述感测器件识别所述游客是否在所述目标物前驻留第二设定时间以上；
66.如果至少一个识别结果为是，则确定所述游客需要所述游览场地的讲解。
67.本发明还提供一种三维游览场景展示系统，所述三维游览场景为基于游览场地创建的三维游览场景，包括：
68.展示终端，安置于所述游览场地中；
69.感测器件，配置于所述游览场地；所述感测器件与所述展示终端耦接；
70.所述感测器件用于感测所述游览场地是否有游客且没有讲解员，并判断所述游客是否需要所述游览场地的讲解；
71.所述展示终端用于提前制作三维游览场景视频；还用于在所述感测器件的感测判断结果为是时，播放所述三维游览场景视频；
72.所述三维游览场景视频包括所述三维游览场景和所述讲解员对所述游览场地的讲解。
73.可选地，所述三维游览场景展示系统运行上述三维游览场景的展示方法；
74.所述展示终端包括：语音采集器、声音特征编码器、文本向量生成器、语音合成器和声码器；
75.所述语音采集器、所述声音特征编码器、所述语音合成器和所述声码器依次连接；所述文本向量生成器连接所述语音合成器；
76.所述语音采集器，用于采集所述讲解员的语音片段；
77.所述声音特征编码器，用于接收所述讲解员的语音片段，并从所述语音片段中提取所述讲解员的声音特征信息；
78.所述文本向量生成器，用于接收输入的所述讲解员针对所述游览场地需要讲解的文本信息，并从所述文本信息中提取文本向量；
79.所述语音合成器，用于接收所述声音特征信息和所述文本向量，并将所述声音特征信息和所述文本向量合成语音频谱；
80.所述声码器，用于接收所述语音频谱，并将所述语音频谱转换为所述讲解语音信息。
81.本发明还提供一种显示终端，包括上述三维游览场景展示系统。
82.本发明的有益效果：本发明所提供的三维游览场景的展示方法和展示系统，通过在展示终端上制作三维游览场景视频，并通过展示终端能实现的不同的三维展示模式进行展示，能使游客在游览场地有更好的身临其境的游览体验，同时，通过感测器件感测游览场地是否有讲解员和游客是否需要讲解，能够智能地控制展示终端对三维游览场景视频进行适时播放，从而解决了游览场地没有讲解员时如何使游客更好地游览和观展，提升游客游览和观展体验的技术问题。
83.本发明所提供的显示终端，通过采用上述三维游览场景展示系统，解决了游览场地没有讲解员时如何使游客更好地游览和观展，提升游客游览和观展体验的技术问题。
附图说明
84.图1为本发明实施例提供的一种三维游览场景的展示方法的流程图；
85.图2为提前在展示终端上制作三维游览场景视频的一种流程图；
86.图3为提前在展示终端上制作三维游览场景视频的另一种流程图；
87.图4为提前在展示终端上制作三维游览场景视频的又一种流程图；
88.图5为提前对游览场地建立三维模型的流程图；
89.图6为合成讲解员的三维人脸的流程图；
90.图7为根据讲解员的语音片段和讲解员针对游览场地需要讲解的文本信息合成讲解语音信息的流程图；
91.图8为本发明实施例中展示终端合成讲解语音信息的原理框图。
具体实施方式
92.为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明一种三维游览场景的展示方法和展示系统、显示终端作进一步详细描述。
93.针对上述博物馆等游览场地的终端显示屏只能播放二维视频讲解内容，二维视频只能配置为博物馆等游览场地的图片或二维视频画面，且讲解内容通常以文字形式或者简练的语音形式进行播放，这使得讲解内容都比较简单概要，这一方面无法使游客有更好的身临其境的游览体验，另一方面对游览场地的了解也仅限于简单了解。
94.本发明针对目前博物馆等游览场地所存在的上述问题，提供一种三维游览场景的展示方法，三维游览场景为基于游览场地创建的三维游览场景，如图1所示，包括：
95.步骤s01：提前在展示终端上制作三维游览场景视频。三维游览场景视频包括三维
游览场景和讲解员对游览场地的讲解；游览场地配置有展示终端和感测器件。
96.步骤s02：感测器件感测游览场地是否有游客且没有讲解员，并判断游客是否需要游览场地的讲解。
97.如果是，则执行步骤s03：控制展示终端播放三维游览场景视频。如果否，则展示终端不会播放三维游览场景视频。
98.其中，游览场地可以是博物馆、展览馆、动物园、植物园、游览场所或景区等各种游览场所。展示终端可以是能显示三维视频的终端显示屏(即3d显示屏)，游客可以戴上3d眼镜观看三维视频，从而获得三维立体的视觉体验。展示终端也可以是vr眼镜(即虚拟现实头戴式显示设备)，vr眼镜是利用头戴式显示设备将人的对外界的视觉、听觉封闭，引导用户产生一种身在虚拟环境中的感觉；其显示原理是左右眼屏幕分别显示左右眼的图像，人眼获取这种带有差异的信息后在脑海中产生立体感。展示终端也可以实现ar显示(即增强现实显示)，也被称为混合显示；它通过电脑技术，将虚拟的信息应用到真实世界，真实的环境和虚拟的物体实时地叠加到了同一个画面或空间同时存在。感测器件可以是摄像头、摄像机或相机等能够进行拍摄或音像采集的器件。
99.本实施例中，通过在展示终端上制作三维游览场景视频，并通过展示终端能实现的不同的三维展示模式进行展示，能使游客在游览场地有更好的身临其境的游览体验，同时，通过感测器件感测游览场地是否有讲解员和游客是否需要讲解，能够智能地控制展示终端对三维游览场景视频进行适时播放，从而解决了游览场地没有讲解员时如何使游客更好地游览和观展，提升游客游览和观展体验的技术问题。
100.可选地，展示终端配置有录制模式；提前在展示终端上制作三维游览场景视频，如图2所示，包括：
101.步骤s101：开启展示终端的录制模式。
102.步骤s102：展示终端录制讲解员对游览场地的讲解视频。
103.步骤s103：展示终端将游览场地的讲解视频转换为三维游览场景视频。
104.可选地，通过遥控器、手势识别或者语音控制等均可实现展示终端录制模式的开启。
105.可选地，展示终端配置有录制模式；提前在展示终端上制作三维游览场景视频，如图2所示，包括：
106.步骤s101＇：展示终端实时录制游览场地视频。
107.步骤s102＇：感测器件感测游览场地是否有讲解员。
108.如果是，则执行步骤s103＇：判断讲解员是否在讲解状态。
109.如果是，则执行步骤s104＇：展示终端从游览场地视频中截取讲解员讲解的视频，并将讲解员讲解的视频转换为三维游览场景视频。
110.其中，上述两种提前在展示终端上制作三维游览场景视频的方法为讲解员可以在展示终端上选择制作的自主讲解模式，讲解员可以选择其中任意一种自主讲解模式，每种自主讲解模式被选定后，分别按照上述各自的步骤提前制作三维游览场景视频，并将三维游览场景视频存储在展示终端，以备后续使用。
111.可选地，在讲解员选择其中任意一种自主讲解模式之前，该三维游览场景的展示方法还可以包括：如图2所示，
112.步骤s100：感测器件识别在展示终端上选择模式的人脸，判断在展示终端上选择模式的人是否为讲解员。
113.如果是，则讲解员可选择进入展示终端功能管理，继而可进入展示终端的自主讲解模式选择功能，即可执行上述步骤s101-步骤s103或者执行上述步骤s101＇-步骤s104＇，以实现展示终端上三维游览场景视频的提前制作。
114.可选地，在步骤s100中，感测器件可采集在展示终端上选择模式的人脸，并将该人脸与存储在展示终端内部的讲解员人脸进行比对，如果比对一致，则确定在展示终端上选择模式的人是讲解员。
115.可选地，步骤s102＇：感测器件感测游览场地是否有讲解员，包括：
116.感测器件拍摄游览场地内的人的头像；
117.将拍摄到的头像与存储在展示终端内的讲解员的头像进行比对；
118.如果拍摄到的头像中有与讲解员的头像一致的头像，则确定游览场地有讲解员。
119.可选地，步骤s103＇：判断讲解员是否在讲解状态，包括：
120.判断游览场地除讲解员以外的人数是否大于或等于1，且判断游览场地的声音中是否有和游览场地相关的讲解声音；
121.如果是，则确定讲解员在讲解状态；
122.或者，判断在游览场地的人的滞留时间是否大于或等于第一设定时间；
123.如果是，则确定讲解员在讲解状态。
124.可选地，判断游览场地的声音中是否有和游览场地相关的讲解声音，如在博物馆中，判断声音内容是否和博物馆中文物的名称，历史时间等关键信息有关，该判断可通过自然语言处理(natural language processing，nlp)技术实现。自然语言处理技术是计算机科学，人工智能和语言学的交叉领域，目标是让计算机处理或“理解”自然语言，以执行语言翻译和问题回答等任务。
125.可选地，第一设定时间可以为10秒或20秒等合理设定时长。
126.可选地，步骤s104＇：展示终端从游览场地视频中截取讲解员讲解的视频时，截取视频的开始时间定制为游览场地除讲解员以外的人数大于或等于1，且游览场地视频中开始出现讲解员的讲解声音；截取视频的终止时间定制为游览场地人消失且无声音。
127.可选地，提前在展示终端上制作三维游览场景视频，如图3所示，包括：
128.步骤s201：提前对游览场地建立三维模型，并将三维模型存储在展示终端；
129.步骤s202：提前采集讲解员的头像，合成讲解员的三维人脸，并将三维人脸存储在展示终端；
130.步骤s203：展示终端实时采集讲解员的讲解语音、讲解动作和讲解时的表情信息；
131.步骤s204：展示终端将游览场地三维模型、讲解员的三维人脸以及讲解员的讲解语音、讲解动作和讲解时的表情信息合成三维游览场景视频。
132.可选地，提前在展示终端上制作三维游览场景视频，如图4所示，包括：
133.步骤s301：提前对游览场地建立三维模型，并将三维模型存储在展示终端；
134.步骤s302：提前采集讲解员的头像，合成讲解员的三维人脸，并将三维人脸存储在展示终端；
135.步骤s303：根据讲解员的语音片段和讲解员针对游览场地需要讲解的文本信息合
成讲解语音信息；
136.步骤s304：展示终端将游览场地三维模型、讲解员的三维人脸、讲解语音信息合成三维游览场景视频。
137.其中，步骤s201和步骤s301中，提前对游览场地建立三维模型，如图5所示，包括：
138.步骤s2301：采用深度相机对游览场地进行拍摄，获取游览场地的深度图像。
139.该步骤中，可手持深度相机完成对游览场地的扫描，获取游览场地的深度图像。
140.步骤s2302：对游览场地的深度图像进行去噪处理。
141.该步骤中，深度图像的噪声分为三类：一是深度缺失：即图像太近或太远、表面不连续、高光或阴影等原因导致深度缺失；二是深度错误：即深度测量具有一定的准确率；三是深度不一致：即随着时间变化，对同一点测量的深度可能不一致。可使用双边滤波去除深度图的噪声。
142.在去噪之后，通过kinectfusion解析开启了用rgbd相机实时三维重建的序幕。kinectfusion解析的算法流程由四部分组成：首先，处理采集到的原始深度图像，获取点云voxel的坐标以及法向量坐标；接着，根据当前帧的点云和上一帧预测出的点云计算当前相机的位置姿态；然后，根据相机位置姿态更新tsdf值，融合点云；最后根据tsdf值估计出表面。kinectfusion解析通过降采样得到三层的深度图像金字塔，用于后续估计相机位姿。kinectfusion把固定大小的一个空间(比如3m
×
3m
×
3m)均匀分割成一个个小方块(比如512
×
512
×
512)，每个小方块就是一个voxel，存储tsdf值以及权重。最终得到的三维重建就是对这些voxel进行线性插值。
143.步骤s2303：估计深度相机位姿，将深度相机在不同位姿下拍摄的深度图像进行统一。
144.该步骤中，通常做法是找到点对应关系，然后估计变换矩阵。相机位姿通常指六自由度的变换，通过一个刚体变换矩阵t表示。icp(iterative closest point)是相机位姿估计中非常重要的算法，icp是处理点云的常规手段，通过最小化两块点云的差别，迭代求解出拍摄两块点云的相机之间的相对位置。有不同的方式来描述点云的差别，最常用的是点对点(即point-to-point)和点对面(即point-to-plane)两种。kinectfusion解析选择的是点对面的方式，要把点到点的距离向法向量投影。icp主要用于3d形状的配准。通过计算相邻帧的点云的匹配关系，然后最小化点对之间的欧氏距离，从而计算得出一个刚体变换。但这样会有一个问题，就是相邻帧的误差会在扫描过程中不断累积，也就是常说的累计误差。
145.为了消除累计误差问题，采用frame-to-model的相机跟踪方法，即每次将当前帧已经重建的整个模型进行配准，而不是和前一帧进行配准。这种方法一定程度上减少了相机跟踪时的漂移，但是没有彻底解决累计误差的问题，即相机位姿估计的误差随着时间仍然在积累，这种积累起来的漂移会导致回环最后无法闭合。因此提出全局位姿优化的方法，提出关键帧的概念，每当累计误差大于阈值时，选取当前帧为关键帧进行回环检测，使用位姿图以及稀疏ba(bundle adjustment)进行位姿联合优化，使用深度信息和颜色信息进行全局位姿估计，除了上述的配准过程，匹配点对也是相机跟踪中重要的一步，可根据使用的点的多少划分为稀疏的和稠密的方法：稀疏的方法仅使用特征点进行匹配，而稠密的方法使用所有点进行匹配。
146.稀疏点对匹配：sift、surf、orb。bundlefusion(束融合)解析使用sift进行粗配
准，然后使用稠密的方法进行精配准。稠密点对匹配：传统的点对匹配方法耗时太长，投影数据关联算法较快。
147.步骤s2303的主要过程是：将输入的三维点坐标，根据相机位姿投影至目标深度图的像素，然后取最近邻的像素对应的三维点，作为输入点的对应的目标点。衡量输入点与目标点的距离有点到点、点到面等不同计算方法，其中点到面为计算两点在法向量上的投影距离，这种方法收敛更快。除了距离误差，还有引入光度误差等其他距离衡量的做法。
148.步骤s2304：将统一的深度图像融合进重建的三维模型中。
149.该步骤中，立体表示的深度图融合：当前帧的tsdf和全局的tsdf进行加权求和即可。其中，sdf(signed distance function)，描述的是点到面的距离，在面上为0，在面的一边为正，另一边为负。tsdf(truncated sdf)是只考虑面的邻域内的sdf值，邻域的最大值是max truncation的话，则实际距离会除以max truncation这个值，达到归一化的目的，所以tsdf的值在-1到 1之间。
150.面片表示的深度图融合：当前帧的每个顶点和法向量以及半径，要融入全局的模型中，主要包含三个步骤：
151.1.将当前3d模型中的顶点投影到当前帧相机的图像平面中，寻找匹配点对关系；
152.2.如果找到了匹配点对，那么最可靠的点和新的点进行加权平均；如果没找到匹配点对，那么新的点将加入全局模型，作为一个不稳定点；
153.3.随着处理的帧数越来越多，全局模型会清理外点。
154.可选地，提前对游览场地建立三维模型，在步骤s2304：将统一的深度图像融合进重建的三维模型中之后还包括：
155.步骤s2305：为重建的三维模型增加颜色纹理信息。
156.该步骤中，离线纹理重建的目标是通过多视角的rgb图像，为3d模型重建出高质量、全局一致的纹理。即直接融合不同图像会造成鬼影以及过度平滑的问题，通常依靠优化算法来去除这类问题。常用的优化目标包括颜色一致性、图像与几何特征的对齐、投影图像间的互信息最大化等。
157.在线纹理重建的目标是在扫描重建物体时同时生成高质量纹理，优点在于用户可以实时观测到物体的纹理。
158.可选地，步骤s202和步骤s302中，提前采集讲解员的头像，合成讲解员的三维人脸，如图6所示，包括：
159.步骤s3201：采用摄像设备获取不同视点的人脸图像，并建立一般三维人脸网格模型。
160.该步骤中，摄像设备如摄像机或相机等能够拍摄人脸图像的设备。
161.步骤s3202：从不同视点的人脸图像提取人脸特征点。
162.该步骤中，人脸特征点如眼角、嘴角以及鼻子尖等人脸部位的特征。
163.步骤s3203：计算人脸特征点在三维空间的点位置，并基于点位置使一般三维人脸网格模型变形，以建立人脸的几何模型。
164.步骤s3204：基于不同视点的人脸图像合成人脸的纹理图像并进行纹理映射，以建立具有真实感的三维人脸。
165.可选地，图4中提前在展示终端上制作三维游览场景视频的方法中，讲解员可以是
游览场地的工作人员，也可以是其他非工作人员，如歌星、影星等游客比较喜欢的人，即三维人脸可以是歌星、影星等游客比较喜欢的人的人脸。
166.可选地，步骤s303：根据讲解员的语音片段和讲解员针对游览场地需要讲解的文本信息合成讲解语音信息，如图7所示，包括：
167.步骤s3031：提前采集讲解员的语音片段。
168.该步骤中，通过语音采集器如录音设备采集讲解员的语音片段。
169.步骤s3032：从语音片段中提取讲解员的声音特征信息。
170.该步骤中，通过声音特征编码器提取讲解员的声音特征信息。声音特征编码器是通过提前训练获得的声音特征提取模型。
171.步骤s3033：从讲解员针对游览场地需要讲解的文本信息中提取文本向量。
172.该步骤中，通过文本向量生成器提取文本向量。文本向量生成器是通过提前训练获得的文本向量提取模型。
173.步骤s3034：将声音特征信息和文本向量合成语音频谱。
174.该步骤中，通过语音合成器将声音特征信息和文本向量合成语音频谱。语音合成器是由声音特征提取模型和文本向量提取模型训练获得的语音合成模型。
175.步骤s3035：将语音频谱转换为讲解语音信息。
176.该步骤中，通过声码器将语音频谱转换为讲解语音信息。声码器是由语音合成模型训练获得的语音频谱转换模型。
177.可选地，图4中根据讲解员的语音片段和讲解员针对游览场地需要讲解的文本信息合成讲解语音信息的方法中，讲解员可以是游览场地的工作人员，也可以是其他非工作人员，如歌星、影星等游客比较喜欢的人，即讲解语音信息可以是歌星、影星等游客比较喜欢的人的讲解语音信息。
178.可选地，步骤s02中，感测器件感测游览场地是否有游客且没有讲解员，包括：感测器件采集游览场地的人脸信息；
179.将人脸信息与存储在展示终端内的讲解员的人脸信息进行比对；
180.如果比对结果都不一致，则确定游览场地有游客且没有讲解员。
181.可选地，步骤s02中，判断游客是否需要游览场地的讲解，包括：
182.感测器件识别游客是否在观看游览场地内的目标物；
183.和/或，感测器件识别游客是否在目标物前驻留第二设定时间以上；
184.如果至少一个识别结果为是，则确定游客需要游览场地的讲解。
185.其中，第二设定时间可以为30秒或40秒等合理设定时长。
186.本实施例所提供的三维游览场景的展示方法，通过在展示终端上制作三维游览场景视频，并通过展示终端能实现的不同的三维展示模式进行展示，能使游客在游览场地有更好的身临其境的游览体验，同时，通过感测器件感测游览场地是否有讲解员和游客是否需要讲解，能够智能地控制展示终端对三维游览场景视频进行适时播放，从而解决了游览场地没有讲解员时如何使游客更好地游览和观展，提升游客游览和观展体验的技术问题。
187.本发明实施例还提供一种三维游览场景展示系统，三维游览场景为基于游览场地创建的三维游览场景，包括：展示终端，安置于游览场地中；感测器件，配置于游览场地；感测器件与展示终端耦接；感测器件用于感测游览场地是否有游客且没有讲解员，并判断游
客是否需要游览场地的讲解；展示终端用于提前制作三维游览场景视频；还用于在感测器件的感测判断结果为是时，播放三维游览场景视频；三维游览场景视频包括三维游览场景和讲解员对游览场地的讲解。
188.其中，“耦接”可以表示两个或两个以上部件有直接物理接触或电接触；也可以表示两个或两个以上部件彼此间并无直接接触，但仍彼此协作或相互作用。游览场地如博物馆的每一个内部子场馆内可以配置一个或多个展示终端以及一个或多个感测器件。
189.可选地，如图8所示，展示终端包括：语音采集器、声音特征编码器、文本向量生成器、语音合成器和声码器；语音采集器、声音特征编码器、语音合成器和声码器依次连接；文本向量生成器连接语音合成器；语音采集器，用于采集讲解员的语音片段；声音特征编码器，用于接收讲解员的语音片段，并从语音片段中提取讲解员的声音特征信息；文本向量生成器，用于接收输入的讲解员针对游览场地需要讲解的文本信息，并从文本信息中提取文本向量；语音合成器，用于接收声音特征信息和文本向量，并将声音特征信息和文本向量合成语音频谱；声码器，用于接收语音频谱，并将语音频谱转换为讲解语音信息。
190.该三维游览场景展示系统，通过在展示终端上制作三维游览场景视频，并通过展示终端能实现的不同的三维展示模式进行展示，能使游客在游览场地有更好的身临其境的游览体验，同时，通过感测器件感测游览场地是否有讲解员和游客是否需要讲解，能够智能地控制展示终端对三维游览场景视频进行适时播放，从而解决了游览场地没有讲解员时如何使游客更好地游览和观展，提升游客游览和观展体验的技术问题。
191.本发明实施例还提供一种显示终端，包括上述实施例中的三维游览场景展示系统。
192.其中，三维游览场景展示系统中的展示终端可以是显示终端的显示器，三维游览场景展示系统中的感测器件可以是配置于显示器上的摄像头。
193.通过采用上述实施例中的三维游览场景展示系统，该显示终端解决了游览场地没有讲解员时如何使游客更好地游览和观展，提升游客游览和观展体验的技术问题。
194.本发明所提供的显示终端可以为lcd面板、lcd电视、oled面板、oled电视、led面板、led电视、显示器、手机、导航仪等任何具有显示功能的产品或部件。
195.可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

技术特征：
1.一种三维游览场景的展示方法，所述三维游览场景为基于游览场地创建的三维游览场景，其特征在于，包括：提前在展示终端上制作三维游览场景视频；所述三维游览场景视频包括所述三维游览场景和讲解员对所述游览场地的讲解；所述游览场地配置有所述展示终端和感测器件；所述感测器件感测所述游览场地是否有游客且没有所述讲解员，并判断所述游客是否需要所述游览场地的讲解；如果是，则控制展示终端播放所述三维游览场景视频。2.根据权利要求1所述的三维游览场景的展示方法，其特征在于，所述展示终端配置有录制模式；所述提前在展示终端上制作三维游览场景视频，包括：开启所述展示终端的所述录制模式；所述展示终端录制所述讲解员对所述游览场地的讲解视频；所述展示终端将所述游览场地的讲解视频转换为所述三维游览场景视频。3.根据权利要求1所述的三维游览场景的展示方法，其特征在于，所述展示终端配置有录制模式；所述提前在展示终端上制作三维游览场景视频，包括：所述展示终端实时录制所述游览场地视频；所述感测器件感测所述游览场地是否有所述讲解员；如果是，则判断所述讲解员是否在讲解状态；如果是，则所述展示终端从所述游览场地视频中截取所述讲解员讲解的视频，并将所述讲解员讲解的视频转换为所述三维游览场景视频。4.根据权利要求1所述的三维游览场景的展示方法，其特征在于，所述提前在展示终端上制作三维游览场景视频，包括：提前对所述游览场地建立三维模型，并将所述三维模型存储在所述展示终端；提前采集所述讲解员的头像，合成所述讲解员的三维人脸，并将所述三维人脸存储在所述展示终端；所述展示终端实时采集所述讲解员的讲解语音、讲解动作和讲解时的表情信息；所述展示终端将所述游览场地三维模型、所述讲解员的三维人脸以及所述讲解员的讲解语音、讲解动作和讲解时的表情信息合成所述三维游览场景视频。5.根据权利要求1所述的三维游览场景的展示方法，其特征在于，所述提前在展示终端上制作三维游览场景视频，包括：提前对所述游览场地建立三维模型，并将所述三维模型存储在所述展示终端；提前采集所述讲解员的头像，合成所述讲解员的三维人脸，并将所述三维人脸存储在所述展示终端；根据所述讲解员的语音片段和所述讲解员针对所述游览场地需要讲解的文本信息合成讲解语音信息；所述展示终端将所述游览场地三维模型、所述讲解员的三维人脸、所述讲解语音信息合成所述三维游览场景视频。6.根据权利要求3所述的三维游览场景的展示方法，其特征在于，所述感测器件感测所
述游览场地是否有所述讲解员，包括：所述感测器件拍摄所述游览场地内的人的头像；将拍摄到的头像与存储在所述展示终端内的所述讲解员的头像进行比对；如果拍摄到的头像中有与所述讲解员的头像一致的头像，则确定所述游览场地有所述讲解员。7.根据权利要求3所述的三维游览场景的展示方法，其特征在于，所述判断所述讲解员是否在讲解状态，包括：判断所述游览场地除所述讲解员以外的人数是否大于或等于1，且判断所述游览场地的声音中是否有和所述游览场地相关的讲解声音；如果是，则确定所述讲解员在讲解状态；或者，判断在所述游览场地的人的滞留时间是否大于或等于第一设定时间；如果是，则确定所述讲解员在讲解状态。8.根据权利要求3所述的三维游览场景的展示方法，其特征在于，所述展示终端从所述游览场地视频中截取所述讲解员讲解的视频时，截取视频的开始时间定制为所述游览场地除所述讲解员以外的人数大于或等于1，且所述游览场地视频中开始出现所述讲解员的讲解声音；截取视频的终止时间定制为所述游览场地人消失且无声音。9.根据权利要求4或5所述的三维游览场景的展示方法，其特征在于，所述提前对所述游览场地建立三维模型，包括：采用深度相机对所述游览场地进行拍摄，获取所述游览场地的深度图像；对所述游览场地的深度图像进行去噪处理；估计所述深度相机位姿，将所述深度相机在不同位姿下拍摄的深度图像进行统一；将统一的所述深度图像融合进重建的三维模型中。10.根据权利要求9所述的三维游览场景的展示方法，其特征在于，所述提前对所述游览场地建立三维模型，在所述将统一的所述深度图像融合进重建的三维模型中之后还包括：为所述重建的三维模型增加颜色纹理信息。11.根据权利要求4或5所述的三维游览场景的展示方法，其特征在于，所述提前采集所述讲解员的头像，合成所述讲解员的三维人脸，包括：采用摄像设备获取不同视点的人脸图像，并建立一般三维人脸网格模型；从所述不同视点的人脸图像提取人脸特征点；计算所述人脸特征点在三维空间的点位置，并基于所述点位置使所述一般三维人脸网格模型变形，以建立人脸的几何模型；基于所述不同视点的人脸图像合成人脸的纹理图像并进行纹理映射，以建立具有真实感的三维人脸。12.根据权利要求5所述的三维游览场景的展示方法，其特征在于，所述根据所述讲解员的语音片段和所述讲解员针对所述游览场地需要讲解的文本信息合成讲解语音信息，包括：提前采集所述讲解员的语音片段；
从所述语音片段中提取所述讲解员的声音特征信息；从所述讲解员针对所述游览场地需要讲解的文本信息中提取文本向量；将所述声音特征信息和所述文本向量合成语音频谱；将所述语音频谱转换为所述讲解语音信息。13.根据权利要求1所述的三维游览场景的展示方法，其特征在于，所述感测器件感测所述游览场地是否有游客且没有所述讲解员，包括：所述感测器件采集所述游览场地的人脸信息；将所述人脸信息与存储在所述展示终端内的所述讲解员的人脸信息进行比对；如果比对结果都不一致，则确定所述游览场地有游客且没有所述讲解员。14.根据权利要求1所述的三维游览场景的展示方法，其特征在于，所述判断所述游客是否需要所述游览场地的讲解，包括：所述感测器件识别所述游客是否在观看所述游览场地内的目标物；和/或，所述感测器件识别所述游客是否在所述目标物前驻留第二设定时间以上；如果至少一个识别结果为是，则确定所述游客需要所述游览场地的讲解。15.一种三维游览场景展示系统，所述三维游览场景为基于游览场地创建的三维游览场景，其特征在于，包括：展示终端，安置于所述游览场地中；感测器件，配置于所述游览场地；所述感测器件与所述展示终端耦接；所述感测器件用于感测所述游览场地是否有游客且没有讲解员，并判断所述游客是否需要所述游览场地的讲解；所述展示终端用于提前制作三维游览场景视频；还用于在所述感测器件的感测判断结果为是时，播放所述三维游览场景视频；所述三维游览场景视频包括所述三维游览场景和所述讲解员对所述游览场地的讲解。16.根据权利要求15所述的三维游览场景展示系统，其特征在于，所述三维游览场景展示系统运行权利要求12所述的三维游览场景的展示方法；所述展示终端包括：语音采集器、声音特征编码器、文本向量生成器、语音合成器和声码器；所述语音采集器、所述声音特征编码器、所述语音合成器和所述声码器依次连接；所述文本向量生成器连接所述语音合成器；所述语音采集器，用于采集所述讲解员的语音片段；所述声音特征编码器，用于接收所述讲解员的语音片段，并从所述语音片段中提取所述讲解员的声音特征信息；所述文本向量生成器，用于接收输入的所述讲解员针对所述游览场地需要讲解的文本信息，并从所述文本信息中提取文本向量；所述语音合成器，用于接收所述声音特征信息和所述文本向量，并将所述声音特征信息和所述文本向量合成语音频谱；所述声码器，用于接收所述语音频谱，并将所述语音频谱转换为所述讲解语音信息。17.一种显示终端，其特征在于，包括权利要求15-16任意一项所述的三维游览场景展示系统。

技术总结
本发明提供一种三维游览场景的展示方法和展示系统、显示终端。该三维游览场景的展示方法，三维游览场景为基于游览场地创建的三维游览场景，包括：提前在展示终端上制作三维游览场景视频；三维游览场景视频包括三维游览场景和讲解员对游览场地的讲解；游览场地配置有展示终端和感测器件；感测器件感测游览场地是否有游客且没有讲解员，并判断游客是否需要游览场地的讲解；如果是，则控制展示终端播放三维游览场景视频。该展示方法使游客在游览场地有更好的身临其境的游览体验，同时解决了游览场地没有讲解员时如何使游客更好地游览和观展，提升游客游览和观展体验的技术问题。提升游客游览和观展体验的技术问题。提升游客游览和观展体验的技术问题。

技术研发人员：杨焱王明月谷玉
受保护的技术使用者：京东方科技集团股份有限公司
技术研发日：2022.02.17
技术公布日：2022/5/25

转载请注明原文地址:https://tc.8miu.com/read-10877.html

专利

最新回复(0)