一种用于还原亲人生前声音并智能互动的方法及系统

专利查询2022-08-19 143

1.本发明涉及人工智能技术领域，具体涉及一种用于还原亲人生前声音并智能互动的方法及系统。

背景技术：

2.面临长辈、爱人以及子女等至亲的人去世，很多家属难以接受残酷的现实，经受着巨大的心灵创伤，感受到强烈的悲伤和痛苦，且这种情绪压力往往会持续数月甚至多年。如得不到有效疏导会导致家属出现抑郁、悲伤、不能回归正常生活甚至降低其免疫力和生存意志，增加死亡率。当前，医疗机构开始逐渐重视家属的哀伤辅导，包括辅助其开展葬礼活动、电话、上门访视给予心理支持、专业心理咨询、鼓励家属加入互助小组或其他相关方法。上述方法目的都是帮家属面对和接受已经失去亲人的事实，缓解悲伤情绪。但是家属对故去亲人的思念依然会长期存在，却没有好的方法进行排解，翻看照片、遗物、文字资料以及扫墓祭祀之类传统方式不能满足需求。
3.但本技术发明人在实现本技术实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：
4.现有技术存在缅怀方式固定传统且无法满足缅怀需求的技术问题。

技术实现要素：

5.本技术实施例通过提供了一种用于还原亲人生前声音并智能互动的方法及系统，解决了缅怀方式固定传统且无法满足缅怀需求的技术问题，达到了基于用户需求，综合已逝亲人与用户之间契合度、已逝亲人的声音特征实现还原亲人生前声音并智能互动的技术效果。
6.鉴于上述问题，本技术实施例提供了一种用于还原亲人生前声音并智能互动的方法及系统。
7.第一方面，本技术实施例提供了一种用于还原亲人生前声音并智能互动的方法，其中，所述方法应用于一智能互动系统，所述系统与第一声音采集装置、第一图像采集装置通信连接，所述方法包括：获得第一用户需求信息；根据所述第一用户需求信息进行场景化参数确定，获得第一场景化参数需求集合；获得第二用户的采集许可信息，根据所述采集许可信息，基于所述第一声音采集装置和所述第一图像采集装置进行声音和图像采集，获得第一声音采集集合和第一图像采集集合，其中，所述第一声音采集集合和所述第一图像采集集合具有对应关系；根据所述第一场景化参数需求集合进行所述第一图像采集集合和所述第一声音采集集合的场景契合度识别，获得第一契合度识别结果；根据所述第一契合度识别结果进行所述第一声音采集集合进行场景标签标识；根据场景标签标识的所述第一声音采集集合进行语音特征采集参数的特征权重分布，获得第一场景化声音采集集合；根据所述第一场景化声音采集集合进行声音模拟和互动。
8.另一方面，本技术实施例提供了一种用于还原亲人生前声音并智能互动的系统，
其中，所述系统包括：第一获得单元，所述第一获得单元用于获得第一用户需求信息；第二获得单元，所述第二获得单元用于根据所述第一用户需求信息进行场景化参数确定，获得第一场景化参数需求集合；第三获得单元，所述第三获得单元用于获得第二用户的采集许可信息，根据所述采集许可信息，基于第一声音采集装置和第一图像采集装置进行声音和图像采集，获得第一声音采集集合和第一图像采集集合，其中，所述第一声音采集集合和所述第一图像采集集合具有对应关系；第四获得单元，所述第四获得单元用于根据所述第一场景化参数需求集合进行所述第一图像采集集合和所述第一声音采集集合的场景契合度识别，获得第一契合度识别结果；第一确定单元，所述第一确定单元用于根据所述第一契合度识别结果进行所述第一声音采集集合进行场景标签标识；第五获得单元，所述第五获得单元用于根据场景标签标识的所述第一声音采集集合进行语音特征采集参数的特征权重分布，获得第一场景化声音采集集合；第一执行单元，所述第一执行单元用于根据所述第一场景化声音采集集合进行声音模拟和互动。
9.第三方面，本技术实施例提供了一种用于还原亲人生前声音并智能互动的系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面任一项所述方法的步骤。
10.本技术实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：
11.由于采用了获得第一用户需求信息；根据所述第一用户需求信息进行场景化参数确定，获得第一场景化参数需求集合；获得第二用户的采集许可信息，根据所述采集许可信息，基于所述第一声音采集装置和所述第一图像采集装置进行声音和图像采集，获得第一声音采集集合和第一图像采集集合，其中，所述第一声音采集集合和所述第一图像采集集合具有对应关系；根据所述第一场景化参数需求集合进行所述第一图像采集集合和所述第一声音采集集合的场景契合度识别，获得第一契合度识别结果；根据所述第一契合度识别结果进行所述第一声音采集集合进行场景标签标识；根据场景标签标识的所述第一声音采集集合进行语音特征采集参数的特征权重分布，获得第一场景化声音采集集合；根据所述第一场景化声音采集集合进行声音模拟和互动。解决了缅怀方式固定传统且无法满足缅怀需求的技术问题，达到了基于用户需求，综合已逝亲人与用户之间契合度、已逝亲人的声音特征实现还原亲人生前声音并智能互动的技术效果。
12.上述说明仅是本技术技术方案的概述，为了能够更清楚了解本技术的技术手段，而可依照说明书的内容予以实施，并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本技术的具体实施方式。
附图说明
13.图1为本技术实施例一种用于还原亲人生前声音并智能互动的方法的流程示意图；
14.图2为本技术实施例一种用于还原亲人生前声音并智能互动的方法的互动声音控制的流程示意图；
15.图3为本技术实施例一种用于还原亲人生前声音并智能互动的方法的通过所述第一反馈声音进行应答的流程示意图；
16.图4为本技术实施例一种用于还原亲人生前声音并智能互动的方法的获取预警标
识的流程示意图；
17.图5为本技术实施例一种用于还原亲人生前声音并智能互动的系统的结构示意图；
18.图6为本技术实施例示例性电子设备的结构示意图。
19.附图标记说明：第一获得单元11，第二获得单元12，第三获得单元13，第四获得单元14，第一确定单元15，第五获得单元16，第一执行单元17，电子设备300，存储器301，处理器302，通信接口303，总线架构304。
具体实施方式
20.本技术实施例通过提供了一种用于还原亲人生前声音并智能互动的方法及系统，解决了缅怀方式固定传统且无法满足缅怀需求的技术问题，达到了基于用户需求，综合已逝亲人与用户之间契合度、已逝亲人的声音特征实现还原亲人生前声音并智能互动的技术效果。
21.申请概述
22.翻看照片、遗物、文字资料以及扫墓祭祀或其他相关传统方式不能满足缅怀需求，开展葬礼、电话、上门访视给予心理支持、专业心理咨询、鼓励家属或其他缅怀辅导的缅怀效果有限。
23.现有技术中存在缅怀方式固定传统且无法满足缅怀需求的技术问题。
24.针对上述技术问题，本技术提供的技术方案总体思路如下：
25.本技术实施例提供了一种用于还原亲人生前声音并智能互动的方法，其中，所述方法应用于一智能互动系统，所述系统与第一声音采集装置、第一图像采集装置通信连接，所述方法包括：获得第一用户需求信息；根据所述第一用户需求信息进行场景化参数确定，获得第一场景化参数需求集合；获得第二用户的采集许可信息，根据所述采集许可信息，基于所述第一声音采集装置和所述第一图像采集装置进行声音和图像采集，获得第一声音采集集合和第一图像采集集合，其中，所述第一声音采集集合和所述第一图像采集集合具有对应关系；根据所述第一场景化参数需求集合进行所述第一图像采集集合和所述第一声音采集集合的场景契合度识别，获得第一契合度识别结果；根据所述第一契合度识别结果进行所述第一声音采集集合进行场景标签标识；根据场景标签标识的所述第一声音采集集合进行语音特征采集参数的特征权重分布，获得第一场景化声音采集集合；根据所述第一场景化声音采集集合进行声音模拟和互动。
26.在介绍了本技术基本原理后，下面将结合说明书附图来具体介绍本技术的各种非限制性的实施方式。
27.实施例一
28.如图1所示，本技术实施例提供了一种用于还原亲人生前声音并智能互动的方法，其中，所述方法应用于一智能互动系统，所述系统与第一声音采集装置、第一图像采集装置通信连接，所述方法包括：
29.s100：获得第一用户需求信息；
30.具体而言，所述第一用户为有还原亲人生前声音并智能互动需求的人，简单来说就是对逝去亲人含有强烈思念的人，所述第一用户需求信息包括第一用户与已逝去亲人有
特殊纪念价值的场景信息、称呼相关信息或其他方面所述第一用户的用户需求信息，特别说明，所述已逝去亲人是为便于对方案进行解释说明，在本系统采集数据时所述第二用户健在，获取所述第一用户需求信息，为后续进行场景分析提供数据基础。
31.s200：根据所述第一用户需求信息进行场景化参数确定，获得第一场景化参数需求集合；
32.具体而言，将所述第一用户需求信息进行场景化转化，简单解释，就是将第一用户与已逝去亲人有特殊纪念价值的场景信息转化成具体的对话信息，确定对话内容的合理性，所述场景参数信息包括所述场景的声音音调、语色、对话连贯的逻辑性或其他方面的场景化参数，将场景化参数输入所述第一场景化参数需求集合，确定场景化参数并将其转化为集合，为场景进一步细化分析提供数据集，保证了场景之间的独立性。
33.s300：获得第二用户的采集许可信息，根据所述采集许可信息，基于所述第一声音采集装置和所述第一图像采集装置进行声音和图像采集，获得第一声音采集集合和第一图像采集集合，其中，所述第一声音采集集合和所述第一图像采集集合具有对应关系；
34.具体而言，所述第二用户可以是被确诊患有某疾病且现有医疗技术难以进行治疗的患者，也可以是年龄近百身体各方面机能逐渐退化的老者，第二用户的采集许可信息为获取第二用户隐私采集许可信息后，在许可范围内获取第二用户的年龄、性别、联系人包括与联系人之间的关系网络或其他相关信息，获取方式可以使用第二用户手机中的数据进行导入，包括但不限于手机通讯录、手机浏览器搜索浏览记录、手机社交平台的历史记录或其他相关数据记录，获取方式也可以是通过语音监听设备、视频监控设备或其他相关设备直接进行采集获取，本技术为便于进行解释，直接使用相关设备进行采集获取，所述第一声音采集装置为一语音监控设备，可以是监听话筒或其他声音采集设备，可以采集声音数据并进行存储，所述第一图像采集装置为一影像监控设备，可以是摄像头或其他图像采集设备，可以采集图像信息并存储，所述第一声音采集集合为语音监控设备采集的数据进行统计所获，第一图像采集集合为图像监控设备采集的数据进行统计所获，所述第一声音采集集合的数据和所述第一图像采集集合的数据一一对应，简单来说就是声音与图像进行配合，形成视频数据，即要注意所述两集合数据信息的同步，特别说明，所述采集过程为第一用户和第二用户同时进行采集，即为互动状态的数据采集分析，上述说明以第二用户角度进行说明，是为简化说明所需，实际采集过程应予以注意，获得第一声音采集集合和第一图像采集集合，为形成可靠的场景互动提供数据支持。
35.s400：根据所述第一场景化参数需求集合进行所述第一图像采集集合和所述第一声音采集集合的场景契合度识别，获得第一契合度识别结果；
36.具体而言，数据采集是为场景模拟做准备，以所述第一图像采集集合和所述第一声音采集集合与所述第一场景化参数需求集合进行场景契合度识别，简单解释就是将两场景的相似度以数据进行表达，但契合度不同于相似度在于契合更注重人与人之间状态的表达，换句话说，两人契合度高可以是两人相似也可以是两人互补，场景契合度识别的过程进行细化，即所述契合度为将两人的数据采集过程之间互动过程表现的关系状态与所述第一场景化参数需求集合两个人之间互动过程表现的关系状态进行比对，所述比对结果进行数据表达即为第一契合度识别结果，第一契合度识别结果可以体现包括但不限于所述第一用户与所述第二用户关系状态、所述第二用户对话过程中的情绪变化或其他相关信息，所述
第一契合度识别结果为场景特征提取比对提供参考数据。
37.s500：根据所述第一契合度识别结果进行所述第一声音采集集合进行场景标签标识；
38.具体而言，所述第一声音采集集合为声音采集过程所获声音数据，所述第一契合度识别结果可以对声音特征进行场景标签标识，简单解释说明，第二用户在与第一用户沟通过程中，情绪会随着对话内容进行变化，情绪变化会引起声音的语速音量或其他声音特质变化，在不断的状态变化会造成场景的变化，使用所述第一契合度识别结果对所述第一声音采集集合的场景进行标签标识为进一步细化模拟不同场景提供数据基础。
39.s600：根据场景标签标识的所述第一声音采集集合进行语音特征采集参数的特征权重分布，获得第一场景化声音采集集合；
40.具体而言，所述语音特征采集参数可以是语气、语速、对话间隔、交流频次、音色、发音或其他可以反应声音特征的参数指标，所述音特征采集参数的特征权重分布以语速进行进一步说明，某一确定场景标签标识的所述第一声音采集集合的语速进行测算，具体举例说明，场景标签标识为两人吃饭过程偶尔的对话，语速为两人习惯的常规语速，对话存在一定间隔，交流频次较低，简单来说同一场景标识的语速对应的特征权重分布存在一定的相似，获取第一场景化声音采集集合，不同场景进行划分，不同场景区分不同的模拟和互动方式，为准确进行对话做支持，进而为将场景进行匹配组合形成完整的对话做基础。
41.s700：根据所述第一场景化声音采集集合进行声音模拟和互动。
42.具体而言，所述第一场景化声音采集集合包含所述第一用户与第二用户对话的语音特征参数，根据所述第一场景化声音采集集合进行声音模拟和互动，具体可以解释为所述第一用户与所述用于还原亲人生前声音并智能互动的系统的人工智能变声设备进行对话，所述设备可以根据所述第一用户说的话以及所述第一用户与所述第二用户之间的对话习惯进行模拟互动，保证了模拟互动过程的仿真效果。
43.进一步的，如图2所示，本技术实施例还包括：
44.s710：根据所述第一声音采集集合和所述第一图像采集集合进行所述第二用户的性格特征分析，获得第一场景性格特征参数；
45.s720：根据所述第一声音采集集合进行所述第二用户的场景特征词采集，获得第一场景特征词集合；
46.s730：根据所述第一场景特征词集合和所述第一声音采集集合获得第一触发特征词集合，其中，所述第一场景特征词集合中的每一特征词至少存在一个触发特征词；
47.s740：根据所述第一场景性格特征参数、所述第一场景特征词集合和所述第一触发特征词集合进行互动声音控制。
48.具体而言，根据所述第一声音采集集合和所述第一图像采集集合进行所述第二用户的性格特征分析，获得第一场景性格特征参数，特别说明，人的性格特征比较复杂，对待不同的人，性格特征不一样，为了更加还原真实场景，与第一用户的互动更加具有代入感和准确度，需要针对特别的性格和对待方式进行展开，根据所述第一声音采集集合进行所述第二用户的场景特征词采集，获得第一场景特征词集合，场景特征词可以解释为，某一对第二用户来说具有特别意义的词汇，具体说明，假定第一用户与第二用户为夫妻关系，某些表示亲密关系的词汇会影响对话的情景与两方的性格情绪，根据所述第一场景特征词集合和
所述第一声音采集集合获得第一触发特征词集合，其中，所述第一场景特征词集合中的每一特征词至少存在一个触发特征词，简单说明，所述触发特征词可以与现有的人工智能小爱同学的特定触发称呼“小爱同学”进行类比，不同场景对应不同触发特征词，一个场景可以有至少一个触发特征词，保证所述场景可以被唤起，根据所述第一场景性格特征参数、所述第一场景特征词集合和所述第一触发特征词集合进行互动语音控制，从确定场景到确定对话时刻人物的性格再到场景的模拟和互动，最后实现场景切换的的智能调节变化，使得用户在进行对话过程更加的真实，避免了机器固定对话带来的不真实不贴切的虚假感。
49.进一步的，本技术实施例还包括：
50.s810：获得第一语速特征、第一音色特征、第一语气特征，构建语音特征采集参数集合；
51.s820：根据所述第一场景化参数需求集合进行所述语音特征采集参数集合的特征权重预分配，获得第一特征预权重分配结果；
52.s830：根据所述第一声音采集集合的场景标签标识对所述第一特征预权重分配结果进行调整，获得第一特征权重分配结果；
53.s840：根据所述第一特征权重分配结果获得所述第一场景化声音采集集合。
54.具体而言，获得第一语速特征、第一音色特征、第一语气特征，构建语音特征采集参数集合，所述语音特征采集参数集合包括但不限于语气、语速、音色特征，其他角度分析方法类似，具体分析此处不做赘述，根据所述第一场景化参数需求集合进行所述语音特征采集参数集合的特征权重预分配，获得第一特征预权重分配结果，所述第一场景化参数需求集合根据第一用户在与第二用户相处中，对第一用户具有特别纪念意义的某一场景的参数信息集合，根据所述第一声音采集集合的场景标签标识对所述第一特征预权重分配结果进行调整，获得第一特征权重分配结果，简单说明，场景为睡前沟通交流，第二用户对应的睡前状态的说话习惯为语速比第二用户习惯语速稍慢，音色稍显疲倦，语气温和的特征，对所述第一特征预权重分配结果进行调整，保证了第一特征权重分配结果的合理与可靠，根据所述第一特征权重分配结果获得所述第一场景化声音采集集合。
55.进一步的，如图3所示，本技术实施例还包括：
56.s750：通过所述第一声音采集装置获得所述第一用户的第一声音信息；
57.s760：通过所述第一声音信息获得第一安全验证指令，通过所述第一图像采集装置进行图像采集，获得第一图像信息，其中，所述第一图像信息包括位置信息；
58.s770：根据所述第一声音信息获得第一语义识别结果和第一场景匹配结果；
59.s780：根据所述第一语义识别结果、所述第一场景匹配结果和所述第一场景化声音采集集合获得第一反馈声音；
60.s790：根据所述第一图像信息和所述第一反馈声音进行安全性校验，当安全性校验通过后通过所述第一反馈声音对所述第一声音信息进行应答。
61.具体而言，通过所述第一声音采集装置获得所述第一用户的第一声音信息，所获声音信息包括但不限于所发出声音的语言类型、文字内容、语气语调，所述语言类型即中文、英文、方言或是普通话，通过所述第一声音信息获得第一安全验证指令，通过所述第一图像采集装置进行图像采集，获得第一图像信息，其中，所述第一图像信息包括位置信息，简单说明，不同位置说话内容存在较大差异，卧室环境静谧，说话音量也会进行匹配变化；
根据所述第一声音信息获得第一语义识别结果和第一场景匹配结果，根据所述第一语义识别结果、所述第一场景匹配结果和所述第一场景化声音采集集合获得第一反馈声音，所述第一反馈声音为回应所述第一用户的第一声音所述还原亲人生前声音的智能互动系统的预输出声音，根据所述第一图像信息和所述第一反馈声音进行安全性校验，当安全性校验通过后通过所述第一反馈声音对所述第一声音信息进行应答，简单说明，所述第一反馈声音内容可能为积极的正面回应信息，也可能为消极信息，对所述第一反馈声音进行安全性校验，保证了输出信息的积极性与安全性，为所述第二用户保证良好心态提供安全基础，也保证了所述第一反馈声音的安全性，避免所述系统用于动机不良的群体，导致用户的隐私安全被破坏。
62.进一步的，如图4所示，本技术实施例还包括：
63.s791：获得第一反馈声音集合，其中，所述第一反馈声音集合包括多个互动声音的集合，且所述第一反馈声音集合包括回复时间标识；
64.s792：根据所述第一反馈声音集合进行连贯语义分析，基于连贯语义分析结果获得第一危险值；
65.s793：对所述第一反馈声音集合进行单条语义分析，获得第二危险值；
66.s794：基于所述第一危险值和所述第二危险值进行智能对话的预警标识。
67.具体而言，获得第一反馈声音集合，其中，所述第一反馈声音集合包括多个互动声音的集合，且所述第一反馈声音集合包括回复时间标识，预防某些不法分子对第一用户进行录音，用录音套取第二用户的相关信息，根据所述第一反馈声音集合进行连贯语义分析，基于连贯语义分析结果获得第一危险值，录音无法保证语言的连贯性的逻辑，在逻辑矛盾混乱状态获取危险值，对所述第一反馈声音集合进行单条语义分析，获得第二危险值，具体分析每一段对话，进行语义分析，若所述第一危险值和所述第二危险值都显示对话存在异常，则基于所述第一危险值和所述第二危险值进行智能对话的预警标识，直接进行报警可能被不法分子发现异常，也可能因为第一用户饮酒状态与所述还原亲人生前声音的智能互动系统进行对话导致，逻辑混乱进而造成的误报警，应先记录预警，一旦发现不对劲，直接报警，语音作为保留证据，进一步保证了所述系统的信息安全。
68.进一步的，本技术实施例还包括：
69.s7941：获得所述第一用户的第一反馈信息，其中，所述第一反馈信息为对所述第一反馈声音的反馈信息；
70.s7942：根据所述第一反馈信息获得所述第一语义识别结果的第一语义识别失真系数；
71.s7943：根据所述第一语义识别失真系数对所述第一场景匹配结果进行调整，获得第二场景匹配结果；
72.s7944：基于所述第二场景匹配结果获得所述第一反馈声音。
73.具体而言，获得所述第一用户的第一反馈信息，其中，所述第一反馈信息为对所述第一反馈声音的反馈信息，换句话解释，第一用户的第一句包含触发特征词的呼唤语后，机器进行反馈，所述第一反馈信息为所述第一用户对机器反馈内容进行反馈，根据所述第一反馈信息获得所述第一语义识别结果的第一语义识别失真系数，所述第一用户回应内容根据所述第一用户的状态相关，对语义进行提取，可以获得第一语义识别失真系数，根据所述
第一语义识别失真系数对所述第一场景匹配结果进行调整，获得第二场景匹配结果，根据第一用户语音内容智能选配适配度更高的场景，基于所述第二场景匹配结果获得所述第一反馈声音，保证了场景与对话的适配，进而保证了对话内容的合理性与逻辑连贯性，最终保证了模拟互动的仿真效果。
74.进一步的，所述根据所述第一场景化声音采集集合进行声音模拟和互动，步骤s900还包括：
75.s910：将所述第一场景化声音采集集合作为输入数据，输入语音生成模型，获得第一语音生成集合；
76.s920：根据判别模型进行所述第一语音生成集合的生成结果进行判别反馈，获得第一判别反馈结果；
77.s930：基于所述第一判别反馈结果进行所述语音生成模型的生成参数调整，基于生成参数调整后的语音生成模型生成反馈互动语音。
78.具体而言，将所述第一场景化声音采集集合作为输入数据，输入语音生成模型，获得第一语音生成集合，每一个场景对应一个语音集合，保证了场景之间的独立性，所有场景共用和同一个语音生成模型，保证了所述语音生成模型的完整性，根据判别模型进行所述第一语音生成集合的生成结果进行判别反馈，获得第一判别反馈结果，基于所述第一判别反馈结果进行所述语音生成模型的生成参数调整，基于生成参数调整后的语音生成模型生成反馈互动语音，保证模型生成参数与生成反馈互动语音满足互动场景对话的逻辑，使用对话过程形成的数据进行反馈调节，进一步优化模型的生成参数。
79.综上所述，本技术实施例所提供的一种用于还原亲人生前声音并智能互动方法及系统具有如下技术效果：
80.1.由于采用了获得第一用户需求信息；根据所述第一用户需求信息进行场景化参数确定，获得第一场景化参数需求集合；获得第二用户的采集许可信息，根据所述采集许可信息，基于所述第一声音采集装置和所述第一图像采集装置进行声音和图像采集，获得第一声音采集集合和第一图像采集集合，其中，所述第一声音采集集合和所述第一图像采集集合具有对应关系；根据所述第一场景化参数需求集合进行所述第一图像采集集合和所述第一声音采集集合的场景契合度识别，获得第一契合度识别结果；根据所述第一契合度识别结果进行所述第一声音采集集合进行场景标签标识；根据场景标签标识的所述第一声音采集集合进行语音特征采集参数的特征权重分布，获得第一场景化声音采集集合；根据所述第一场景化声音采集集合进行声音模拟和互动。本技术实施例通过提供了一种用于还原亲人生前声音并智能互动的方法及系统，解决了缅怀方式固定传统且无法满足缅怀需求的技术问题，达到了基于用户需求，综合已逝亲人与用户之间契合度、已逝亲人的声音特征实现还原亲人生前声音并智能互动的技术效果。
81.2.由于采用了根据所述第一声音采集集合和所述第一图像采集集合进行所述第二用户的性格特征分析，获得第一场景性格特征参数；根据所述第一声音采集集合进行所述第二用户的场景特征词采集，获得第一场景特征词集合；根据所述第一场景特征词集合和所述第一声音采集集合获得第一触发特征词集合，其中，所述第一场景特征词集合中的每一特征词至少存在一个触发特征词；根据所述第一场景性格特征参数、所述第一场景特征词集合和所述第一触发特征词集合进行互动声音控制。从确定场景到确定对话时刻人物
的性格再到场景的模拟和互动，最后实现场景切换的智能调节变化，使得用户在进行对话过程更加的真实，避免了机器固定对话带来的不真实不贴切的虚假感。
82.3.由于采用了通过所述第一声音采集装置获得所述第一用户的第一声音信息；通过所述第一声音信息获得第一安全验证指令，通过所述第一图像采集装置进行图像采集，获得第一图像信息，其中，所述第一图像信息包括位置信息；根据所述第一声音信息获得第一语义识别结果和第一场景匹配结果；根据所述第一语义识别结果、所述第一场景匹配结果和所述第一场景化声音采集集合获得第一反馈声音；根据所述第一图像信息和所述第一反馈声音进行安全性校验，当安全性校验通过后通过所述第一反馈声音对所述第一声音信息进行应答。所述第一反馈声音内容可能为积极的正面回应信息，也可能为消极信息，对所述第一反馈声音进行安全性校验，保证了输出信息的积极性与安全性，为所述第二用户保证良好心态提供安全基础，也保证了所述第一反馈声音的安全性，避免所述系统用于动机不良的群体，导致用户的隐私安全被破坏。
83.4.由于采用了获得第一反馈声音集合，其中，所述第一反馈声音集合包括多个互动声音的集合，且所述第一反馈声音集合包括回复时间标识；根据所述第一反馈声音集合进行连贯语义分析，基于连贯语义分析结果获得第一危险值；对所述第一反馈声音集合进行单条语义分析，获得第二危险值；基于所述第一危险值和所述第二危险值进行智能对话的预警标识。直接进行报警可能被不法分子发现异常，也可能因为第一用户饮酒状态与所述还原亲人生前声音的智能互动系统进行对话导致，逻辑混乱进而造成的误报警，应先记录预警，一旦发现不对劲，直接报警，语音作为保留证据，进一步保证了所述系统的信息安全。
84.5.由于采用了将所述第一场景化声音采集集合作为输入数据，输入语音生成模型，获得第一语音生成集合；根据判别模型进行所述第一语音生成集合的生成结果进行判别反馈，获得第一判别反馈结果；基于所述第一判别反馈结果进行所述语音生成模型的生成参数调整，基于生成参数调整后的语音生成模型生成反馈互动语音。保证模型生成参数与生成反馈互动语音满足互动场景对话的逻辑，使用对话过程形成的数据进行反馈调节，进一步优化模型的生成参数。
85.实施例二
86.基于与前述实施例中一种用于还原亲人生前声音并智能互动的方法相同的发明构思，如图5所示，本技术实施例提供了一种用于还原亲人生前声音并智能互动的系统，其中，所述系统包括：
87.第一获得单元11，所述第一获得单元11用于获得第一用户需求信息；
88.第二获得单元12，所述第二获得单元12用于根据所述第一用户需求信息进行场景化参数确定，获得第一场景化参数需求集合；
89.第三获得单元13，所述第三获得单元13用于获得第二用户的采集许可信息，根据所述采集许可信息，基于第一声音采集装置和第一图像采集装置进行声音和图像采集，获得第一声音采集集合和第一图像采集集合，其中，所述第一声音采集集合和所述第一图像采集集合具有对应关系；
90.第四获得单元14，所述第四获得单元14用于根据所述第一场景化参数需求集合进行所述第一图像采集集合和所述第一声音采集集合的场景契合度识别，获得第一契合度识
别结果；
91.第一确定单元15，所述第一确定单元15用于根据所述第一契合度识别结果进行所述第一声音采集集合进行场景标签标识；
92.第五获得单元16，所述第五获得单元16用于根据场景标签标识的所述第一声音采集集合进行语音特征采集参数的特征权重分布，获得第一场景化声音采集集合；
93.第一执行单元17，所述第一执行单元17用于根据所述第一场景化声音采集集合进行声音模拟和互动。
94.进一步的，所述系统包括：
95.第六获得单元，所述第六获得单元用于根据所述第一声音采集集合和所述第一图像采集集合进行所述第二用户的性格特征分析，获得第一场景性格特征参数；
96.第七获得单元，所述第七获得单元用于根据所述第一声音采集集合进行所述第二用户的场景特征词采集，获得第一场景特征词集合；
97.第八获得单元，所述第八获得单元用于根据所述第一场景特征词集合和所述第一声音采集集合获得第一触发特征词集合，其中，所述第一场景特征词集合中的每一特征词至少存在一个触发特征词；
98.第二执行单元，所述第二执行单元用于根据所述第一场景性格特征参数、所述第一场景特征词集合和所述第一触发特征词集合进行互动声音控制。
99.进一步的，所述系统包括：
100.第九获得单元，所述第九获得单元用于获得第一语速特征、第一音色特征、第一语气特征，构建语音特征采集参数集合；
101.第十获得单元，所述第十获得单元用于根据所述第一场景化参数需求集合进行所述语音特征采集参数集合的特征权重预分配，获得第一特征预权重分配结果；
102.第十一获得单元，所述第十一获得单元用于根据所述第一声音采集集合的场景标签标识对所述第一特征预权重分配结果进行调整，获得第一特征权重分配结果；
103.第十二获得单元，所述第十二获得单元用于根据所述第一特征权重分配结果获得所述第一场景化声音采集集合。
104.进一步的，所述系统包括：
105.第十三获得单元，所述第十三获得单元用于通过所述第一声音采集装置获得所述第一用户的第一声音信息；
106.第十四获得单元，所述第十四获得单元用于通过所述第一声音信息获得第一安全验证指令，通过所述第一图像采集装置进行图像采集，获得第一图像信息，其中，所述第一图像信息包括位置信息；
107.第十五获得单元，所述第十五获得单元用于根据所述第一声音信息获得第一语义识别结果和第一场景匹配结果；
108.第十六获得单元，所述第十六获得单元用于根据所述第一语义识别结果、所述第一场景匹配结果和所述第一场景化声音采集集合获得第一反馈声音；
109.第三执行单元，所述第三执行单元用于根据所述第一图像信息和所述第一反馈声音进行安全性校验，当安全性校验通过后通过所述第一反馈声音对所述第一声音信息进行应答。
110.进一步的，所述系统包括：
111.第十七获得单元，所述第十七获得单元用于获得第一反馈声音集合，其中，所述第一反馈声音集合包括多个互动声音的集合，且所述第一反馈声音集合包括回复时间标识；
112.第十八获得单元，所述第十八获得单元用于根据所述第一反馈声音集合进行连贯语义分析，基于连贯语义分析结果获得第一危险值；
113.第十九获得单元，所述第十九获得单元用于对所述第一反馈声音集合进行单条语义分析，获得第二危险值；
114.第四执行单元，所述第四执行单元用于基于所述第一危险值和所述第二危险值进行智能对话的预警标识。
115.进一步的，所述系统包括：
116.第二十获得单元，所述第二十获得单元用于获得所述第一用户的第一反馈信息，其中，所述第一反馈信息为对所述第一反馈声音的反馈信息；
117.第二十一获得单元，所述第二十一获得单元用于根据所述第一反馈信息获得所述第一语义识别结果的第一语义识别失真系数；
118.第二十二获得单元，所述第二十二获得单元用于根据所述第一语义识别失真系数对所述第一场景匹配结果进行调整，获得第二场景匹配结果；
119.第二十三获得单元，所述第二十三获得单元用于基于所述第二场景匹配结果获得所述第一反馈声音。
120.进一步的，所述系统包括：
121.第二十四获得单元，所述第二十四获得单元用于将所述第一场景化声音采集集合作为输入数据，输入语音生成模型，获得第一语音生成集合；
122.第二十五获得单元，所述第二十五获得单元用于根据判别模型进行所述第一语音生成集合的生成结果进行判别反馈，获得第一判别反馈结果；
123.第一生成单元，所述第一生成单元用于基于所述第一判别反馈结果进行所述语音生成模型的生成参数调整，基于生成参数调整后的语音生成模型生成反馈互动语音。
124.示例性电子设备
125.下面参考图6来描述本技术实施例的电子设备，
126.基于与前述实施例中一种用于还原亲人生前声音并智能互动的方法相同的发明构思，本技术实施例还提供了一种用于还原亲人生前声音并智能互动的系统，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储程序，当所述程序被所述处理器执行时，使得系统以执行第一方面任一项所述的方法。
127.该电子设备300包括：处理器302、通信接口303、存储器301。可选的，电子设备300还可以包括总线架构304。其中，通信接口303、处理器302以及存储器301可以通过总线架构304相互连接；总线架构304可以是外设部件互连标(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。所述总线架构304可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
128.处理器302可以是一个cpu，微处理器，asic，或一个或多个用于控制本技术方案程序执行的集成电路。
129.通信接口303，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，ran),无线局域网(wireless local area networks，wlan)，有线接入网等。
130.存储器301可以是rom或可存储静态信息和指令的其他类型的静态存储设备，ram或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，eeprom)、只读光盘(compact discread-only memory，cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线架构304与处理器相连接。存储器也可以和处理器集成在一起。
131.其中，存储器301用于存储执行本技术方案的计算机执行指令，并由处理器302来控制执行。处理器302用于执行存储器301中存储的计算机执行指令，从而实现本技术上述实施例提供的一种用于还原亲人生前声音并智能互动方法。
132.可选的，本技术实施例中的计算机执行指令也可以称之为应用程序代码，本技术实施例对此不作具体限定。
133.本技术实施例提供了一种用于还原亲人生前声音并智能互动的方法，其中，所述方法应用于一智能互动系统，所述系统与第一声音采集装置、第一图像采集装置通信连接，所述方法包括：获得第一用户需求信息；根据所述第一用户需求信息进行场景化参数确定，获得第一场景化参数需求集合；获得第二用户的采集许可信息，根据所述采集许可信息，基于所述第一声音采集装置和所述第一图像采集装置进行声音和图像采集，获得第一声音采集集合和第一图像采集集合，其中，所述第一声音采集集合和所述第一图像采集集合具有对应关系；根据所述第一场景化参数需求集合进行所述第一图像采集集合和所述第一声音采集集合的场景契合度识别，获得第一契合度识别结果；根据所述第一契合度识别结果进行所述第一声音采集集合进行场景标签标识；根据场景标签标识的所述第一声音采集集合进行语音特征采集参数的特征权重分布，获得第一场景化声音采集集合；根据所述第一场景化声音采集集合进行声音模拟和互动。
134.本领域普通技术人员可以理解：本技术中涉及的第一、第二等各种数字编号仅为描述方便进行的区分，并不用来限制本技术实施例的范围，也不表示先后顺序。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“至少一个”是指一个或者多个。至少两个是指两个或者多个。“至少一个”、“任意一个”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个、种)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。
135.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计
算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘(solid state disk，ssd))等。
136.本技术实施例中所描述的各种说明性的逻辑单元和电路可以通过通用处理器，数字信号处理器，专用集成电路(asic)，现场可编程门阵列(fpga)或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。
137.本技术实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件单元、或者这两者的结合。软件单元可以存储于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动磁盘、cd-rom或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于asic中，asic可以设置于终端中。可选地，处理器和存储媒介也可以设置于终端中的不同的部件中。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
138.尽管结合具体特征及其实施例对本技术进行了描述，显而易见的，在不脱离本技术的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本技术的示例性说明，且视为已覆盖本技术范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术意图包括这些改动和变型在内。

技术特征：
1.一种用于还原亲人生前声音并智能互动的方法，其特征在于，所述方法应用于一智能互动系统，所述系统与第一声音采集装置、第一图像采集装置通信连接，所述方法包括：获得第一用户需求信息；根据所述第一用户需求信息进行场景化参数确定，获得第一场景化参数需求集合；获得第二用户的采集许可信息，根据所述采集许可信息，基于所述第一声音采集装置和所述第一图像采集装置进行声音和图像采集，获得第一声音采集集合和第一图像采集集合，其中，所述第一声音采集集合和所述第一图像采集集合具有对应关系；根据所述第一场景化参数需求集合进行所述第一图像采集集合和所述第一声音采集集合的场景契合度识别，获得第一契合度识别结果；根据所述第一契合度识别结果进行所述第一声音采集集合进行场景标签标识；根据场景标签标识的所述第一声音采集集合进行语音特征采集参数的特征权重分布，获得第一场景化声音采集集合；根据所述第一场景化声音采集集合进行声音模拟和互动。2.如权利要求1所述的方法，其特征在于，所述方法还包括：根据所述第一声音采集集合和所述第一图像采集集合进行所述第二用户的性格特征分析，获得第一场景性格特征参数；根据所述第一声音采集集合进行所述第二用户的场景特征词采集，获得第一场景特征词集合；根据所述第一场景特征词集合和所述第一声音采集集合获得第一触发特征词集合，其中，所述第一场景特征词集合中的每一特征词至少存在一个触发特征词；根据所述第一场景性格特征参数、所述第一场景特征词集合和所述第一触发特征词集合进行互动声音控制。3.如权利要求1所述的方法，其特征在于，所述方法还包括：获得第一语速特征、第一音色特征、第一语气特征，构建语音特征采集参数集合；根据所述第一场景化参数需求集合进行所述语音特征采集参数集合的特征权重预分配，获得第一特征预权重分配结果；根据所述第一声音采集集合的场景标签标识对所述第一特征预权重分配结果进行调整，获得第一特征权重分配结果；根据所述第一特征权重分配结果获得所述第一场景化声音采集集合。4.如权利要求1所述的方法，其特征在于，所述方法还包括：通过所述第一声音采集装置获得所述第一用户的第一声音信息；通过所述第一声音信息获得第一安全验证指令，通过所述第一图像采集装置进行图像采集，获得第一图像信息，其中，所述第一图像信息包括位置信息；根据所述第一声音信息获得第一语义识别结果和第一场景匹配结果；根据所述第一语义识别结果、所述第一场景匹配结果和所述第一场景化声音采集集合获得第一反馈声音；根据所述第一图像信息和所述第一反馈声音进行安全性校验，当安全性校验通过后通过所述第一反馈声音对所述第一声音信息进行应答。5.如权利要求4所述的方法，其特征在于，所述方法还包括：
获得第一反馈声音集合，其中，所述第一反馈声音集合包括多个互动声音的集合，且所述第一反馈声音集合包括回复时间标识；根据所述第一反馈声音集合进行连贯语义分析，基于连贯语义分析结果获得第一危险值；对所述第一反馈声音集合进行单条语义分析，获得第二危险值；基于所述第一危险值和所述第二危险值进行智能对话的预警标识。6.如权利要求5所述的方法，其特征在于，所述方法还包括：获得所述第一用户的第一反馈信息，其中，所述第一反馈信息为对所述第一反馈声音的反馈信息；根据所述第一反馈信息获得所述第一语义识别结果的第一语义识别失真系数；根据所述第一语义识别失真系数对所述第一场景匹配结果进行调整，获得第二场景匹配结果；基于所述第二场景匹配结果获得所述第一反馈声音。7.如权利要求1所述的方法，其特征在于，所述根据所述第一场景化声音采集集合进行声音模拟和互动，包括：将所述第一场景化声音采集集合作为输入数据，输入语音生成模型，获得第一语音生成集合；根据判别模型进行所述第一语音生成集合的生成结果进行判别反馈，获得第一判别反馈结果；基于所述第一判别反馈结果进行所述语音生成模型的生成参数调整，基于生成参数调整后的语音生成模型生成反馈互动语音。8.一种用于还原亲人生前声音并智能互动的系统，其特征在于，所述系统包括：第一获得单元，所述第一获得单元用于获得第一用户需求信息；第二获得单元，所述第二获得单元用于根据所述第一用户需求信息进行场景化参数确定，获得第一场景化参数需求集合；第三获得单元，所述第三获得单元用于获得第二用户的采集许可信息，根据所述采集许可信息，基于第一声音采集装置和第一图像采集装置进行声音和图像采集，获得第一声音采集集合和第一图像采集集合，其中，所述第一声音采集集合和所述第一图像采集集合具有对应关系；第四获得单元，所述第四获得单元用于根据所述第一场景化参数需求集合进行所述第一图像采集集合和所述第一声音采集集合的场景契合度识别，获得第一契合度识别结果；第一确定单元，所述第一确定单元用于根据所述第一契合度识别结果进行所述第一声音采集集合进行场景标签标识；第五获得单元，所述第五获得单元用于根据场景标签标识的所述第一声音采集集合进行语音特征采集参数的特征权重分布，获得第一场景化声音采集集合；第一执行单元，所述第一执行单元用于根据所述第一场景化声音采集集合进行声音模拟和互动。9.一种用于还原亲人生前声音并智能互动的系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权
利要求1～7任一项所述方法的步骤。

技术总结
本发明公开了一种还原亲人生前声音并智能互动的方法及系统，其中，所述方法应用于一智能互动系统，所述系统与第一声音采集装置、第一图像采集装置通信连接，所述方法包括：获得第一用户需求信息；获得第一场景化参数需求集合；获得第二用户的采集许可信息，获得第一声音采集集合和第一图像采集集合；获得第一契合度识别结果；进行所述第一声音采集集合进行场景标签标识；获得第一场景化声音采集集合；根据所述第一场景化声音采集集合进行声音模拟和互动。解决了缅怀方式固定传统且无法满足缅怀需求的技术问题，达到了基于用户需求，综合已逝亲人与用户之间契合度、已逝亲人的声音特征实现还原亲人生前声音并智能互动的技术效果。效果。效果。

技术研发人员：张丽燕沈琳
受保护的技术使用者：北京肿瘤医院（北京大学肿瘤医院）
技术研发日：2022.02.18
技术公布日：2022/5/25

转载请注明原文地址:https://tc.8miu.com/read-9747.html

专利

最新回复(0)