应急状态智能判断方法、装置、设备及介质与流程

    专利查询2022-07-09  124



    1.本发明涉及分类模型技术领域,属于智慧城市中对应急状态进行智能化判断的应用场景,尤其涉及一种应急状态智能判断方法、装置、设备及介质。


    背景技术:

    2.随着机器人助手类产品的完善,语音机器人助手被应用于越来越多的场所中,用户以语音的方式与机器人沟通,机器人理解用户的自然语言,并根据用户的自然语音实现智能化控制等具体功能。若出现紧急状况,用户难以通过语音准确表达,语音机器人助手无法对处于紧急状况下的语音信息进行准确识别,从而导致机器人助手混淆用户的语音意图,也即无法对用户所处的应急状态进行准确判断。因此,现有技术方法中的语音识别方法存在无法对应急状态进行精确判断的问题。


    技术实现要素:

    3.本发明实施例提供了一种应急状态智能判断方法、装置、设备及介质,旨在解决现有技术方法中的语音识别方法所存在的无法对应急状态进行精确判断的问题。
    4.第一方面,本发明实施例提供了一种应急状态智能判断方法,其包括:
    5.若接收到用户输入的初始语音信息,根据预置的音频系数提取规则从所述初始语音信息中提取得到音频系数信息;
    6.根据预置的音频识别模型对所述音频系数信息进行识别,以得到与所述音频系数信息对应的文本信息;
    7.判断所述文本信息是否满足预置的图像获取条件;
    8.若所述文本信息满足所述图像获取条件,获取与所述初始语音信息对应的用户图像信息;
    9.根据预置的姿态特征提取模型从所述用户图像信息中提取得到对应的姿态特征信息;
    10.根据预置的判断模型对所述文本信息及所述姿态特征信息进行判断,以获取是否处于应急状态的判断结果。
    11.第二方面,本发明实施例提供了一种应急状态智能判断装置,其包括:
    12.音频系数信息提取单元,用于若接收到用户输入的初始语音信息,根据预置的音频系数提取规则从所述初始语音信息中提取得到音频系数信息;
    13.文本信息获取单元,用于根据预置的音频识别模型对所述音频系数信息进行识别,以得到与所述音频系数信息对应的文本信息;
    14.文本信息判断单元,用于判断所述文本信息是否满足预置的图像获取条件;
    15.用户图像信息获取单元,用于若所述文本信息满足所述图像获取条件,获取与所述初始语音信息对应的用户图像信息;
    16.姿态特征信息获取单元,用于根据预置的姿态特征提取模型从所述用户图像信息
    中提取得到对应的姿态特征信息;
    17.应急状态判断结果获取单元,用于根据预置的判断模型对所述文本信息及所述姿态特征信息进行判断,以获取是否处于应急状态的判断结果。
    18.第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的应急状态智能判断方法。
    19.第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的应急状态智能判断方法。
    20.本发明实施例提供了一种应急状态智能判断方法、装置、计算机可读存储介质。接收用户输入的初始语音信息并提取得到音频系数信息,对音频系数信息进一步识别得到对应的文本信息,判断文本信息是否满足图像获取条件,若满足则获取与初始语音信息对应的用户图像信息并从中提取得到对应的姿态特征信息,根据判断模型对文本信息及姿态特征信息进行判断以得到是否处于应急状态的判断结果。通过上述方法,首先对语音信息进行识别得到文本信息,判断文本信息是否满足图像获取条件,若满足则获取用户图像信息并提取姿态特征信息,结合文本信息及姿态特征信息判断当前用户是否处于应急状态,可基于语音信息及姿态信息对应急状态进行准确判断,大幅提高了对应急状态进行判断的精确性。
    附图说明
    21.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
    22.图1为本发明实施例提供的应急状态智能判断方法的流程示意图;
    23.图2为本发明实施例提供的应急状态智能判断方法的子流程示意图;
    24.图3为本发明实施例提供的应急状态智能判断方法的另一子流程示意图;
    25.图4为本发明实施例提供的应急状态智能判断方法的另一子流程示意图;
    26.图5为本发明实施例提供的应急状态智能判断方法的另一子流程示意图;
    27.图6为本发明实施例提供的应急状态智能判断方法的另一子流程示意图;
    28.图7为本发明实施例提供的应急状态智能判断方法的另一流程示意图;
    29.图8为本发明实施例提供的应急状态智能判断装置的示意性框图;
    30.图9为本发明实施例提供的计算机设备的示意性框图。
    具体实施方式
    31.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
    32.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示
    所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
    33.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
    34.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
    35.请参阅图1,图1是本发明实施例提供的应急状态智能判断方法的流程示意图;该应急状态智能判断方法应用于客户端或管理服务器中,该应急状态智能判断方法通过安装于客户端或管理服务器中的应用软件进行执行,若该应急状态智能判断方法应用于客户端中,则客户端独自对应急状态进行智能判断;若该应急状态智能判断方法应用于管理服务器中,则管理服务器与客户端进行网络连接以实现数据信息的传输,管理服务器可接收来自客户端的数据信息并对应急状态进行智能判断,客户端可供用户输入语音信息,并可同时采集用户图像信息。其中,客户端可以是住宅中放置的智能语音助手,或车载移动智能语音助手,客户端还可以是监控终端,监控终端可配置于atm取款机、电梯、街道、地铁站等设备或场所中,管理服务器即为企业或政府部门内部所构建的服务器端。如图1所示,该方法包括步骤s110~s160。
    36.s110、若接收到用户输入的初始语音信息,根据预置的音频系数提取规则从所述初始语音信息中提取得到音频系数信息。
    37.若接收到用户输入的初始语音信息,根据预置的音频系数提取规则从所述初始语音信息中提取得到音频系数信息。其中,所述音频系数提取规则包括频谱转换规则、频率转换公式及多通道滤波器。客户端的用户可输入初始语音信息至该客户端,用户还可通过客户端将初始语音信息输入至管理服务器,初始语音信息即为用户发声得到的一段语音信息,初始语音的时长不限。可通过音频系数提取规则从初始语音信息中提取得到对应的音频系数信息,音频系数信息即可对初始语音信息的音频特征进行量化表示,也即音频系数信息可用于对初始语音信息的整体音频特征进行表征。
    38.在一实施例中,如图2所示,步骤s110包括子步骤s111、s112、s113和s114。
    39.s111、对所述初始语音信息进行分帧处理得到对应的多帧音频信息。
    40.语音信息在计算机中以包含音轨的声谱图的形式进行表示,则该声谱图中包含很多帧,每一帧即对应一个时间单元,则可从初始语音信息中获取得到每一帧音频信息,每一帧音频信息即对应一个时间单元内所包含的声谱图信息,时间单元可以为预置的一段时长,例如,时间单元为10ms,则一帧音频信息即为初始语音信息的声谱图中10ms所对应的声谱图信息。
    41.s112、根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱。
    42.可根据单位时间对音频信息进行分段得到多个音频信息段,每一音频信息段中均对应一个单位时间内包含的多帧音频信息,例如可预先设置单位时间为400ms、帧移80ms,每一帧音频信息的时间单元为10ms,则每一单位时间内可获取到40帧音频信息,也即一个音频信息段中包含40帧音频信息,后一音频信息段内的第1帧音频信息即为前一音频信息
    段内的第9帧音频信息。之后可根据频谱转换规则对得到的每一音频信息段进行加窗处理及快速傅里叶变换(fast fourier transform,fft)然后旋转90度,得到与每一音频信息段对应的音频频谱,在音频频谱中的频谱表示频率与能量的关系。
    43.s113、根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱。
    44.根据频率转换公式将以线性方式表示的音频频谱转换为非线性音频频谱,为模拟人类发声系统进行发声所得到的语音的特点,可通过非线性音频频谱模拟人类发声系统所得到的语音的特点,并进一步从中获取符合人类发声系统的鲁棒性特征。音频频谱及非线性音频频谱均为采用频谱曲线进行表示,则频谱曲线由多个连续的频谱值所组成。
    45.具体的,频率转换公式可采用公式(1)进行表示:
    46.f(z)=2350
    ×
    log(1 z/700)
    ꢀꢀꢀꢀꢀꢀꢀꢀ
    (1);
    47.其中f(z)为转换后非线性音频频谱的频谱值,z为音频频谱的频率值。
    48.s114、根据所述多通道滤波器对每一所述非线性音频频谱进行多通道滤波处理,得到与每一所述非线性音频频谱对应的多个音频系数作为与所述初始语音信息对应的音频系数信息。
    49.根据通道滤波器对每一非线性音频频谱分别进行多通道滤波处理,即可得到每一非线性音频频谱的多个音频系数。具体的,通道滤波器可以是基于梅尔频谱滤波器构建的多通道的滤波器,所得到的音频系数中包含与每一通道对应的系数值;例如,可构建得到256通道的滤波器,则采用上述通道滤波器对一个非线性音频频谱进行多通道滤波处理可对应得到256维梅尔谱特征,256维梅尔谱特征即为与该非线性音频频谱对应的音频系数。获取得到与每一非线性音频频谱对应的多个音频系数,即可作为所得到的音频系数信息。
    50.s120、根据预置的音频识别模型对所述音频系数信息进行识别,以得到与所述音频系数信息对应的文本信息。
    51.根据预置的音频识别模型对所述音频系数信息进行识别,以得到与所述音频系数信息对应的文本信息。具体的,音频识别模型即为对所得到的音频系数信息进行识别,以从音频系数信息中获取相应文本信息的具体模型,音频识别模型中包括转换神经网络及解析词典,可通过音频识别模型对所得到的音频系数信息进行识别,得到与音频系数信息对应的文本信息。
    52.在一实施例中,如图3所示,步骤s120包括子步骤s121和s122。
    53.s121、将所述音频系数信息中多个非线性音频频谱的音频系数依次输入所述转换神经网络进行转换,得到每一所述非线性音频频谱对应的识别编码。
    54.将一个非线性音频频谱的音频系数输入转换神经网络进行转换,即可得到对应的一个识别编码,则每一非线性音频频谱所对应的一个音频系数进行识别转换后即可得到与每一非线性音频频谱分别对应的识别编码,识别编码即为与非线性音频频谱所对应的读音相关联的编码信息。音频识别模型由一个输入层、多个中间层及一个输出层组成的神经网络模型,输入层与首个中间层之间、中间层与其他相邻的中间层之间、末尾中间层与输出节点之间均通过关联公式进行关联,每一关联公式均可表示为一个一次函数,一次函数中包含相应参数值,输入层中每一输入节点对应音频系数中的一通道的系数值,每一输出节点对应一个识别编码,将一个非线性音频频谱所对应的一个音频系数由输入层输入映射处理
    模型,即可由输出层获取相应输出结果,输出结果即为与每一输出节点对应的匹配度值,由输出结果获取匹配度值最高的一个输出节点对应的识别编码,作为与输入的音频系数对应的识别编码。
    55.s122、根据所述解析词典对所述识别编码进行语义解析,以得到对应的文本信息。
    56.解析词典中包含识别编码与相应字符之间的对应关系,解析词典中一个字符可对应一个编码或多个编码的组合,则若一个识别编码与解析词典中一个字符的编码存在对应关系,则可根据对应关系获取与一个识别编码对应的字符;若多个相邻识别编码的组合与解析词典中一个字符的编码组合存在对应关系,则可根据对应关系获取与多个相应识别编码对应的字符。对获取到的字符进行顺序组合即可得到对应的文本信息。
    57.s130、判断所述文本信息是否满足预置的图像获取条件。
    58.判断所述文本信息是否满足预置的图像获取条件。可对获取到的文本信息是否满足图像获取条件进行判断,若文本信息满足图像获取条件,则可进一步获取对应的用户图像信息;若文本信息不满足图像获取条件,则可基于文本信息获取对应的控制指令,则客户端或管理服务器可根据文本信息获取相对应的控制指令以实现某一控制功能。
    59.例如上述方法应用于客户端中,客户端为atm机,文本信息为“我要取钱”且不满足图像获取条件,则可获取与该文本信息对应的控制指令,以使客户端执行该控制指令并跳转至取钱的显示界面。
    60.在一实施例中,如图4所示,步骤s130包括子步骤s131和s132。
    61.s131、根据所述文本信息获取与所述初始语音信息对应的语音语速。
    62.具体的,可获取文本信息中所包含的字符总数,并获取初始语音信息的语音时长,基于所得到的字符总数及语音时长即可计算对应的语音语速。
    63.例如,字符总数为6,时长为3s,则对应的语速为2.0(字符/s)。
    64.s132、判断所述语音语速是否超出所述图像获取条件中的语速阈值,以判定所述文本信息是否满足所述图像获取条件。
    65.图像获取条件中配置有预设阈值,可判断语音语速是否超出该语速阈值,若语音语速超出语速阈值则,判定文本信息满足图像获取条件;若语音语速未超出语速阈值,则判定文本信息不满足图像获取条件。
    66.s140、若所述文本信息满足所述图像获取条件,获取与所述初始语音信息对应的用户图像信息。
    67.若所述文本信息满足所述图像获取条件,获取与所述初始语音信息对应的用户图像信息。若判断得到文本信息满足图像获取条件,则可获取客户端中配置的图像采集单元(如摄像头、监控探头等)在用户输入初始语音信息时同步采集得到的用户图像信息。具体的,用户图像信息由连续多张用户图像组成,相邻两张用户图像之间间隔预设时间,可通过客户端直接采集用户图像信息,或通过客户端采集用户视频,并根据预设时间从用户视频中间隔截取对应的多张用户图像组成用户图像信息。例如,预设时间是100ms,则所获取到的用户图像信息中相邻两张用户图像之间均间隔100ms。
    68.若文本信息不满足图像获取条件,则直接获取与文本信息相匹配的指令信息并进行执行。
    69.s150、根据预置的姿态特征提取模型从所述用户图像信息中提取得到对应的姿态
    特征信息。
    70.根据预置的姿态特征提取模型从所述用户图像信息中提取得到对应的姿态特征信息。姿态特征提取模型即为从用户图像信息中提取对应姿态特征信息的具体模型,姿态特征信息即为对用户图像信息中多张用户图像的姿态特征进行量化表征的信息,也即是姿态特征信息可用于体现用户在输入初始语音信息时的整体姿态特征。其中,姿态特征提取模型包括对比度计算规则、像素溶解比例值、姿态点采集规则及姿态特征计算公式。对比度计算规则即为对每一用户图像中像素点的对比度进行计算的具体规则,可根据对比度计算规则获取用户图像中每一像素点与周围相邻的若干个像素点之间的对比度值;像素溶解比例值即为根据像素点的对比度值进行像素溶解以得到相应轮廓图像的比值信息;通过一张用户图像中像素点的像素对比度值与像素溶解比例值进行像素溶解,即可获取得到该用户图像对应的轮廓图像;根据姿态点采集规则可从上述轮廓图像中对应采集得到相应姿态采集点的坐标位置信息,根据姿态特征计算公式对多张用户图像对应的姿态采集点的坐标位置信息进行计算即可获取得到与用户图像信息对应的姿态特征信息。
    71.在一实施例中,如图5所示,步骤s150包括子步骤s151、s152、s153和s154。
    72.s151、根据所述像素对比度计算规则对所述用户图像信息中的每一张用户图像进行对比度计算,得到每一张所述用户图像对应的像素对比度信息。
    73.具体的,对某一张用户图像进行对比度计算得到相应像素对比度信息的具体过程为,确定一张用户图像中一个像素点为目标像素点,获取目标像素点外围第一层的八个像素点及外围第二层的十六个像素点,获取目标像素点的rgb值(目标像素点在红、绿、蓝三个通道分别对应的像素值),以及外围第一层的八个像素点及外围第二层的十六个像素点分别对应的rgb值,分别计算外围第一层的八个像素点的rgb值与目标像素点之间的第一差值及外围第二层的十六个像素点的rgb值与目标像素点之间的第二差值,根据像素对比度计算规则对第一差值及第二差值进行加权相加得到该目标像素点的对比度值,根据像素对比度计算规则可依次计算得到一张用户图像中每一像素点的对比度值作为该用户图像的像素对比度信息。通过上述方法,即可以依次计算得到与每一用户图像对应的像素对比度信息。
    74.例如,根据像素对比度计算规则,对某一目标像素点的对比度值进行计算的具体过程可采用公式(2)进行表示。
    [0075][0076]
    其中,s1为第一差值对应的加权值,s2为第二差值对应的加权值,ri为外围第一层中的第i个像素点的rgb值,r'j为外围第二层中的第j个像素点的rgb值,r0为目标像素点的rgb值。
    [0077]
    s152、根据每一所述用户图像的所述像素对比度信息及所述像素溶解比例值对每一所述张用户图像分别进行像素溶解,得到与每一所述用户图像对应的轮廓图像。
    [0078]
    具体的,对一张用户图像进行像素溶解的具体过程包括,根据该用户图像中每一像素点的对比度值进行排序,对比度值越大则对应像素点排序越靠前,根据像素溶解比例值从排序结果中截取排序靠前的像素点作为该用户图像的轮廓像素点,根据轮廓像素点对该用户图像中剩余的其他像素点进行像素溶解,获取进行像素溶解后仅包含轮廓像素点的
    边缘轮廓,根据边缘轮廓所围合的区域即可从与该边缘轮廓对应的用户图像中截取得到与边缘轮廓对应的轮廓图像。则通过上述方法可获取到与每一用户图像分别对应的轮廓图像。
    [0079]
    例如,像素溶解比例值为1/10,则截取排序结果中前1/10的像素点作为轮廓像素点并进行像素溶解得到对应的边缘轮廓。
    [0080]
    s153、根据所述姿态点采集规则从每一所述轮廓图像中获取得到对应的姿态坐标位置信息。
    [0081]
    具体的,姿态点采集规则中包括多个姿态采集点对应的匹配模板,可根据姿态点采集规则从每一轮廓图像中获取得到与每一姿态采集点对应的姿态坐标位置,每一轮廓图像对应的多个姿态坐标位置即组合为对应的姿态坐标位置信息。具体的,特征点采集规则中可包括手部采集点、肘部采集点、肩部采集点、脸部采集点、腰部采集点等多个姿态采集点分别对应的匹配模板,对轮廓图像中区域图像的像素信息与姿态采集点对应的匹配模板进行匹配,以确定轮廓图像中与每一姿态采集点相匹配的区域图像,获取与姿态采集点相匹配的区域图像的中心坐标位置,即可得到轮廓图像与每一姿态采集点对应的姿态坐标位置作为对应的姿态坐标位置信息。则可通过上述方式分别获取每一轮廓图像对应的姿态坐标位置信息。
    [0082]
    s154、根据所述姿态特征计算公式对多张所述轮廓图像对应的姿态标位置信息进行计算,得到与用户图像信息对应的姿态特征信息。
    [0083]
    具体的,可获取连续两张用户图像对应轮廓图像的姿态位置信息,计算每一姿态采集点在连续两张用户图像对应的姿态差异得到对应的差异值,具体的,计算得到差异值的公式可采用公式(3)进行表示。
    [0084][0085]
    其中,w
    ax
    为连续两张用户图像对应轮廓图像中前一轮廓图像与某一姿态采集点对应的横坐标值,w
    bx
    为后一轮廓图像与该姿态采集点对应的横坐标值,w
    ay
    为前一轮廓图像与该姿态采集点对应的纵坐标值,w
    by
    为后一轮廓图像与该姿态采集点对应的纵坐标值。
    [0086]
    根据上述计算方法,对于n张轮廓图像则可对应计算得到n-1份差异信息,每一份差异信息中均包含与每一姿态采集点对应的差异值,根据姿态特征计算公式对n-1份差异信息中每一姿态采集点对应的多个差异值进行计算,即可对应获取到与每一姿态采集点对应的姿态特征值。具体的,姿态特征计算公式包括平均值计算公式、最大范围计算公式、方差计算公式、标准差计算公式等,则与任意一个姿态采集点可对应平均特征值、最大范围特征值(最大差异值与最小差异值之间的差值)、方差特征值、标准差特征值等多个姿态特征值。
    [0087]
    s160、根据预置的判断模型对所述文本信息及所述姿态特征信息进行判断,以获取是否处于应急状态的判断结果。
    [0088]
    根据预置的判断模型对所述文本信息及所述姿态信息进行判断,以获取是否处于应急状态的判断结果。判断模型即是用于对所得到的文本信息及姿态特征信息进行综合判断的模型,判断模型中包括字符转换网络及判断神经网络,可首先通过字符转换网络对文本信息中所包含的字符进行转换得到文本特征信息,并将文本特征信息与姿态特征信息进
    行综合后输入判断神经网络进行判断分析,以得到是否处于应急状态的判断结果,若判断结果为处于应急状态,也即是表明输入初始语音信息的当前用户正处于应急状态中,急需要获取帮助。
    [0089]
    在一实施例中,如图6所示,步骤s160包括子步骤s161和s162。
    [0090]
    s161、根据所述字符转换网络对所述文本信息进行转换,得到对应的文本特征信息。
    [0091]
    可根据字符转换网络对文本信息进行转换,字符转换网络可基于bert(bidirectional encoder representations from transformers)神经网络构建得到,字符转换网络可对文本信息中所包含的每一字符进行转换,得到与每一字符对应的特征向量,将所有字符的特征向量进行组合即可得到与文本信息对应的文本特征信息。
    [0092]
    s162、根据所述判断神经网络对所述文本特征信息及所述姿态特征信息进行综合判断,以得到是否处于应急状态的判断结果。
    [0093]
    将文本特征信息与姿态特征信息进行组合得到组合特征信息,并将组合特征信息输入判断神经网络进行综合分析判断,判断神经网络可由一个输入层、多个中间层及一个输出层组成,输入层与首个中间层之间、中间层与其他相邻的中间层之间、末尾中间层与输出节点之间均通过关联公式进行关联。输入层中每一输入节点即对应文本特征信息中的一个特征向量或姿态特征信息中的一个姿态特征值;输出层中可包含两个输出节点,第一个输出节点即与“应急”相对应,第二个输出节点即与“非应急”相对应。则将组合特征信息输入判断神经网络进行处理后,即可从输出层中获取对应的输出结果,输出结果包含与两个输出节点分别对应的相似度,可获取相似度最高的一个输出节点对应的结果作为判断结果,从而实现对文本信息及所述姿态特征信息进行分类判断。
    [0094]
    在一实施例中,如图7所示,步骤s160之后还包括步骤s170。
    [0095]
    s170、若所述判断结果为处于应急状态,根据预存的提示规则生成报警提示信息并进行发送。
    [0096]
    若判断结果为处于应急状态,则可根据提示规则生成报警提示信息,若方法应用于客户端,则可获取客户端当前所处位置并根据提示规则生成报警提示信息,之后可将报警提示信息对应进行发送,以报告当前位置并进行报警,其中提示规则可以包含报警电话、消防救援电话、医疗救援电话等;若方法应用于管理服务器,则管理服务器可获取对应客户端当前所处位置并根据提示规则生成报警提示信息,之后可将报警提示信息对应进行发送,以报告处于应急状态的客户端当前所处位置并进行报警。
    [0097]
    本方案中首先判断基于语音识别所得到的文本信息是否满足图像获取条件,若满足则,获取用户图像信息并提取姿态特征信息,本方案技术内容中结合使用语言识别、图像识别及姿态识别,从而实现当前用户是否处于应急状态进行综合判断,提高了对应急状态进行判断的精确性及效率,在生产生活中可应用于不同的场景中,大幅提高了各应用场景中用户的安全性,实际应用过程中取得了非常良好的使用效果。
    [0098]
    本技术中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含对应急状态进行智能化判断的应用场景中,从而推动智慧城市的建设。
    [0099]
    在本发明实施例所提供的应急状态智能判断方法中,接收用户输入的初始语音信
    息并提取得到音频系数信息,对音频系数信息进一步识别得到对应的文本信息,判断文本信息是否满足图像获取条件,若满足则获取与初始语音信息对应的用户图像信息并从中提取得到对应的姿态特征信息,根据判断模型对文本信息及姿态特征信息进行判断以得到是否处于应急状态的判断结果。通过上述方法,首先对语音信息进行识别得到文本信息,判断文本信息是否满足图像获取条件,若满足则获取用户图像信息并提取姿态特征信息,结合文本信息及姿态特征信息判断当前用户是否处于应急状态,可基于语音信息及姿态信息对应急状态进行准确判断,大幅提高了对应急状态进行判断的精确性。
    [0100]
    本发明实施例还提供一种应急状态智能判断装置,该应急状态智能判断装置可配置于客户端或管理服务器中,该应急状态智能判断装置用于执行前述的应急状态智能判断方法的任一实施例。具体地,请参阅图8,图8为本发明实施例提供的应急状态智能判断装置的示意性框图。
    [0101]
    如图8所示,应急状态智能判断装置100包括音频系数信息提取单元110、文本信息获取单元120、文本信息判断单元130、用户图像信息获取单元140、姿态特征信息获取单元150和应急状态判断结果获取单元160。
    [0102]
    音频系数信息提取单元110,用于若接收到用户输入的初始语音信息,根据预置的音频系数提取规则从所述初始语音信息中提取得到音频系数信息。
    [0103]
    在一具体实施例中,所述音频系数信息提取单元110包括子单元:音频信息获取单元,用于对所述初始语音信息进行分帧处理得到对应的多帧音频信息,音频频谱获取单元,用于根据预置的单位时间及所述频谱转换规则将每一所述单位时间内包含的所述音频信息转换为对应的音频频谱;音频频谱转换单元,用于根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱;音频系数信息获取单元,用于根据所述多通道滤波器对每一所述非线性音频频谱进行多通道滤波处理,得到与每一所述非线性音频频谱对应的多个音频系数作为与所述初始语音信息对应的音频系数信息。
    [0104]
    文本信息获取单元120,用于根据预置的音频识别模型对所述音频系数信息进行识别,以得到与所述音频系数信息对应的文本信息。
    [0105]
    在一具体实施例中,所述文本信息获取单元120包括子单元:识别编码获取单元,用于将所述音频系数信息中多个非线性音频频谱的音频系数依次输入所述转换神经网络进行转换,得到每一所述非线性音频频谱对应的识别编码;语义解析单元,用于根据所述解析词典对所述识别编码进行语义解析,以得到对应的文本信息。
    [0106]
    文本信息判断单元130,用于判断所述文本信息是否满足预置的图像获取条件。
    [0107]
    在一具体实施例中,所述文本信息判断单元130包括子单元:语音语速获取单元,用于根据所述文本信息获取与所述初始语音信息对应的语音语速;语音语速判断单元,用于判断所述语音语速是否超出所述图像获取条件中的语速阈值,以判定所述文本信息是否满足所述图像获取条件。
    [0108]
    用户图像信息获取单元140,用于若所述文本信息满足所述图像获取条件,获取与所述初始语音信息对应的用户图像信息。
    [0109]
    姿态特征信息获取单元150,用于根据预置的姿态特征提取模型从所述用户图像信息中提取得到对应的姿态特征信息。
    [0110]
    在一具体实施例中,所述姿态特征信息获取单元150包括子单元:像素对比度信息
    获取单元,用于根据所述像素对比度计算规则对所述用户图像信息中的每一张用户图像进行对比度计算,得到每一张所述用户图像对应的像素对比度信息;轮廓图像获取单元,用于根据每一所述用户图像的所述像素对比度信息及所述像素溶解比例值对每一所述张用户图像分别进行像素溶解,得到与每一所述用户图像对应的轮廓图像;姿态坐标位置信息获取单元,用于根据所述姿态点采集规则从每一所述轮廓图像中获取得到对应的姿态坐标位置信息;姿态坐标位置信息计算单元,用于根据所述姿态特征计算公式对多张所述轮廓图像对应的姿态标位置信息进行计算,得到与用户图像信息对应的姿态特征信息。
    [0111]
    应急状态判断结果获取单元160,用于根据预置的判断模型对所述文本信息及所述姿态特征信息进行判断,以获取是否处于应急状态的判断结果。
    [0112]
    在一具体实施例中,所述应急状态判断结果获取单元160包括子单元:文本特征信息获取单元,用于根据所述字符转换网络对所述文本信息进行转换,得到对应的文本特征信息;综合判断单元,用于根据所述判断神经网络对所述文本特征信息及所述姿态特征信息进行综合判断,以得到是否处于应急状态的判断结果。
    [0113]
    在一具体实施例中,所述应急状态智能判断装置100还包括子单元:报警提示信息发送单元,用于若所述判断结果为处于应急状态,根据预存的提示规则生成报警提示信息并进行发送。
    [0114]
    在本发明实施例所提供的应急状态智能判断装置应用上述应急状态智能判断方法,接收用户输入的初始语音信息并提取得到音频系数信息,对音频系数信息进一步识别得到对应的文本信息,判断文本信息是否满足图像获取条件,若满足则获取与初始语音信息对应的用户图像信息并从中提取得到对应的姿态特征信息,根据判断模型对文本信息及姿态特征信息进行判断以得到是否处于应急状态的判断结果。通过上述方法,首先对语音信息进行识别得到文本信息,判断文本信息是否满足图像获取条件,若满足则获取用户图像信息并提取姿态特征信息,结合文本信息及姿态特征信息判断当前用户是否处于应急状态,可基于语音信息及姿态信息对应急状态进行准确判断,大幅提高了对应急状态进行判断的精确性。
    [0115]
    上述应急状态智能判断装置可以实现为计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
    [0116]
    请参阅图9,图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行应急状态智能判断方法以对应急状态进行智能化判断的客户端或管理服务器。
    [0117]
    参阅图9,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
    [0118]
    该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行应急状态智能判断方法,其中,存储介质503可以为易失性的存储介质或非易失性的存储介质。
    [0119]
    该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
    [0120]
    该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行应急状态智能判断方法。
    [0121]
    该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可
    以理解,图9中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
    [0122]
    其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现上述的应急状态智能判断方法中对应的功能。
    [0123]
    本领域技术人员可以理解,图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。
    [0124]
    应当理解,在本发明实施例中,处理器502可以是中央处理单元(central processing unit,cpu),该处理器502还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
    [0125]
    在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现上述的应急状态智能判断方法中所包含的步骤。
    [0126]
    所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
    [0127]
    在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
    [0128]
    所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
    [0129]
    另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以
    是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
    [0130]
    所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
    [0131]
    以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
    转载请注明原文地址:https://tc.8miu.com/read-3190.html

    最新回复(0)