一种车机3D地图可见即可说功能识别所用词汇库获取方法与流程

    专利查询2025-07-07  6


    本发明属于智能座舱控制,具体涉及一种车机3d地图可见即可说功能识别所用词汇库获取方法。


    背景技术:

    1、车机可见即可说是智能座舱中语音模块的重要任务。可见即可说是指,在车机上通过语音操控当前页面元素,比如打开qq音乐,说出当前页面的“我的收藏”,就等于点击对应按钮实现查看“我的收藏”功能。

    2、要达到此效果主要步骤如下:一,语音识别,将音频通过自然语言理解转化为文字意图;二,抓取当前页面元素集合;三,将意图与当前元素集合匹配。其中页面元素集合的抓取,目前大部分车厂常用的技术是无障碍扫描服务,所述无障碍服务是android和ios等系统提供的一种系统服务,当一个进程启动无障碍服务后,就能一直监听前台页面元素变化,并能够获取所有元素节点信息(文本、描述)和索引;在通过用户意图匹配到特定节点后,能够根据这个节点的索引发起对该节点代表的页面元素的点击、滑动等操作。

    3、但无障碍服务并不能监听车机3d地图,由于地图是3d的,无法监听前台页面所有文字变化与描述,会导致页面元素抓取不全的问题,而结果集合大量缺失会影响后续的意图匹配,大大降低用户体验。

    4、综上所述,传统ocr技术已经很成熟,但在云端用ocr算法对车机地图图片进行识别后存在以下问题:

    5、1.识别结果有错误,经排查发现,ocr识别过程中按行识别,而地图上的很多信息是多行文字聚在一起表明一个地名;举个例子,“万科明天广场南区”,在地图上是两行信息,“万科明天”和“广场南区”,所以会对地名识别错误,将“万科明天广场南区”一个地点,识别成“万科明天”和“广场南区”两个地点,造成识别错误。

    6、2.地图可见即可说响应慢,究其原因在于,地图识别后的结果集过大,导致结果集在语音注册与意图匹配时耗时较长,影响了整体可见即可说链路。还在于车机地图信息量很大,而街道名称等文字信息是点击无响应的,这部分无意义的结果没有得到优化。

    7、另外对于可见即可说,也可以采取云端配置的方案,即将地图上的文本信息都在云端配置注册。但该方案效果太差,局限性太强,因为地图的大量信息是无法穷举的,是无法靠人力完成完全配置的。


    技术实现思路

    1、为了克服上述问题,本发明提供一种车机3d地图可见即可说功能识别所用词汇库获取方法,通过车机交互云端ocr的方式进行页面识别,车端上传当前地图图片,云端ocr算法进行识别,将结果返回给车端,通过改进的ocr方法对ocr识别结果进行后处理,将错误数据进行纠正且筛选保留有意义的结果。

    2、一种车机3d地图可见即可说功能识别所用词汇库获取方法,包括如下内容:

    3、步骤1,车端截取当前桌面地图界面图片上传至云端;

    4、步骤2,云端对图片进行文字识别,获取地图界面图片中的地名集合;

    5、步骤3,对识别出的地名集合进行第一步后处理,剔除无效信息,具体内容如下:

    6、步骤3.1,遍历步骤2获得的地名集合;

    7、步骤3.2,每遍历地名集合中的一个词汇,均要判断该词汇是否处于设定的无效词汇集合中,若是,则在地名集合中将对应词汇删除,否则将其保留在地名集合中;

    8、步骤3.3,结束遍历,获取最终词汇集合;

    9、步骤4,对最终词汇集合进行第二步后处理,修正错误识别地名,具体内容如下:

    10、步骤4.1,遍历最终词汇集合;

    11、步骤4.2,每遍历一个词汇,计算当前词汇对应的第i个地名和最终词汇集合中的第i+1个地名之间的距离d;判断距离d是否小于阈值;若小于,进入步骤4.3,若不小于,则令i=i+1重复步骤4.2;

    12、步骤4.3,计算第i+1个地名和第i+2个地名之间的距离di+1,若距离di+1大于15,则进入步骤4.4;若距离di+1不大于15,则令i=i+1,重复步骤4.3;

    13、步骤4.4,将第i个、第i+1个、第i+2个地名信息进行拼接,得到车机3d地图可见即可说功能识别所用词汇,并在步骤4.1的最终词汇集合中删除第i+1和第i+2个地名;

    14、步骤4.5,令i=i+2重复步骤4.2-4.5,直到最终词汇集合遍历完成,得到车机3d地图可见即可说功能识别所用词汇库;

    15、步骤5.车端获取车机3d地图可见即可说功能识别所用词汇库后进行语音可见即可说处理。

    16、所述4.2中两个地名间的距离计算公式如下:

    17、d=(x2_mid-x1_mid)2+(y2_mid-y1_mid)2

    18、其中:

    19、x1_mid=(x1_left_up+x1_right_down)/2

    20、y1_mid=(y1_left_up+y1_right_down)/2

    21、x2_mid=(x2_left_up+x2_right_down)/2,

    22、y2_mid=(y2_left_up+y2_right_down)/2

    23、其中前一个地名的place1四点坐标为:左上(x1_left_up,y1_left_up)、右上(x1_right_up,y1_right_up)、左下(x1_left_down,y1_left_down)、右下(x1_right_down,y1_right_down);

    24、后一个地名的place2四点坐标为:左上(x2_left_up,y2_left_up)、右上(x2_right_up,y2_right_up)、左下(x2_left_down,y2_left_down)、右下(x2_right_down,y2_right_down)。

    25、所述步骤2中云端调用ocr算法对图片进行文字识别。

    26、所述步骤3中的无效信息分为两类,第一类是地图中的街道,第二类是自定义的不需要进行地图语音可见即可说的词汇。

    27、所述街道包括xx街道或xx路。

    28、所述自定义的不需要进行地图语音可见即可说的词汇包括收费标志符。

    29、所述步骤4.3中的阈值设定为15。

    30、本发明的有益效果:

    31、本发明根据车载3d导航地图的特殊性,提供了车载3d地图的页面元素集合抓取的代替方案,且在该方案中提升了ocr结果正确率,优化了响应结果,总体上支持了车载3d地图的语音可见即可说功能。



    技术特征:

    1.一种车机3d地图可见即可说功能识别所用词汇库获取方法,其特征在于,包括如下内容:

    2.根据权利要求1所述的一种车机3d地图可见即可说功能识别所用词汇库获取方法,其特征在于,所述4.2中两个地名间的距离计算公式如下:

    3.根据权利要求1所述的一种车机3d地图可见即可说功能识别所用词汇库获取方法,其特征在于,所述步骤2中云端调用ocr算法对图片进行文字识别。

    4.根据权利要求1所述的一种车机3d地图可见即可说功能识别所用词汇库获取方法,其特征在于,所述步骤3中的无效信息分为两类,第一类是地图中的街道,第二类是自定义的不需要进行地图语音可见即可说的词汇。

    5.根据权利要求4所述的一种车机3d地图可见即可说功能识别所用词汇库获取方法,其特征在于,所述街道包括xx街道或xx路。

    6.根据权利要求1所述的一种车机3d地图可见即可说功能识别所用词汇库获取方法,其特征在于,所述自定义的不需要进行地图语音可见即可说的词汇包括收费标志符。

    7.根据权利要求1所述的一种车机3d地图可见即可说功能识别所用词汇库获取方法,其特征在于,所述步骤4.3中的阈值设定为15。

    8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的车机3d地图可见即可说功能识别所用词汇库获取方法。

    9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的车机3d地图可见即可说功能识别所用词汇库获取方法。


    技术总结
    本发明属于智能座舱控制技术领域,具体涉及一种车机3D地图可见即可说功能识别所用词汇库获取方法;车端截取桌面地图界面图片,对图片进行文字识别,获取地名集合;遍历地名集合;判断词汇是否处于无效词汇集合中,若是,则在地名集合中词汇删除,否则保留在地名集合中;遍历最终词汇集合,计算当前词汇第i个地名和最终词汇集合中第i+1个地名之间距离;若距离小于阈值,下一步,否则令i=i+1重复计算;将全部地名信拼接,得到识别词汇,并在最终词汇集合中删除第i+1和第i+2个地名;令i=i+2重复,得到词汇库;本发明通过改进的OCR方法对OCR识别结果进行后处理,将错误数据进行纠正且筛选保留有意义的结果。

    技术研发人员:郑旭,郑海龙,李振龙,张耀
    受保护的技术使用者:一汽奔腾汽车股份有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-30018.html

    最新回复(0)