本发明属于船舶故障分类,更具体地,涉及一种基于模糊搜索的分词匹配的船舶故障分类方法及系统。
背景技术:
1、在船舶维修保障历史信息分析处理时,需要识别发生故障部位所属的系统、分系统、设备和附件等,用于分类统计和可靠性评估,但描述故障现象往往只有1-2句话,不同人对同一对象的称呼可能会不相同,存在简称、别称、型号、代号或非正式口语称呼等,且复杂船舶系统分类结构树有上千个以上叶节点,因此需要开发一种船舶系统分类软件和算法,能够根据描述故障现象的一段口语表达在分类结构树上找到合适的节点。
2、分类问题目前最佳的算法应该是bert和gpt等基于自然语言处理的人工智能算法,这些算法需要海量训练数据,每条训练数据包含1条故障描述和1个对应的分类结构树的节点,但我们缺乏海量训练数据,而且这种解决方法代价太大。
3、简单的解决方式是采用通用的模糊搜索算法,该算法一般使用最短编辑距离法来比较两个字符串的相似度,能够基本解决问题,但准确度不高,主要问题有2个,一个不能区分匹配词汇的重要程度,例如找到一些通用词和字,例如“系统”、“装置”、“调节阀”、“阀”等,会严重影响分类的准确度,另一个是不能很好识别各类简称、别称、型号、代号或非正式口语称呼。
技术实现思路
1、为解决以上技术问题,本发明提出一种基于模糊搜索的分词匹配的船舶故障分类方法,包括:
2、获取维修保障历史记录和船舶的分类结构树,通过模糊搜索算法计算所述维修保障历史记录中故障描述字符串和分类结构树中每个叶节点路径的模糊搜索相似度评分;
3、对所述故障描述字符串进行分词处理,获得分词后的故障描述字符串,通过分词匹配算法计算分词后的故障描述字符串和所述分类结构树中每个叶节点路径的分词匹配相似度评分;
4、将所述模糊搜索相似度评分和所述分词匹配相似度评分加权平均,并按照评分从高到低进行排序,将评分高于阈值的所述分类结构树的叶节点路径进行输出。
5、进一步的,通过jieba分词工具对所述故障描述字符串进行分词。
6、进一步的,将评分高于阈值的所述分类结构树的叶节点路径进行输出包括:将与故障描述字符串相对应的评分前10名的叶节点路径进行输出。
7、进一步的,通过模糊搜索算法计算所述维修保障历史记录中故障描述字符串和分类结构树中每个叶节点路径的模糊搜索相似度评分包括:通过模糊搜索算法分别计算分类结构树中每个叶节点路径各层的节点名称和故障描述字符串的相似度评分。
8、进一步的,通过分词匹配算法计算分词后的故障描述字符串和所述分类结构树中每个叶节点路径的分词匹配相似度评分包括:通过jieba分词工具对所述故障描述字符串进行分词,得到分词列表,所述分词列表包括词组列表和词性列表;
9、汇总分词列表中包含每个叶节点路径字符串的词组,得到各叶节点路径的分词匹配字符串,并通过分词匹配字符串长度占分词列表总长度比率来计算相似度评分。
10、本发明还提出一种基于模糊搜索的分词匹配的船舶故障分类系统,包括:
11、模糊搜索模块,用于获取维修保障历史记录和船舶的分类结构树,通过模糊搜索算法计算所述维修保障历史记录中故障描述字符串和分类结构树中每个叶节点路径的模糊搜索相似度评分;
12、分词匹配模块,用于对所述故障描述字符串进行分词处理,获得分词后的故障描述字符串,通过分词匹配算法计算分词后的故障描述字符串和所述分类结构树中每个叶节点路径的分词匹配相似度评分;
13、输出模块,用于将所述模糊搜索相似度评分和所述分词匹配相似度评分加权平均,并按照评分从高到低进行排序,将评分高于阈值的所述分类结构树的叶节点路径进行输出。
14、进一步的,通过jieba分词工具对所述故障描述字符串进行分词。
15、进一步的,将评分高于阈值的所述分类结构树的叶节点路径进行输出包括:将与故障描述字符串相对应的评分前10名的叶节点路径进行输出。
16、进一步的,通过模糊搜索算法计算所述维修保障历史记录中故障描述字符串和分类结构树中每个叶节点路径的模糊搜索相似度评分包括:通过模糊搜索算法分别计算分类结构树中每个叶节点路径各层的节点名称和故障描述字符串的相似度评分。
17、进一步的,通过分词匹配算法计算分词后的故障描述字符串和所述分类结构树中每个叶节点路径的分词匹配相似度评分包括:通过jieba分词工具对所述故障描述字符串进行分词,得到分词列表,所述分词列表包括词组列表和词性列表;
18、汇总分词列表中包含每个叶节点路径字符串的词组,得到各叶节点路径的分词匹配字符串,并通过分词匹配字符串长度占分词列表总长度比率来计算相似度评分。
19、通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
20、1.一般情况下,该系统推荐的第一名分类结构树节点正确率在75%左右,前10名包含正确节点成功率在90%左右。利用该系统完成了30000多条维修保障历史记录的系统分类工作,能够较好地提高系统分类的工作效率。用户只用对系统为每条维修保障历史记录推荐的10条系统分类结果进行人工确认,删除错误的结果,留下正确的结果。
21、2.影响前10名包含正确节点成功率的因素主要包含2个方面:大概一半是新出现的称呼、代号或设备、附件;另一半是维修保障历史记录中错误的系统名称或专业名称,可能是船员系统分类和设计人员分类有不一致的地方。
22、3.影响第一名正确率的因素,除了影响前10名包含正确节点成功率的因素外,还包含如下因素:多个维修保障历史记录合并在一起描述导致相互干扰;算法缺陷,只能进行字符串匹配,不能像人脑能够正确识别理解语法和语义。
23、4.该系统处理1条维修保障记录耗时25秒左右,运行环境为微机,intel core i7-8700 cpu@3.20ghz,16gb内存。
1.一种基于模糊搜索的分词匹配的船舶故障分类方法,其特征在于,包括:
2.如权利要求1所述的一种基于模糊搜索的分词匹配的船舶故障分类方法,其特征在于,通过jieba分词工具对所述故障描述字符串进行分词。
3.如权利要求1所述的一种基于模糊搜索的分词匹配的船舶故障分类方法,其特征在于,将评分高于阈值的所述分类结构树的叶节点路径进行输出包括:将与故障描述字符串相对应的评分前10名的叶节点路径进行输出。
4.如权利要求1所述的一种基于模糊搜索的分词匹配的船舶故障分类方法,其特征在于,通过模糊搜索算法计算所述维修保障历史记录中故障描述字符串和分类结构树中每个叶节点路径的模糊搜索相似度评分包括:通过模糊搜索算法分别计算分类结构树中每个叶节点路径各层的节点名称和故障描述字符串的相似度评分。
5.如权利要求2所述的一种基于模糊搜索的分词匹配的船舶故障分类方法,其特征在于,通过分词匹配算法计算分词后的故障描述字符串和所述分类结构树中每个叶节点路径的分词匹配相似度评分包括:通过jieba分词工具对所述故障描述字符串进行分词,得到分词列表,所述分词列表包括词组列表和词性列表;
6.一种基于模糊搜索的分词匹配的船舶故障分类系统,其特征在于,包括:
7.如权利要求6所述的一种基于模糊搜索的分词匹配的船舶故障分类系统,其特征在于,通过jieba分词工具对所述故障描述字符串进行分词。
8.如权利要求6所述的一种基于模糊搜索的分词匹配的船舶故障分类系统,其特征在于,将评分高于阈值的所述分类结构树的叶节点路径进行输出包括:将与故障描述字符串相对应的评分前10名的叶节点路径进行输出。
9.如权利要求6所述的一种基于模糊搜索的分词匹配的船舶故障分类系统,其特征在于,通过模糊搜索算法计算所述维修保障历史记录中故障描述字符串和分类结构树中每个叶节点路径的模糊搜索相似度评分包括:通过模糊搜索算法分别计算分类结构树中每个叶节点路径各层的节点名称和故障描述字符串的相似度评分。
10.如权利要求7所述的一种基于模糊搜索的分词匹配的船舶故障分类系统,其特征在于,通过分词匹配算法计算分词后的故障描述字符串和所述分类结构树中每个叶节点路径的分词匹配相似度评分包括:通过jieba分词工具对所述故障描述字符串进行分词,得到分词列表,所述分词列表包括词组列表和词性列表;