本发明涉及自然语言处理,具体涉及一种问答知识库系统的知识处理方法、装置、设备及介质。
背景技术:
1、问答知识库系统是一种基于知识库的自然语言处理技术,它可以接收用户的自然语言问题,并从知识库中搜索出符合用户需求的答案。
2、现有的实现搜索的方案,通常都是基于知识分片、分块、向量化之后的内容。具体来说,分片是将原始知识库拆分为若干个独立、较短的知识点,每个知识点会作为问答的最小记录,在回答问题时与问题进行匹配;分块的范围概念大一些,例如异地医保的规定包括若干细则,像异地医保报销流程、异地医保报销比例、异地医保报销范围、异地医保需要提交的材料等,假设这些细则是最小知识点,那么异地医保汇总成一个大的分块即分块,在提问者提问异地医保问题时一并给出。
3、传统问答知识库系统中,将知识拆分成固定的分块,如果拆分得过小,则回答可能不全面,如果拆分太大,可能包含冗余信息,影响搜索效率和准确度。
技术实现思路
1、有鉴于此,本发明提供了一种问答知识库系统的知识处理方法、装置、设备及介质,能够有效提高搜索的效率、准确性和全面性。
2、第一方面,本发明提供了一种问答知识库系统的知识处理方法,该方法包括:
3、获取问答知识库系统所包含的全部知识,将获取的所述知识进行分片处理得到多个知识分片;
4、使用预设的文本相似性算法计算每两个所述知识分片之间的相似度,并将计算所得的每个所述相似度分别与预设的相似度阈值进行比对;
5、确定任一大于所述相似度阈值的所述相似度为目标相似度,并将计算所述目标相似度所基于的两个所述知识分片放入同一个知识分块中,实现对所述知识的分块处理。
6、本发明提供的一种问答知识库系统的知识处理方法,具有如下优点:
7、本发明不同于传统的问答知识库系统中将知识拆分成固定的分块,而是利用文本相似度算法计算不同分片之间的相似度,进而根据不同的分片之间的相似度动态地进行分块,使得每个分块内所包含的分片相关性较高,每个分块内的信息尽可能完整,有效提高了搜索的效率、准确性和全面性。
8、在一种可选的实施方式中,将计算所述目标相似度所基于的两个所述知识分片放入同一个知识分块中之前,还包括:
9、依次确定计算所述目标相似度所基于的两个所述知识分片中的每个所述知识分片分别为当前知识分片;
10、如果当前知识分片仅与一个其他知识分片之间的相似度大于所述相似度阈值,则执行将计算所述目标相似度所基于的两个所述知识分片放入同一个知识分块中的步骤,否则,确定基于当前知识分片计算所得全部相似度中的最大值,并将当前知识分片及计算该最大值时所基于的另一个所述知识分片放入同一个知识分块中。
11、在一种可选的实施方式中,还包括:
12、在将所述知识分片放入所述知识分块的过程中,如果任一所述知识分块中所包含的所述知识分片的数量达到相应的容量阈值,则确定该任一所述知识分块已经分块完成,并禁止再向该任一所述知识分块中放入所述知识分片。
13、在一种可选的实施方式中,还包括:
14、在将所述知识分片放入所述知识分块的过程中,如果计算任一大于所述相似度阈值的相似度时所基于的两个所述知识分片无法放入同一知识分块中,则基于优先将该任一大于所述相似度阈值的相似度时所基于的两个所述知识分片放在相邻位置的原则,实现对相应知识分片的放置。
15、在一种可选的实施方式中,所述预设的文本相似性算法具体为tf-idf及词频向量的余弦相似性算法。
16、在一种可选的实施方式中,实现对所述知识的分块处理之后,还包括:
17、确定搜索命中的知识分片为指定的知识分片,基于滑动窗口由所述指定的知识分片开始分别向前、向后滑过指定数量的知识分片,并将所述指定的知识分片及滑动到的所述知识分片均作为搜索结果进行反馈。
18、在一种可选的实施方式中,基于滑动窗口由所述指定的知识分片开始分别向前、向后滑过指定数量的知识分片之前,还包括:
19、接收窗口调整指令,并响应所述窗口调整指令,将所述滑动窗口调整成相应的值;其中,所述滑动窗口的值为所述滑动窗口单次可滑过的知识分片数量。
20、第二方面,本发明提供了一种问答知识库系统的知识处理装置,该装置包括:
21、分片模块,用于:获取问答知识库系统所包含的全部知识,将获取的所述知识进行分片处理得到多个知识分片;
22、计算模块,用于:使用预设的文本相似性算法计算每两个所述知识分片之间的相似度,并将计算所得的每个所述相似度分别与预设的相似度阈值进行比对;
23、分块模块,用于:确定任一大于所述相似度阈值的所述相似度为目标相似度,并将计算所述目标相似度所基于的两个所述知识分片放入同一个知识分块中,实现对所述知识的分块处理。
24、本发明提供的一种问答知识库系统的知识处理装置,具有如下优点:
25、本发明不同于传统的问答知识库系统中将知识拆分成固定的分块,而是利用文本相似度算法计算不同分片之间的相似度,进而根据不同的分片之间的相似度动态地进行分块,使得每个分块内所包含的分片相关性较高,每个分块内的信息尽可能完整,有效提高了搜索的效率、准确性和全面性。
26、第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的问答知识库系统的知识处理方法。
27、第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的问答知识库系统的知识处理方法。
1.一种问答知识库系统的知识处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,将计算所述目标相似度所基于的两个所述知识分片放入同一个知识分块中之前,还包括:
3.根据权利要求2所述的方法,其特征在于,还包括:
4.根据权利要求3所述的方法,其特征在于,还包括:
5.根据权利要求4所述的方法,其特征在于,所述预设的文本相似性算法具体为tf-idf及词频向量的余弦相似性算法。
6.根据权利要求1至5中任一项所述的方法,其特征在于,实现对所述知识的分块处理之后,还包括:
7.根据权利要求6所述的方法,其特征在于,基于滑动窗口由所述指定的知识分片开始分别向前、向后滑过指定数量的知识分片之前,还包括:
8.一种问答知识库系统的知识处理装置,其特征在于,包括:
9.一种计算机设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的问答知识库系统的知识处理方法。
