本发明涉及数据处理,尤其涉及一种敏感信息检测方法、装置、电子设备及存储介质。
背景技术:
1、大型模型技术作为当今备受关注的人工智能前沿技术,在各个领域展现出了广泛的应用前景。然而,目前大多数大型模型的输出结果在生成之前往往具有不确定性,这意味着结果可能无法预见。直接向用户展示这些输出结果存在一定风险,因为可能会泄露敏感信息,从而导致政策风险或舆论影响的产生,进而可能影响大型模型技术及其相关行业的发展。
2、同时,在大型模型流式输出检测中,存在以下几个主要问题:
3、1.流式输出以字或词为单位,而传统的敏感信息检测通常针对整句或段落进行,直接应用于流式输出时无法满足检测接口的要求。过度切分可能导致语义信息丢失,从而影响检测结果的准确性。如果将大模型全部输出直接进行检测则可能导致用户过久等待,对用户体验影响较大。
4、2.大型模型输出持续不断,为了确保用户体验,需要快速将结果输出到用户页面,而传统的敏感信息检测通常全流程检测逻辑比较复杂,响应速度较慢,无法满足快速响应的需求。
技术实现思路
1、本发明提出一种敏感信息检测方法、装置、电子设备及存储介质,旨在至少在一定程度上解决相关技术中的技术问题之一。
2、一方面,本发明实施例提供了一种敏感信息检测方法,包括:
3、获取目标对象的输入信息,对输入信息进行第一敏感词检测;
4、当第一敏感检测的结果为通过,将输入信息传输到预设的大模型处理得到输出信息;输出信息的形式为流式输出;
5、将流式输出的输出信息依次存放到输出缓存,根据输出缓存中每次的存放内容对输出信息进行语义分段处理,将分段后的输出信息传输到语义切分队列;
6、通过滑动窗口从语义切分队列中获取语义段落,将当前时刻滑动窗口中的语义段落作为目标语义段落;
7、对目标语义段落进行第二敏感词检测;
8、当第二敏感检测的结果为通过,对目标语义段落进行敏感信息检测;
9、当敏感信息检测的结果为通过,将目标语义段落推送给目标对象,将下一时刻滑动窗口中的语义段落作为目标语义段落,然后返回对目标语义段落进行第二敏感词检测这一步骤,直至输出信息对应的所有语义段落都推送给目标对象。
10、可选地,对输入信息进行第一敏感词检测,包括以下至少之一:
11、将输入信息与预设的敏感词库进行遍历匹配;
12、将输入信息传输到预设的敏感词检测工具。
13、可选地,方法还包括以下步骤:
14、当第一敏感检测的结果为不通过,向目标对象发送预置信息。
15、可选地,根据输出缓存中每次的存放内容对输出信息进行语义分段处理,将分段后的输出信息传输到语义切分队列,包括以下步骤:
16、将当前时刻大模型流式输出到输出缓存中的存放内容作为目标内容;
17、对目标内容进行切分符号匹配;
18、当目标内容中不存在切分符号,将目标内容传输到语义切分队列并附加到上一个语义段落的末尾;
19、当目标内容中存在切分符号,基于切分符号在语义切分队列中开启新的语义段落;
20、将下一时刻大模型流式输出到输出缓存中的存放内容作为目标内容,然后返回对目标内容进行切分符号匹配这一步骤,持续对输出信息进行语义分段处理。
21、可选地,对目标语义段落进行敏感信息检测这一步骤前,方法还包括以下步骤:
22、将语义切分队列中目标语义段落之前预设范围的语义段落加入目标语义段落。
23、可选地,方法还包括以下步骤:
24、当第二敏感检测的结果为不通过,根据第二敏感检测的结果确定目标语义段落中的敏感词;
25、对目标语义段落中的敏感词进行脱敏处理,将脱敏处理后的目标语义段落推送给目标对象。
26、可选地,方法还包括以下步骤:
27、当敏感信息检测的结果为不通过,对推送给目标对象的所有语义段落进行显示回滚,进而向目标对象发送预置信息。
28、另一方面,本发明实施例提供了一种敏感信息检测装置,包括:
29、第一模块,用于获取目标对象的输入信息,对输入信息进行第一敏感词检测;
30、第二模块,用于当第一敏感检测的结果为通过,将输入信息传输到预设的大模型处理得到输出信息;输出信息的形式为流式输出;
31、第三模块,用于将流式输出的输出信息依次存放到输出缓存,根据输出缓存中每次的存放内容对输出信息进行语义分段处理,将分段后的输出信息传输到语义切分队列;
32、第四模块,用于通过滑动窗口从语义切分队列中获取语义段落,将当前时刻滑动窗口中的语义段落作为目标语义段落;
33、第五模块,用于对目标语义段落进行第二敏感词检测;
34、第六模块,用于当第二敏感检测的结果为通过,对目标语义段落进行敏感信息检测;
35、第七模块,用于当敏感信息检测的结果为通过,将目标语义段落推送给目标对象,将下一时刻滑动窗口中的语义段落作为目标语义段落,然后返回执行第五模块,直至输出信息对应的所有语义段落都推送给目标对象。
36、可选地,第一模块,具体用于以下至少之一:
37、将输入信息与预设的敏感词库进行遍历匹配;
38、将输入信息传输到预设的敏感词检测工具。
39、可选地,装置还包括:
40、第八模块,当第一敏感检测的结果为不通过,向目标对象发送预置信息。
41、可选地,第三模块具体用于:
42、将当前时刻大模型流式输出到输出缓存中的存放内容作为目标内容;
43、对目标内容进行切分符号匹配;
44、当目标内容中不存在切分符号,将目标内容传输到语义切分队列并附加到上一个语义段落的末尾;
45、当目标内容中存在切分符号,基于切分符号在语义切分队列中开启新的语义段落;
46、将下一时刻大模型流式输出到输出缓存中的存放内容作为目标内容,然后返回对目标内容进行切分符号匹配这一步骤,持续对输出信息进行语义分段处理。
47、可选地,装置还包括:
48、第九模块,用于将语义切分队列中目标语义段落之前预设范围的语义段落加入目标语义段落。第九模块在第六模块执行对目标语义段落进行敏感信息检测这一步骤前执行。
49、可选地,装置还包括:
50、第十模块,用于当第二敏感检测的结果为不通过,根据第二敏感检测的结果确定目标语义段落中的敏感词;
51、第十一模块,用于对目标语义段落中的敏感词进行脱敏处理,将脱敏处理后的目标语义段落推送给目标对象。
52、可选地,装置还包括:
53、第十二模块,用于当敏感信息检测的结果为不通过,对推送给目标对象的所有语义段落进行显示回滚,进而向目标对象发送预置信息。
54、另一方面,本发明实施例提供了一种电子设备,包括:处理器以及存储器;存储器用于存储程序;处理器执行程序实现上述敏感信息检测方法。
55、另一方面,本发明实施例提供了一种计算机存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现上述敏感信息检测方法。
56、本发明实施例通过获取目标对象的输入信息,对输入信息进行第一敏感词检测;当第一敏感检测的结果为通过,将输入信息传输到预设的大模型处理得到输出信息;输出信息的形式为流式输出;将流式输出的输出信息依次存放到输出缓存,根据输出缓存中每次的存放内容对输出信息进行语义分段处理,将分段后的输出信息传输到语义切分队列;通过滑动窗口从语义切分队列中获取语义段落,将当前时刻滑动窗口中的语义段落作为目标语义段落;对目标语义段落进行第二敏感词检测;当第二敏感检测的结果为通过,对目标语义段落进行敏感信息检测;当敏感信息检测的结果为通过,将目标语义段落推送给目标对象,将下一时刻滑动窗口中的语义段落作为目标语义段落,然后返回对目标语义段落进行第二敏感词检测这一步骤,直至输出信息对应的所有语义段落都推送给目标对象。本发明实施例针对输出信息通过持续整理语义段落,进而结合对目标段落的敏感词检测和敏感信息检测实现同步异步相结合的检测方法来满足检测速度与输出速度的不同诉求,本发明实施例能够高效实现敏感信息检测。
1.一种敏感信息检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的敏感信息检测方法,其特征在于,所述对所述输入信息进行第一敏感词检测,包括以下至少之一:
3.根据权利要求1或2所述的敏感信息检测方法,其特征在于,所述方法还包括以下步骤:
4.根据权利要求1所述的敏感信息检测方法,其特征在于,所述根据所述输出缓存中每次的存放内容对所述输出信息进行语义分段处理,将分段后的所述输出信息传输到语义切分队列,包括以下步骤:
5.根据权利要求1所述的敏感信息检测方法,其特征在于,所述对所述目标语义段落进行敏感信息检测这一步骤前,所述方法还包括以下步骤:
6.根据权利要求1所述的敏感信息检测方法,其特征在于,所述方法还包括以下步骤:
7.根据权利要求1至6中任一项所述的敏感信息检测方法,其特征在于,所述方法还包括以下步骤:
8.一种敏感信息检测装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括处理器以及存储器;
10.一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1至7任一项所述的方法。