本技术涉及数据处理,特别是涉及一种数据分类分级方法、装置、设备及计算机可读存储介质。
背景技术:
1、在当前数据安全日益重要的大背景下,建立了数据分类分级分级保护制度,明确要求各行业和各部门对数据进行分类分级管理。
2、然而,目前大多采用正则表达式、关键词匹配方法,或基于专家标注的数据训练分类模型的方式进行分类分级。这些方法需要依赖有经验的人员进行规则和关键词的积累,或者提供标注的训练集。由于不同行业的分类分级框架各不相同,所以不同行业的规则和训练数据都不同,从而导致投入大,分类分级数据量庞大,如果仅依靠人工积累规则或标注训练集,资源投入巨大,且周期较长。对人员要求高,要求人员既要熟悉业务,又要了解数据分类分级标准及规范。高度依赖数据治理成果,如果客户未开展元数据治理、数据标准治理等工作,分类分级效果并不理想。
3、综上所述,如何有效地解决目前的数据分类分级方法资源投入巨大,周期长,对人员要求高,高度依赖数据治理成果等问题,是目前本领域技术人员急需解决的问题。
技术实现思路
1、本技术的目的是提供一种数据分类分级方法,该方法提高了分类结果的准确性,有效减少了对人工规则和标注的依赖,较大地节省成本,显著提升了数据分类分级的效率;本技术的另一目的是提供一种数据分类分级装置、设备及计算机可读存储介质。
2、为解决上述技术问题,本技术提供如下技术方案:
3、一种数据分类分级方法,包括:
4、接收待分类字段,并获取所述待分类字段对应的目标行业数据分类分级框架;
5、获取所述目标行业数据分类分级框架中最顶层级子类包含的各最顶层级分类标签和各最顶层级分类标签分别对应的最顶层分类描述;
6、利用大模型根据所述待分类字段、各最顶层级分类标签和各最顶层分类描述对所述待分类字段进行分类,得到当前层分类标签;
7、获取所述当前层分类标签对应的各下一层级子类分别对应的下一层级分类标签,并获取各下一层级分类标签分别对应的下一层级分类描述;
8、利用所述大模型根据所述待分类字段、所述当前层分类标签、各下一层级分类标签和各下一层级分类描述对所述待分类字段进行分类,得到目标下一层级分类标签;
9、将所述当前层分类标签和所述目标下一层级分类标签进行拼接,得到新的当前层分类标签,并重复执行所述获取所述当前层分类标签对应的各下一层级子类分别对应的下一层级分类标签的步骤直至不存在下一层级子类,则将所述当前层分类标签确定为所述待分类字段对应的数据分类结果;
10、根据所述目标行业数据分类分级框架和所述数据分类结果进行分级映射,得到数据分级结果。
11、在本技术的一种具体实施方式中,包括:
12、接收包含数据源、数据库名称、表名、表注释、字段名、字段注释、字段样例内容的待分类字段;其中,所述表名和所述字段名非空。
13、在本技术的一种具体实施方式中,利用所述大模型根据所述待分类字段、所述当前层分类标签、各下一层级分类标签和各下一层级分类描述对所述待分类字段进行分类,包括:
14、获取所述待分类字段对应的同表字段;
15、将所述同表字段确定为所述待分类字段的背景字段;
16、利用所述大模型根据所述待分类字段、所述当前层分类标签、各下一层级分类标签、各下一层级分类描述和所述背景字段对所述待分类字段进行分类。
17、在本技术的一种具体实施方式中,在得到数据分级结果之后,还包括:
18、根据所述数据分级结果确定所述待分类字段对应的目标权限保护措施;
19、利用所述目标权限保护措施对所述待分类字段进行数据保护。
20、在本技术的一种具体实施方式中,将所述当前层分类标签确定为所述待分类字段对应的数据分类结果,包括:
21、获取当前层分类标签对应的分类说明,将所述分类说明与所述当前层分类标签进行拼接,得到新的当前层分类标签;
22、将所述当前层分类标签确定为所述待分类字段对应的数据分类结果。
23、一种数据分类分级装置,包括:
24、分类分级框架获取模块,用于接收待分类字段,并获取所述待分类字段对应的目标行业数据分类分级框架;
25、第一标签及描述获取模块,用于获取所述目标行业数据分类分级框架中最顶层级子类包含的各最顶层级分类标签和各最顶层级分类标签分别对应的最顶层分类描述;
26、当前层分类标签获得模块,用于利用大模型根据所述待分类字段、各最顶层级分类标签和各最顶层分类描述对所述待分类字段进行分类,得到当前层分类标签;
27、第二标签及描述获取模块,用于获取所述当前层分类标签对应的各下一层级子类分别对应的下一层级分类标签,并获取各下一层级分类标签分别对应的下一层级分类描述;
28、下一层级分类标签获得模块,用于利用所述大模型根据所述待分类字段、所述当前层分类标签、各下一层级分类标签和各下一层级分类描述对所述待分类字段进行分类,得到目标下一层级分类标签;
29、分类结果获得模块,用于将所述当前层分类标签和所述目标下一层级分类标签进行拼接,得到新的当前层分类标签,并重复执行所述获取所述当前层分类标签对应的各下一层级子类分别对应的下一层级分类标签的步骤直至不存在下一层级子类,则将所述当前层分类标签确定为所述待分类字段对应的数据分类结果;
30、分级结果获得模块,用于根据所述目标行业数据分类分级框架和所述数据分类结果进行分级映射,得到数据分级结果。
31、在本技术的一种具体实施方式中,下一层级分类标签获得模块包括:
32、同表字段获取子模块,用于获取所述待分类字段对应的同表字段;
33、背景字段确定子模块,用于将所述同表字段确定为所述待分类字段的背景字段;
34、字段分类子模块,用于利用所述大模型根据所述待分类字段、所述当前层分类标签、各下一层级分类标签、各下一层级分类描述和所述背景字段对所述待分类字段进行分类。
35、在本技术的一种具体实施方式中,分类结果获得模块包括:
36、分类标签拼接子模块,用于获取当前层分类标签对应的分类说明,将所述分类说明与所述当前层分类标签进行拼接,得到新的当前层分类标签;
37、分类结果获得子模块,用于将所述当前层分类标签确定为所述待分类字段对应的数据分类结果。
38、一种数据分类分级设备,包括:
39、存储器,用于存储计算机程序;
40、处理器,用于执行所述计算机程序时实现如前所述数据分类分级方法的步骤。
41、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述数据分类分级方法的步骤。
42、本技术所提供的数据分类分级方法,接收待分类字段,并获取待分类字段对应的目标行业数据分类分级框架;获取目标行业数据分类分级框架中最顶层级子类包含的各最顶层级分类标签和各最顶层级分类标签分别对应的最顶层分类描述;利用大模型根据待分类字段、各最顶层级分类标签和各最顶层分类描述对待分类字段进行分类,得到当前层分类标签;获取当前层分类标签对应的各下一层级子类分别对应的下一层级分类标签,并获取各下一层级分类标签分别对应的下一层级分类描述;利用大模型根据待分类字段、当前层分类标签、各下一层级分类标签和各下一层级分类描述对待分类字段进行分类,得到目标下一层级分类标签;将当前层分类标签和目标下一层级分类标签进行拼接,得到新的当前层分类标签,并重复执行获取当前层分类标签对应的各下一层级子类分别对应的下一层级分类标签的步骤直至不存在下一层级子类,则将当前层分类标签确定为待分类字段对应的数据分类结果;根据目标行业数据分类分级框架和数据分类结果进行分级映射,得到数据分级结果。
43、由上述技术方案可知,通过采用大模型提示工程技术,先进行字段具体含义推理,然后进行分层多步分类,并通过将各层对应的分类标签进行拼接得到最终的数据分类结果。通过分层分类的方式,避免一次性分类标签太多,以及由各层分类描述构成的提示词上下文太长导致分类结果不准确等问题,提高了分类结果的准确性。基于大模型强大的内置知识、泛化能力和理解能力,使其可以适配不同行业的数据分类分级需求,并且不需要随着不同行业分类分级框架变化而重复训练。有效减少了对人工规则和标注的依赖,较大地节省成本,显著提升了数据分类分级的效率。
44、相应的,本技术还提供了与上述数据分类分级方法相对应的数据分类分级装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
1.一种数据分类分级方法,其特征在于,包括:
2.根据权利要求1所述的数据分类分级方法,其特征在于,接收待分类字段,包括:
3.根据权利要求1或2所述的数据分类分级方法,其特征在于,利用所述大模型根据所述待分类字段、所述当前层分类标签、各下一层级分类标签和各下一层级分类描述对所述待分类字段进行分类,包括:
4.根据权利要求1所述的数据分类分级方法,其特征在于,在得到数据分级结果之后,还包括:
5.根据权利要求1所述的数据分类分级方法,其特征在于,将所述当前层分类标签确定为所述待分类字段对应的数据分类结果,包括:
6.一种数据分类分级装置,其特征在于,包括:
7.根据权利要求6所述的数据分类分级装置,其特征在于,下一层级分类标签获得模块包括:
8.根据权利要求6所述的数据分类分级装置,其特征在于,分类结果获得模块包括:
9.一种数据分类分级设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述数据分类分级方法的步骤。