本说明书实施例涉及计算机,尤其是一种规则生成方法、装置、设备、存储介质及产品。
背景技术:
1、规则是决策的重要手段和工具,随着决策智能化的发展,如何使用智能化的方法基于数据的统计分析结果生成高质量的规则用于决策,是智能化决策的重要发展方向。在众多的建模应用实践中,规则化的模型输出由于其易于解释、易于落地而受到业务应用的欢迎,在风控等多个方向都有广泛应用,例如在信用卡白名单客户如何选取,活动客户名单如何筛选等场景上,基于规则的筛选方法可解释性强、落地部署快捷。
2、基于不同的模型,可以有不同的规则自动化抽取方法,目前常见的规则生成方法是在决策树模型的基础上对海量数据进行分析,依据一定的标准来抽取规则,然而该方法的不足之处在于基于海量数据进行规则生成存在计算复杂度大,且难以确保抽取出的规则的最优性。因此,亟需一种最优规则生成方法能在生成最优规则的同时减小计算复杂度。
技术实现思路
1、针对现有技术的上述问题,本说明书实施例的目的在于,提供一种规则生成方法、装置、设备、存储介质及产品,以解决现有技术中规则生成计算复杂度大且难以生成最优规则的问题。
2、为了解决上述技术问题,本说明书实施例的具体技术方案如下:
3、一方面,本说明书实施例提供一种规则生成方法,所述方法包括:
4、获取数据集,所述数据集包括目标变量和若干自变量;
5、对每一自变量进行分箱编码,得到每一自变量的分箱结果;
6、根据所述自变量的分箱结果对所述自变量进行筛选,得到筛选后的自变量;
7、基于所述筛选后的自变量的分箱结果对所述筛选后的自变量进行组合得到若干候选自变量组合;
8、对所述筛选后的每一自变量的每一分箱在不同目标变量取值下的样本数进行统计,得到每一自变量的每一分箱的初始样本统计结果;
9、根据所述每一自变量的每一分箱的初始样本统计结果,计算得到每一所述候选自变量组合在不同目标变量取值下的最终样本统计结果;
10、根据所述候选自变量组合在不同目标变量取值下的最终样本统计结果,计算得到每一所述候选自变量组合的f评分指标值,将所述f评分指标值最大的候选自变量组合确定为最优规则。
11、进一步地,所述对每一自变量进行分箱编码,得到每一自变量的分箱结果,包括:
12、判断所述自变量的类型,所述类型包括连续型和离散型;
13、若所述自变量为连续型,则根据所述自变量的取值将所述自变量划分为预设数目个区间,将每一区间作为一个分箱,根据每一分箱中目标变量在不同取值下的样本数计算每一分箱的证据权重值,将每一分箱的证据权重值作为每一分箱的特征值;
14、若所述自变量为离散型,则根据所述自变量的取值确定所述自变量的分箱类别,根据每一分箱中目标变量在不同取值下的样本数计算每一分箱的证据权重值,将每一分箱的证据权重值作为每一分箱的特征值。
15、进一步地,所述根据所述自变量的分箱结果对所述自变量进行筛选,包括:
16、对所述每一自变量中每一分箱的特征值进行加权求和得到每一自变量的信息值;
17、将所述信息值小于预设阈值的自变量进行剔除,得到第一自变量集合;
18、计算所述第一自变量集合中每两个自变量之间的相关系数,筛选相关系数大于预设值的自变量对;
19、将每一所述自变量对中信息值较小的自变量剔除,得到第二自变量集合。
20、进一步地,所述基于所述筛选后的自变量的分箱结果对所述筛选后的自变量进行组合得到若干候选自变量组合,包括:
21、根据所述筛选后的自变量的分箱结果确定所述筛选后的自变量的特征列表;
22、按照预设最大自变量数量,对所述筛选后的自变量的特征列表中的特征进行组合,将每一组合结果作为一个候选自变量组合。
23、进一步地,所述根据所述每一自变量的每一分箱的初始样本统计结果,计算得到每一所述候选自变量组合在不同目标变量取值下的最终样本统计结果,包括:
24、确定每一所述候选自变量组合中自变量的逻辑关系;
25、根据所述逻辑关系对初始样本统计结果进行逻辑运算,得到每一所述候选自变量组合在不同目标变量取值下的最终样本统计结果。
26、进一步地,所述根据所述候选自变量组合在不同目标变量取值下的最终样本统计结果,计算得到每一所述候选自变量组合的f评分指标值,包括:
27、根据所述候选自变量组合在不同目标变量取值下的最终样本统计结果获取候选自变量组合中正确预测为预设目标变量取值的第一样本数和目标变量取值为预设目标变量取值的第二样本数;
28、从所述数据集中获取所述目标变量取值为预设目标变量取值的第三样本数;
29、根据所述第一样本数、第二样本数和第三样本数计算得到每一所述候选自变量组合的f评分指标值。
30、进一步地,所述根据所述第一样本数、第二样本数和第三样本数计算得到每一所述候选自变量组合的f评分指标值,包括:
31、利用如下公式计算每一所述候选自变量组合的f评分指标值:
32、
33、其中,
34、其中,s为f评分指标值,p为精确率,r为召回率,ncor为第一样本数,ncov为第二样本数,ntar为第三样本数,β为调节权重。
35、另一方面,本说明书实施例提供了一种规则生成装置,所述装置包括:
36、获取模块,用于获取数据集,所述数据集包括目标变量和若干自变量;
37、分箱模块,用于对每一自变量进行分箱编码,得到每一自变量的分箱结果;
38、筛选模块,用于根据所述自变量的分箱结果对所述自变量进行筛选,得到筛选后的自变量;
39、组合模块,用于基于所述筛选后的自变量的分箱结果对所述筛选后的自变量进行组合得到若干候选自变量组合;
40、第一统计模块,用于对所述筛选后的每一自变量的每一分箱在不同目标变量取值下的样本数进行统计,得到每一自变量的每一分箱的初始样本统计结果;
41、第二统计模块,用于根据所述每一自变量的每一分箱的初始样本统计结果,计算得到每一所述候选自变量组合在不同目标变量取值下的最终样本统计结果;
42、最优规则确定模块,用于根据所述候选自变量组合在不同目标变量取值下的最终样本统计结果,计算得到每一所述候选自变量组合的f评分指标值,将所述f评分指标值最大的候选自变量组合确定为最优规则。
43、又一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述任意一项所述方法的指令。
44、又一方面,本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述任意一项所述方法的指令。
45、又一方面,本说明书实施例还提供了一种计算机程序产品,所述计算机程序产品被计算机设备的处理器运行时,执行上述任意一项所述方法的指令。
46、采用上述技术方案,本说明书实施例提供的规则生成方法,能够根据自变量的分箱结果对自变量进行筛选,以剔除不相关或冗余的自变量,从而减少后续形成候选自变量组合时的自变量数,之后先对每一自变量的每一分箱再不同目标变量取值下的样本数进行预计算后,再根据每一自变量的每一分箱的初始样本统计结果,计算得到每一候选自变量组合在不同目标变量取值下的最终样本统计结果,由此,通过预计算可减少后续计算候选自变量组合的样本统计结果时的计算次数和计算复杂度,在计算候选自变量组合的样本数时仅需基于初始样本统计结果进行简单组合即可得到。此外,通过计算每一候选自变量组合的f评分指标值,将f评分指标值最大的候选自变量组合确定为最优规则,由此,可确保在有限的自变量组合中选出评分指标最优的组合,从而确定最优规则。
47、上述说明仅是本说明书的一些实施例技术方案的概述,为了能够更清楚了解本说明书的一些实施例的技术手段,而可依照说明书的内容予以实施,并且为让本说明书实施例的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
1.一种规则生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对每一自变量进行分箱编码,得到每一自变量的分箱结果,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述自变量的分箱结果对所述自变量进行筛选,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述筛选后的自变量的分箱结果对所述筛选后的自变量进行组合得到若干候选自变量组合,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述每一自变量的每一分箱的初始样本统计结果,计算得到每一所述候选自变量组合在不同目标变量取值下的最终样本统计结果,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述候选自变量组合在不同目标变量取值下的最终样本统计结果,计算得到每一所述候选自变量组合的f评分指标值,包括:
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一样本数、第二样本数和第三样本数计算得到每一所述候选自变量组合的f评分指标值,包括:
8.一种规则生成装置,其特征在于,所述装置包括:
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的方法。
11.一种计算机程序产品,其特征在于,包括至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7任意一项所述的方法。
