一种反欺诈模型在线学习系统的制作方法

    专利查询2022-07-07  199



    1.本发明属于互联网金融行业的风控技术领域,尤其涉及一种反欺诈模型在线学习系统。


    背景技术:

    2.在信贷业务上,通过伪冒他人身份(歪曲事实)或隐藏欺诈者还款意愿为零这一事实(隐瞒事实),来诱使平台认为这个人愿意还款(错误认识) 的行为是典型的欺诈。欺诈不同于寻常逾期,一旦发生,催回概率很低,故造成的损失也较大。
    3.常规反欺诈策略一般是强规则,上线成本较低,但粗糙且不灵活,误杀 概率较高。另外,反欺诈策略还有采用机器学习模型进行风险预测的,但目 前采用这种方式的,模型缺乏快速调整能力,一但业务环境变化,模型预测 准确率会直线下降。


    技术实现要素:

    4.本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种反欺诈模型在线学习系统,可以根据线上反馈的数据,实时快速地进行模型调整,使得模型及时反映线上的变化,提高线上预测的准确率。
    5.为解决上述技术问题,本发明采用的技术方案是:一种反欺诈模型在线学习系统,包括初始化模块、反馈迭代模块、输入模块和数据处理模块;
    6.所述初始化模块,用于对反欺诈模型进行初始化;
    7.所述反馈迭代模块,用于对样本数据打标签,并利用打完标签的样本数据对反欺诈模型进行训练;
    8.所述输入模块,用于采集客户数据;
    9.所述数据处理模块,用于将输入模块采集的客户数据预处理为样本数据,并将样本数据发送至反馈迭代模块。
    10.上述反欺诈模型在线学习系统,还包括输出模块;
    11.所述输出模块,用于将数据处理模块预处理得到的样本数据输入训练完成的反欺诈模型中,输出预测结果。
    12.上述反欺诈模型在线学习系统,还包括前端使用模块,所述前端使用模块,用于对预测结果进行应用。
    13.上述反欺诈模型在线学习系统,所述反欺诈模型为logistic算法模型;训练时,采用随机梯度下降法优化损失函数。
    14.上述反欺诈模型在线学习系统,所述logistic算法模型为h(x)为模型预测值,θ
    t
    为拟合参数集,x为样本数据特征值。
    15.本发明与现有技术相比具有以下优点:本发明可以根据线上反馈的数据,实时快速地进行模型调整,使得模型及时反映线上的变化,提高线上预测的准确率。
    16.下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
    附图说明
    17.图1为本发明的系统架构图。
    18.图2为sigmoid阶跃函数图像。
    19.图3为随机梯度优化流程图。
    具体实施方式
    20.如图1所示,本发明一种反欺诈模型在线学习系统,包括初始化模块100、反馈迭代模块200、输入模块300和数据处理模块400;
    21.所述初始化模块100,用于对反欺诈模型进行初始化;
    22.需要说明的是,初始化模块100,用于选择入模变量,设定回归系数,从而初始化模型。在业务冷启动阶段,由于没有历史样本数据训练模型,可以先通过专家业务经验,以及对那些常规黑产的了解,从已有内部基础数据和外部三方数据中衍生并选择一系列显著入模变量,回归系数可以先暂时统一设置为定值(比如1)。
    23.所述反馈迭代模块200,用于对样本数据打标签,并利用打完标签的样本数据对反欺诈模型进行训练;
    24.需要说明的是,反馈迭代模块200,用于人工给样本数据打标签,从而迭代反欺诈模型。由于欺诈业务的特殊性,不可以用简单的逾期天数确定,一般需要每天由催收同事,根据贷后表现(首逾、失联等),结合其业务经验,给客户打标签,判断是否欺诈,后台一般0\1编码,然后系统基于输入模块300采集到的该客户数据特征,用随机梯度下降法,自动更新反欺诈模型的回归系数。
    25.所述输入模块300,用于采集客户数据;
    26.需要说明的是,输入模块300,用于客户数据的采集,为模型预测做 准备。客户申请时,在电脑网页或手机app上填写系统规定所需的资料(如 工作、收入、家庭等方面),再通过层层验证(比如用银行流水验证收入、 用人脸识别进行本人验证等),也可以通过在各个阶段页面埋点,获得客 户的部分行为数据(比如在某些重要页面的停留时间等),然后经过客户 本人授权,通过接口调用外部三方数据来对客户进行各个维度特征的补 充。
    27.所述数据处理模块400,用于将输入模块300采集的客户数据预处理为样本数据,并将样本数据发送至反馈迭代模块200。
    28.需要说明的是,数据处理模块400,用于执行数据预处理及加工操作。输入模块300数据收集完成之后,先进行简单的异常值、缺失值处理,然后系统后台自动基于初始化时的衍生操作,生成反欺诈模型所需要的特征变量作为样本数据。
    29.本实施例中,反欺诈模型在线学习系统还包括输出模块500;
    30.所述输出模块500,用于将数据处理模块400预处理得到的样本数据输入训练完成的反欺诈模型中,输出预测结果。
    31.需要说明的是,输出模块500根据数据处理模块400生成的样本数据,代入模型反欺诈模型h(x)中,即可得出模型对该客户的预测欺诈概率,反馈到前端使用模块600。
    32.本实施例中,反欺诈模型在线学习系统还包括前端使用模块600,所述前端使用模
    块600,用于对预测结果进行应用。
    33.需要说明的是,前端使用模块600可以是前端显示页面模块,还可以是其他可利用预测结果的外部系统。
    34.实际使用时,预测结果仅提供给贷前信审同事参考;后期随着不断数据反馈进行梯度迭代,模型趋于稳定,监控一段时间并经过评估后,产出的预测结果可直接用于贷前准入规则。
    35.本实施例中,所述反欺诈模型为logistic算法模型;训练时,采用随机梯度下降法优化损失函数。
    36.本实施例中,所述logistic算法模型为h(x)为模型预测值,θ
    t
    为拟合参数集,x为样本数据特征值。
    37.需要说明的是,反欺诈模型,主要用到logistic算法,下面简单介绍一下这个算法的主要思想:根据现有数据,对分类边界线建立回归方程 (用一条直线对数据点进行拟合的过程),然后使用最优化算法,找到最佳拟合参数集θ
    t

    38.本实施例中把这个回归方程代入sigmoid阶跃函数中,具体函数图像见附图1,最后得到一个范围处于[0,1]之间的数值,可以简单地把大于0.5归于1类,小于0.5归于0类,所以logistic算法也被看成一个概率估计。需要说明的是,原先是线性函数,值域为负无穷到正无穷,不能用于最后的二分类预测结果;代入阶跃函数后,值域变成0到1之间的一个概率值,可以用这个概率来预测好坏。
    [0039]
    我们这里先把数据真实标签记为y,模型预测值h(x)记为则 logistic算法的损失函数可以表示为:然后我们利用梯度下降法优化这个损失函数,即沿着函数梯度方向设置步长α(不要太大),得出的优化函数:每移动一步再重新计算梯度方向,如此循环迭代,直至迭代次数达到某个指定值或算法达到某个可以允许的误差范围。
    [0040]
    常规批量梯度下降法(bgd),针对的是整个数据集,通过对所有样本的计算来求解梯度的方向。本发明的优化算法,采用随机梯度下降(sgd),每次针对一个样本,可以在新样本到来时,求解梯度,对分类器进行增量式参数更新,不需要重新读取整个数据集进行批处理运算,对模型进行一种在线学习,更加符合反欺诈的业务需求模式。具体操作流程参见附图3。
    [0041]
    以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。
    转载请注明原文地址:https://tc.8miu.com/read-581.html

    最新回复(0)