一种基于网络大数据的信用风险预警评分方法与流程

    专利查询2022-07-09  123



    1.本发明涉及大数据处理与分析技术领域,具体为一种基于网络大数据的信用风险预警评分方法。


    背景技术:

    2.传统的用户信用评估主要是以金融信贷为背景的研究方法,例如通过logist回归模型结合专家规则对信贷风险进行评分建模,然而这些信贷研究主要侧重于用户单一的金融还贷能力,较少考虑用户在互联网平台中复杂的建模情况。
    3.用互联网平台得到的用户多源异构数据,从多方面刻画出用户信用特征,是互联网用户信用评估方法需要解决的难点。但在已有的互联网用户信用评估的研究工作中,忽略了用户属性在信用评估中不同层次结构的重要程度的刻画。


    技术实现要素:

    4.本发明的目的在于提供一种基于网络大数据的信用风险预警评分方法,以解决上述背景技术中提出为了体现用户属性层次结构关系,如何对用户属性构建具有不同层次结构的用户信用画像;如何在多层次结构的用户信用画像中,挖掘出不同粒度属性的重要程度的问题。
    5.为实现上述目的,本发明提供如下技术方案:
    6.一种基于网络大数据的信用风险预警评分方法,包括以下步骤:
    7.基于网络数据构建失信企业的信用风险评估体系;
    8.基于网络数据构建失信企业的指标体系;
    9.构建层级用户画像构建并进行数据向量化处理;
    10.利用所述网络数据根据注意力机制的深度学习模型的算法对基于注意力机制的深度学习模型进行训练;
    11.基于注意力值进行失信主体信用风险评级。
    12.进一步而言,所述信用风险评估体系包括3项一级维度和18项二级维度,所述3项一级维度包括经营者风险、企业经营风险和外部支持风险;所述18项二级维度包括企业经营者失信被执行信息、企业主限制高消费信息、企业主个人舆情、企业主个人诉讼信息、企业工商信息、税务,分支机构、主要成员、股东信息、变更信息、企业舆情信息、裁判文书、企业被执行信息、法院公告、开庭公告、司法拍卖、异常信息和双随机。
    13.企业经营者失信被执行信息的量化数据是企业主失信被执行记录的次数,数据来源中国执行信息公开网;企业主限制高消费信息是企业主被限制高消费状态来判定,数据来源中国执行信息公开网;企业主个人舆情信息可以由近3年个人新闻的正负情绪新闻的数量组成,数据来源百度新闻及新华网新闻网;企业主个人诉讼信息由企业主作为被告的诉讼次数及败诉次数来量化,数据来源是人民法院公告网;企业工商信息由注册资本金额来量化,数据来源国家企业信用公式系统;分支机构、主要成员、股东信息、变更信息都可以
    由本身的数量来进行量化,数据来源国家企业信用公式系统;企业舆情信息由正面新闻和负面新闻的数量来进行量化,数据来源百度新闻及新华网新闻网;裁判文书的量化数据是裁判文书数量,数据来源判决文书网;企业被执行信息由企业被执行信息数量来量化,数据来源中国执行信息公开网;法院公告由涉及企业的法院公告数量量化,数据来源人民法院公告网;开庭公告由涉及企业的开庭公告进行量化,数据来源人民法院公告网;司法拍卖由涉及企业的司法拍卖数量来量化,数据来源人民法院诉讼资产网;异常信息由企业异常信息数量来量化,数据来源国家企业信用公示系统;行政处罚由其数量来量化,数据来源国家企业信用公示系统。
    14.进一步而言,在构建层级用户画像时,首先将数据集的用户属性根据属性划分标准,共得到3个粗粒度标签,建立了用户在用户信用方面的3个特征维度,将属性划分到相关的粗粒度级的特征维度集合中,建立细粒度级的用户属性,从而构建出层级的用户信用画像。
    15.进一步而言,对数据进行向量化处理时,进一步按照属性值的特点,将用户属性分别按照类别特征和连续值特征进行向量化转化,转化成统一的特征向量。
    16.进一步而言,所述网络数据的获得都是采用每天一频次的更新爬取的数据。
    17.进一步而言,所述注意力机制的深度学习模型的算法包括以下步骤:
    18.对所述网络数据通过one-hot编码,将数据向量化;
    19.设计细粒度级的属性注意力层;
    20.设计粗粒度级的维度注意力层;
    21.失信风险等级计算。
    22.进一步而言,对数据向量化时,根据时间段或违法类型的次数等进行特征分类,对离散特征进行onehot编码,将多值属性进行类别函数转换,形成特征向量;对连续特征,进行woe分箱编码,形成特征向量。
    23.进一步而言,所述细粒度级的属性注意力层计算包括以下步骤:
    24.1)将所述特征向量x
    l
    细粒度表示为
    25.计算注意力值
    26.其中w
    li
    ,b1是训练时的参数,是tanh函数;
    27.2)将1)规范化,得到特征向量组x
    l
    中第i个细粒度标签的注意力权重
    28.3)根据1)2)得到特征向量x
    l
    的向量表征
    29.进一步而言,所述粗粒度级的维度注意力层计算包括以下步骤:
    30.1)表示粗粒度标签集合的大小,特征维度l的注意力值设为其中w
    2l
    ,b2是训练时的参数;
    31.2)规范化注意力权重
    32.3)每个粗粒度标签的信用值β(m,l)后,注意力层级向量表示为
    33.进一步而言,所述失信风险等级计算包括以下步骤:
    34.1)通过多个mlp连接层来捕捉特征之间的交互信息,到高阶信息
    35.2)经过mlp层后通过softmax函数对信用等级进行评估神经网络参数,r是全连接层学习到的特征。
    36.与现有技术相比,本发明的有益效果是:
    37.针对失信企业,构建“经营者风险 企业经营风险 外部支持风险”的信用风险评价指标体系;并通过网络爬虫爬取相应的网络数据,并通过自然语言技术抽取相依的信息,转换为数值数据;通过网络抓取的数据源,建立注意力机制的深度学习模型风险评分模型;基于注意力机制的深度学习模型,针对3项一级维度和18项二级维度进行有效区分和计算,精度和查全率优于之前方法。
    附图说明
    38.图1为本发明基于网络大数据的信用风险预警评分模型的框架图;
    39.图2为本发明的信用风险评估体系结构图;
    具体实施方式
    40.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
    41.请参阅图1-2,本发明提供一种技术方案:
    42.一种基于网络大数据的信用风险预警评分方法,包括以下步骤:
    43.基于网络数据构建失信企业的信用风险评估体系;
    44.基于网络数据构建失信企业的指标体系;
    45.构建层级用户画像构建并进行数据向量化处理;
    46.利用所述网络数据根据注意力机制的深度学习模型的算法对基于注意力机制的深度学习模型进行训练;
    47.基于注意力值进行失信主体信用风险评级。
    48.本发明中,信用风险评估体系包括3项一级维度和18项二级维度,3项一级维度包
    括经营者风险、企业经营风险和外部支持风险;18项二级维度包括企业经营者失信被执行信息、企业主限制高消费信息、企业主个人舆情、企业主个人诉讼信息、企业工商信息、税务,分支机构、主要成员、股东信息、变更信息、企业舆情信息、裁判文书、企业被执行信息、法院公告、开庭公告、司法拍卖、异常信息和双随机。
    49.企业经营者失信被执行信息的量化数据是企业主失信被执行记录的次数,数据来源中国执行信息公开网;企业主限制高消费信息是企业主被限制高消费状态来判定,数据来源中国执行信息公开网;企业主个人舆情信息可以由近3年个人新闻的正负情绪新闻的数量组成,数据来源百度新闻及新华网新闻网;企业主个人诉讼信息由企业主作为被告的诉讼次数及败诉次数来量化,数据来源是人民法院公告网;企业工商信息由注册资本金额来量化,数据来源国家企业信用公式系统;分支机构、主要成员、股东信息、变更信息都可以由本身的数量来进行量化,数据来源国家企业信用公式系统;企业舆情信息由正面新闻和负面新闻的数量来进行量化,数据来源百度新闻及新华网新闻网;裁判文书的量化数据是裁判文书数量,数据来源判决文书网;企业被执行信息由企业被执行信息数量来量化,数据来源中国执行信息公开网;法院公告由涉及企业的法院公告数量量化,数据来源人民法院公告网;开庭公告由涉及企业的开庭公告进行量化,数据来源人民法院公告网;司法拍卖由涉及企业的司法拍卖数量来量化,数据来源人民法院诉讼资产网;异常信息由企业异常信息数量来量化,数据来源国家企业信用公示系统;行政处罚由其数量来量化,数据来源国家企业信用公示系统
    50.本发明中,在构建层级用户画像时,首先将数据集的用户属性根据属性划分标准,共得到3个粗粒度标签,建立了用户在用户信用方面的3个特征维度,将属性划分到相关的粗粒度级的特征维度集合中,建立细粒度级的用户属性,从而构建出层级的用户信用画像。
    51.本发明中,对数据进行向量化处理时,进一步按照属性值的特点,将用户属性分别按照类别特征和连续值特征进行向量化转化,转化成统一的特征向量。
    52.本发明中,网络数据的获得都是采用每天一频次的更新爬取的数据。
    53.本发明中,注意力机制的深度学习模型的算法包括以下步骤:
    54.对网络数据通过one-hot编码,将数据向量化;
    55.设计细粒度级的属性注意力层;
    56.设计粗粒度级的维度注意力层;
    57.失信风险等级计算。
    58.本发明中,网络数据的获得都是采用每天一频次的更新爬取的数据。
    59.本发明中,对数据向量化时,根据时间段或违法类型的次数等进行特征分类,对离散特征进行onehot编码,将多值属性进行类别函数转换,形成特征向量;对连续特征,进行woe分箱编码,形成特征向量。
    60.本发明中,细粒度级的属性注意力层计算包括以下步骤:
    61.1)将特征向量x
    l
    细粒度表示为
    62.计算注意力值
    63.其中w
    li
    ,b1是训练时的参数,是tanh函数;
    64.2)将1)规范化,得到特征向量组x
    l
    中第i个细粒度标签的注意力权重
    65.3)根据1)2)得到特征向量x
    l
    的向量表征
    66.本发明中,粗粒度级的维度注意力层计算包括以下步骤:
    67.1)表示粗粒度标签集合的大小,特征维度l的注意力值设为其中w
    2l
    ,b2是训练时的参数;
    68.2)规范化注意力权重
    69.3)每个粗粒度标签的信用值β(m,l)后,注意力层级向量表示为
    70.本发明中,失信风险等级计算包括以下步骤:
    71.1)通过多个mlp连接层来捕捉特征之间的交互信息,到高阶信息
    72.2)经过mlp层后通过softmax函数对信用等级进行评估神经网络参数,r是全连接层学习到的特征。
    73.实施例、
    74.针对失信企业,基于网络数据构建信用风险评估体系;
    75.针对失信企业,基于网络数据构建指标体系;
    76.层级用户画像构建并进行数据向量化处理;
    77.首先将数据集的用户属性根据属性划分标准,共得到3个粗粒度标签,建立了用户在用户信用方面的3个特征维度,将属性划分到相关的粗粒度级的特征维度集合中,建立细粒度级的用户属性,从而构建出层级的用户信用画像。
    78.进一步按照属性值的特点,将用户属性分别按照类别特征和连续值特征进行向量化转化,转化成统一的特征向量。
    79.采用注意力机制的深度学习模型,利用网络数据进行训练;
    80.注意力机制的深度学习模型的算法包括以下步骤:
    81.对网络数据通过one-hot编码,将数据向量化;对数据向量化时,根据时间段或违法类型的次数等进行特征分类,对离散特征进行onehot编码,将多值属性进行类别函数转换,形成特征向量;对连续特征,进行woe分箱编码,形成特征向量;
    82.设计细粒度级的属性注意力层;细粒度级的属性注意力层计算包括以下步骤:
    83.1)将特征向量x
    l
    细粒度表示为
    84.计算注意力值
    85.其中w
    li
    ,b1是训练时的参数,是tanh函数;
    86.2)将1)规范化,得到特征向量组x
    l
    中第i个细粒度标签的注意力权重
    87.3)根据1)2)得到特征向量x
    l
    的向量表征
    88.设计粗粒度级的维度注意力层;粗粒度级的维度注意力层计算包括以下步骤:
    89.1)表示粗粒度标签集合的大小,特征维度l的注意力值设为其中w
    2l
    ,b2是训练时的参数;
    90.2)规范化注意力权重
    91.3)每个粗粒度标签的信用值β(m,l)后,注意力层级向量表示为
    92.失信风险等级计算;
    93.1)通过多个mlp连接层来捕捉特征之间的交互信息,到高阶信息
    94.2)经过mlp层后通过softmax函数对信用等级进行评估神经网络参数,r是全连接层学习到的特征
    95.基于注意力值进行失信主体信用风险评级,用户信用等级划分,依照等级划分标准,将数据集中的用户信用分值转化为相应的用户信用等级类别,高中低。
    96.为了验证模型的有效性,随机选择一部分数据作为训练数据,其余部分作为测试数据,具体地,分别随机划分数据集的40%,60%和80%来得到不同比例的训练数据集进行模型训练,并将数据集对应的60%,40%和20%部分分别作为测试数据集对模型的效果进行测试,对每个划分数据集独立重复10次试验,并且取平均值作为最后的实验结果。
    97.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权
    利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
    98.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
    转载请注明原文地址:https://tc.8miu.com/read-3184.html

    最新回复(0)