一种基于图神经网络的欺诈检测方法

    专利查询2025-12-25  10


    本发明涉及互联网大数据及欺诈检测,具体涉及一种基于图神经网络的欺诈检测方法。


    背景技术:

    1、在数字化飞速发展的时代,电脑、手机等智能设备日益普及,互联网服务也悄然渗透到社会的各个层面。其中社交媒体、电子商务平台、博客、工业和金融网络以及其他网络应运而生,数据量迅速膨胀。这些网络已成为滋生欺诈信息和行为的温床,欺诈者可以轻而易举地隐藏在海量数据中。

    2、随着网络的不断发展,诈骗分子利用网络谋取商业利益的机会也越来越多,这些行为给社会和生活造成了极大的危害。尽管存在反欺诈系统,但欺诈行为难以防范和发现;由于欺诈行为具有隐蔽性、不可预测性和多重伪装性,欺诈者往往伪装成普通用户传播虚假信息或获取个人隐私,绕过反欺诈系统。因此,欺诈检测已成为一个亟待研究的重要课题。

    3、由于图可以很好地模拟现实世界中的关系,研究人员将gnn(图神经网络)用于欺诈检测。基于图的异常检测方法是识别欺诈行为最常用的技术之一。例如,frauder(欺诈检测双抗),利用与图结构无关的编码器学习欺诈节点和相邻正常节点的不同表示,从而识别欺诈节点和正常节点。又例如,semi-gnn从节点的多视角信息出发,利用分层注意力聚合节点不同视角之间的信息,学习不同节点之间的交互和不同视角之间的关系,然后进行分类。

    4、然而,在欺诈检测任务中,欺诈者的数量远远少于正常用户的数量,以亚马逊数据集为例,只有9.5%的用户是欺诈者,而其他都是正常用户。类不平衡问题导致现有的欺诈检测算法对大部分类过度拟合,而忽略了少数类的特征,从而导致检测效果不佳。此外,在现实生活中,欺诈者通常会连接许多正常用户来实施欺诈,欺诈节点之间缺乏必要的连接,可能导致欺诈者信息隐藏在正常信息中,研究人员将这种行为称为欺诈者伪装行为(fraudstercamouflagebehavior)。

    5、由于图神经网络的效果取决于同质性假设,即距离相近的节点具有相似的信息,简单的图神经网络在聚合相邻节点信息后容易掩盖欺诈信息,难以识别欺诈节点,这是欺诈检测任务的难点之一。因此,如何解决欺诈者伪装问题并学习正常节点和欺诈节点之间的差异是亟需解决的技术问题。


    技术实现思路

    1、针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于图神经网络的欺诈检测方法,通过自监督学习的自我区分来增强节点表示学习生成图数据中每个节点的高维嵌入表示,利用包含丰富信息的高维嵌入表示解决欺诈者伪装问题;同时通过为节点生成子图来学习正常节点和欺诈节点之间的差异,从而提高欺诈检测的准确性。

    2、为了解决上述技术问题,本发明采用了如下的技术方案:

    3、一种基于图神经网络的欺诈检测方法,包括:

    4、s1:获取待检测的图数据;

    5、s2:将待检测的图数据输入训练好的欺诈检测模型中,输出图数据中每个节点的预测标签;

    6、训练欺诈检测模型时的处理步骤如下:

    7、s201:将作为训练数据的图数据以及每个节点的真实标签作为欺诈检测模型的输入;

    8、s202:利用自监督学习模块的自我区分来增强节点表示学习,生成图数据中每个节点的高维嵌入表示;

    9、s203:将图数据中所有节点的高维嵌入表示作为节点检测模块的输入;

    10、s204:在节点检测模块中:对每个节点进行子图采样,得到对应的子图;为每个子图生成对应的预测标签值;对于每个节点,通过包含该节点的所有子图的预测标签值计算该节点的预测标签值;通过节点的预测标签值计算该节点的预测标签;

    11、s205:通过各个节点的预测标签值结合其真实标签计算训练损失,并反向优化节点检测模块的参数;

    12、s206:重复步骤s201至s205,直至节点检测模块收敛或达到预设迭代轮次;

    13、s3:将待检测的图数据中每个节点的预测标签作为其欺诈检测结果。

    14、优选的,步骤s202中,自监督学习模块的处理步骤如下:

    15、s2021:将图数据作为自监督学习模块的输入;

    16、s2022:根据节点属性对图数据中的节点进行结构无关编码,生成节点的初始嵌入;

    17、s2023:对于每个节点,通过该节点在各个视角下的邻居节点计算该节点在各个视角下的视角节点表示;

    18、s2024:对于每个节点,计算该节点各个视角对应的视角级注意力系数;

    19、s2025:对于每个节点,通过该节点各个视角对应的视角级注意力系数对该节点各个视角下的视角节点表示进行组合,生成该节点的高维嵌入表示。

    20、优选的,步骤s2022中,通过如下公式计算节点的初始嵌入:

    21、hi=σ(xiwe);

    22、式中:hi表示节点vi的初始嵌入;xi表示节点vi的特征向量;σ表示非线性激活函数;we表示可学习权重矩阵。

    23、优选的,步骤s2023中,通过如下公式计算节点vi在视角r下的视角节点表示:

    24、

    25、式中:表示节点vi在视角r下的视角节点表示;表示节点vi在视角r下与其邻居节点之间的注意力系数,表示节点vi在视角r下的邻居节点集;hk表示节点vi的邻居节点集中第k个邻居节点的初始嵌入;

    26、通过如下公式计算注意力系数:

    27、

    28、式中:表示节点vi与在视角r下其邻居节点之间的注意力系数;hj表示邻居节点vrj的初始嵌入;和表示可学习的注意力参数矩阵。

    29、优选的,在自监督学习模块中,通过多层感知器将节点vi各个视角下在第l-1层图卷积层的视角节点表示映射到高维空间,生成节点vi各个视角下在第l层图卷积层的视角节点表示;

    30、公式表示为:

    31、

    32、式中:分别表示节点vi在视角r下在第l层和第l-1层图卷积层的视角节点表示;mlp表示多层感知器。

    33、优选的,步骤s2024中,通过如下公式计算视角对应的视角级注意力系数:

    34、

    35、式中:表示节点vi在视角r下的视角级注意力系数;m表示节点vi的视角总数;表示节点vi在视角r下在第l层图卷积层的视角节点表示;表示节点vi在视角k下在第l层图卷积层的视角节点表示;表示可学习的透视权重向量。

    36、优选的,步骤s2025中,通过如下公式计算节点的高维嵌入表示:

    37、

    38、式中:hi′表示节点vi的高维嵌入表示;m表示节点vi的视角总数;表示节点vi在视角r下的视角级注意力系数;表示节点vi在视角r下在第l层图卷积层的视角节点表示;||表示连接操作。

    39、优选的,步骤s204中,通过如下公式计算节点的预测标签值:

    40、

    41、式中:si表示节点vi的预测标签值;表示节点vi对应的第j个子图的预测标签值;j表示节点vi对应的子图总数。

    42、优选的,步骤s204中,通过如下公式计算节点的预测标签:

    43、yi'=sigmoid(si);

    44、式中:yi'表示节点vi的预测标签;si表示节点vi的预测标签值;sigmoid表示sigmoid激活函数。

    45、优选的,步骤s205中,通过如下损失函数计算节点检测模块的训练损失:

    46、

    47、式中:lssl表示节点检测模块的训练损失;yi表示节点vi的真实标签;si表示节点vi的预测标签值;n表示节点的数量。

    48、本发明中基于图神经网络的欺诈检测方法与现有技术相比,具有如下有益效果:

    49、本发明的欺诈检测模型(sgl-gnn)在训练节点检测模块(semi-gnn)之前,先利用自监督学习,通过自我区分来增强节点表示学习生成图数据中每个节点的高维嵌入表示。首先自监督学习模块促使模型在没有明确监督信号的情况下,通过内部生成的任务(如节点属性预测、上下文预测等)来区分节点之间的差异,学习到更细粒度的节点特征,不仅包含节点的局部信息,还融入了图的全局结构信息,使得节点的嵌入表示更加丰富和准确,从而利用包含丰富信息的高维嵌入表示解决欺诈者伪装问题。其次通过自我区分的方式,模型能够学习到更一般的图结构特征和节点间关系,有助于模型在面对未见过的图结构或节点时仍能保持较好的性能,从而提升欺诈检测模型的泛化能力。最后高质量的节点嵌入表示使得模型能够更准确地捕捉到欺诈节点与正常节点之间的微小差异,即使在数据存在噪声或异常的情况下,也能有效地识别出欺诈节点,从而提高欺诈检测的准确性。

    50、本发明在提取节点高维嵌入表示的基础上,通过节点高维嵌入表示训练节点检测模块(semi-gnn),并且对每个节点进行子图采样,为每个子图生成对应的预测标签值,通过包含节点的所有子图的预测标签值计算该节点的预测标签值,通过节点的预测标签值计算该节点的预测标签。首先通过子图采样,可以显著减少图神经网络的计算量,特别是对于大规模图数据,通过将每个节点及其相关子图作为输入,模型可以在较小的局部图上运行,从而提高处理效率。其次通过对每个节点进行子图采样,模型能够从不同的子图视角观察每个节点来学习正常节点和欺诈节点之间的差异,捕捉到节点在不同上下文中的特征,这种多视角特征融合使得模型对节点表示的误差具有更高的容忍度,从而增强了模型的鲁棒性。最后通过集成多个子图的预测结果来计算节点的最终预测标签,可以综合考虑节点在不同子图中的表现,减少因单一子图导致的预测偏差,有助于更准确地识别出欺诈节点,提高欺诈检测的准确性。

    51、本发明通过各个节点的预测标签值结合其真实标签计算训练损失,并反向优化节点检测模块的参数。首先通过计算预测标签与真实标签之间的损失,并反向传播该损失以优化模型参数,可以逐步减少模型预测结果与真实情况之间的差距,从而提升节点检测模块(semi-gnn)的拟合能力。其次精确的损失计算和有效的参数优化使得模型能够更准确地学习到欺诈节点与正常节点之间的界限,从而在测试数据上表现出更高的精确性和召回率,对于实际应用中的欺诈检测任务至关重要。最后通过不断优化模型参数以适应不同节点的特征表示,模型能够学习到更加一般化的规律和知识,从而能够在面对新的或未知的图结构时仍能保持良好的性能,增强模型的泛化性能。


    技术特征:

    1.一种基于图神经网络的欺诈检测方法,其特征在于,包括:

    2.如权利要求1所述的基于图神经网络的欺诈检测方法,其特征在于:步骤s202中,自监督学习模块的处理步骤如下:

    3.如权利要求2所述的基于图神经网络的欺诈检测方法,其特征在于:步骤s2022中,通过如下公式计算节点的初始嵌入:

    4.如权利要求2所述的基于图神经网络的欺诈检测方法,其特征在于:步骤s2023中,通过如下公式计算节点vi在视角r下的视角节点表示:

    5.如权利要求2述的基于图神经网络的欺诈检测方法,其特征在于:在自监督学习模块中,通过多层感知器将节点vi各个视角下在第l-1层图卷积层的视角节点表示映射到高维空间,生成节点vi各个视角下在第l层图卷积层的视角节点表示;

    6.如权利要求2所述的基于图神经网络的欺诈检测方法,其特征在于:步骤s2024中,通过如下公式计算视角对应的视角级注意力系数:

    7.如权利要求2所述的基于图神经网络的欺诈检测方法,其特征在于:步骤s2025中,通过如下公式计算节点的高维嵌入表示:

    8.如权利要求1所述的基于图神经网络的欺诈检测方法,其特征在于:步骤s204中,通过如下公式计算节点的预测标签值:

    9.如权利要求1所述的基于图神经网络的欺诈检测方法,其特征在于:步骤s204中,通过如下公式计算节点的预测标签:

    10.如权利要求1所述的基于图神经网络的欺诈检测方法,其特征在于:步骤s205中,通过如下损失函数计算节点检测模块的训练损失:


    技术总结
    本发明公开了一种基于图神经网络的欺诈检测方法,包括:将待检测的图数据输入训练好的欺诈检测模型中,输出每个节点的预测标签;训练步骤如下:通过自我区分来增强节点表示学习来生成高维嵌入表示;在节点检测模块中:对每个节点进行子图采样,得到对应的子图;为每个子图生成对应的预测标签值;通过包含该节点的所有子图的预测标签值计算该节点的预测标签值;通过节点的预测标签值计算该节点的预测标签;通过各个节点的预测标签值结合其真实标签计算训练损失并优化参数;重复训练迭代直至节点检测模块收敛或达到预设迭代轮次。本发明通过自监督学习的自我区分来增强节点表示学习,通过为节点生成子图来学习正常节点和欺诈节点之间的差异。

    技术研发人员:王桂平,罗尤鑫,谭庆有,黄春淦,周迎川,郭奥
    受保护的技术使用者:重庆交通大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-33128.html

    最新回复(0)