一种基于联邦学习的不均衡数据集成学习方法与流程

    专利查询2022-07-07  117



    1.本发明涉及联邦学习相关的技术领域,特别涉及一种基于联邦学习的不均衡数据集成学习方法。


    背景技术:

    2.联邦学习是近年来兴起的一种技术,“联邦学习”的概念最早由美国的谷歌公司于2016年提出,最初是为了解决安卓手机终端用户在本地更新输入法中的频繁词模型的问题,其设计目标是保障大数据交换时的信息安全,保护终端数据和个人数据隐私,保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。在该模型中,参与者在本地存储所有的训练数据,在本地训练模型,然后将训练得到的模型更新传到云端,其他参与者下载更新到自己的移动设备,提高训练模型的准确性。联邦学习是一种将多个参与方(数据方、机构、企业)在本地数据不出域的情况下,通过密码学的机制对中间参数进行安全交互,从而达到协同计算和模型训练效果的一种分布式机器学习方法。
    3.按照数据集合维度相似性构成的特点,业界普遍将联邦学习分为跨样本联邦、跨特征联邦学习与混合型联邦,本发明提出的方法主要是跨样本的横向联邦学习技术。横向联邦的一个主要特点是各参与方数据中大部分的特征重叠,但是各自拥有不同的用户对象,实际应用场景中,比如:人脸识别、信用卡欺诈检测等场景。
    4.横向联邦中,针对样本不均衡的情况,通常会在正式联邦建模前,各参与方在本地分别对数据集进行样本预处理,常见的有上采样和下采样等方法,对数据集进行均衡化处理。但是实际中,往往数据集的正负比例非常大,导致数据类别失衡,特别是少数类的边界值容易被分错。而且由于数据集中正负比例大,针对模型最终的评价体系也会有影响,基础的基于混淆矩阵的评价指标,例如:准确率、召回率、f1值等指标都会受到影响。
    5.与现有技术方案对比:
    6.对比方案1:
    7.不均衡样本分类方法、装置、电子设备及存储介
    ‑‑‑‑‑‑
    cn202110474617.7
    8.该对比发明方案提供一种不均衡样本分类方法、装置、电子设备及存储介质,通过对重新构建后的目标正样本数据集和目标负样本数据集,采用预设的损失函数重新训练分类模型,均衡了样本数据集中的数据量,解决了随机采样造成的分类样本不均衡的问题。
    9.本发明中针对样本不均衡采用自适应的smote采样算法对不同节点进行样本均衡化,并结合了数据清理功能对采样后的样本噪声进行了清除,对比方案1针对负样本不均衡采用了层次聚类的方法,层次聚类各类簇之间不能互相交互对象,忽略了簇间的互联性,而且不能解决边界样本集的重叠性。本发明适配于联邦学习的计算场景需求,对比方案不针对联邦学习场景下的计算。
    10.对比方案2:
    11.联邦学习下不均衡数据的采样方法与装置
    ‑‑‑‑‑‑
    cn202011135027.3
    12.该对比发明方案本发明公开了一种联邦学习下不均衡数据的采样方法与装置,利
    用基于混合采样的不均衡数据平衡方案,根据不同数据集的不平衡比例,基于合成少数样本与聚类下采样集成方法结合的混合采样方法,获得平衡数据集。对比方案2在联邦场景对样本不均衡采用的是基于混合采样的方法,与本发明所使用的采样方式不同。


    技术实现要素:

    13.本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于联邦学习的不均衡数据集成学习方法。
    14.本发明提供了如下的技术方案:
    15.本发明提供一种基于联邦学习的不均衡数据集成学习方法,在保证各方数据隐私安全的情况下,对类别不均衡的数据集进行自适应边界采样降低数据的不平衡,并结合横向联邦的boosting集成学习方法,充分利用各参与方的数据,提高数据分析的效率;
    16.为实现上述方法,本方案主要包括四个主要环节:数据采集模块、学习模块、模型预测模块;本发明以两个参与节点为例,具体的处理流程如下:
    17.s1.数据采集模块
    18.数据参与方分别准备本地原始计算分类数据data1和data2,数据采集模块包含数据采样和数据采样后的整理;首先进行随机采样将数据分成训练集为train_data和测试集为test_data,针对训练集中的样本不均衡情况数据采集模块通过自适应边界的smote采样方法,对数据进行初步筛选,然后通过tomeklinks消除smote采样后的部分重叠样本,得到均衡样本;整个过程中参与节点p1和p2的数据分布和明文数据值通过数据输入模块始终保留在本节点,不会向对方节点暴露;
    19.s2.学习模块
    20.经过数据采集模块处理后的数据作为学习模块的输入,节点p1和节点p2分别初始化自己模型的参数w,然后基于boosting的集成学习方法对训练集进行学习,最后生成一个由n个基分类器组成的集成横向联邦分类器;
    21.s3.模型预测模块
    22.节点p1和p2将测试数据集作为上述集成分类器的输入,得到模型的预测值,并根据预测结果计算平均召回率,并根据平均召回率确定集成学习模型的稳定性和有效性。
    23.与现有技术相比,本发明的有益效果如下:
    24.1.本发明提出的方案对不均衡的样本的边界进行自适应采样,提高了不均衡样本的有效性和均衡率,降低了不均衡样本对最终分类器性能的影响。
    25.2.本发明提出的方案利用上述准确性较高的联邦集成分类器进行样本预测时,预测的结果准确性更高;
    26.3.本发明提出的方案对于参与方的数量没有限制,不需要无数据的协调方,同时各参与方的服务器向聚合服务器发送模型中间参数,不会泄漏原始数据;
    27.4.本发明提出的方案对模型预测结果不受测试样本正负不均衡影响,在测试数据集样本不均衡时也能对模型起到很好的验证效果。
    附图说明
    28.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实
    施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
    29.图1是本发明基于联邦学习的不均衡数据集成学习方法的总体结构示意图;
    30.图2是本发明基于联邦学习的不均衡数据集成学习方法的数据采样处理的流程图;
    31.图3是本发明基于联邦学习的不均衡数据集成学习方法的模型学习的流程图;
    32.图4是本发明基于联邦学习的不均衡数据集成模型预测示意图。
    具体实施方式
    33.以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。
    34.实施例1
    35.图1是本发明一种基于联邦学习的不均衡数据集成学习方法及系统的结构示意图,数据参与方基于随机采样比对原始数据进行采样划分,生成训练集和测试集,经过自适应的smote采样操作后将不均衡样本进行均衡化,然后结合boosting集成学习方法对采样后的训练集进行联邦学习,学习过程中对模型的参数进行交互不涉及隐私数据,在集成模型的基础上对测试数据进行预测验证,输出相关评价指标。整个流程主要包括三个主要环节:数据采集、模型训练和模型预测,其主要流程步骤如下所示:。
    36.s1.数据采集
    37.如图2中步骤

    所示,数据参与方分别准备本地原始计算分类数据data1和data2,两边的数据集都是含有特征列和标签列。数据采集模块中包含数据采样和数据采样后的数据整理流程,首先基于传统的机器学习样本分割思想对data1和data2进行随机采样将数据分成训练集为train_data和测试集为test_data。接下来针对训练集中的样本不均衡情况,本发明通过一种自适应边界的smote采样方法,对数据进行初步采样,与传统的smote采样方法不同的是,自适应smote方法是先对正负样本的边界样本增加上采样实例样本数,具体的步骤为:
    38.s1.1如图2中步骤

    对节点p1和p2的原始训练数据中的负样本(少数类)分别计算出与单个负样本datai最近的n个样本组成样本集data
    neg

    39.s1.2计算每个样本datai最近的样本集中属于正样本的个数n
    inter
    ,如果n
    inter
    满足则将datai划分为边界样本集b;
    40.s1.3假设经过一轮迭代后b中有l个样本,则需要生成s*l个样本,再对边界样本集中的每个样本计算出k个最近邻样本,最后基于smote算法,对边界样本集中的每个样本生成实例。
    41.如图2中

    生成实例后,为了降低数据集中的噪声干扰和样本的重叠率,本发明通过使用数据清理技术对采样后的样本进行清理。整个过程中参与节点p1和p2的数据分布和明文数据值通过数据输入模块始终保留在本节点,不会向对方节点暴露,如图2为数据采集模块的具体流程。
    42.s2.模型训练
    43.如图3是本发明一种基于联邦学习的不均衡数据集成学习方法的学习模块,为经过数据采集模块处理后的数据作为学习模块的输入,节点p1和节点p2分别初始化自己模型的参数w,然后基于boosting的集成学习方法对训练集进行学习,最后生成一个由n个基分类器组成的集成横向联邦分类器。
    44.s3.模型预测
    45.如图4是本发明模型预测示意图,模型预测节点p1和p2将测试数据集作为上述集成分类器的输入,得到模型的预测值,并根据预测结果计算平均召回率,并根据平均召回率确定集成学习模型的稳定性和有效性。
    46.最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
    转载请注明原文地址:https://tc.8miu.com/read-1884.html

    最新回复(0)