本发明属于<图表示学习>,具体涉及一种基于图表示学习实现部分观察敏感属性的反事实公平方法。
背景技术:
1、宇宙中的万事万物,大到恒星,小到原子分子,都时时刻刻与其他个体存在相互关系。这种个体与个体之间的相互关系可以用图进行表示。现实生活中存在大量的图结构数据如:新浪微博、facebook、twitter等社交网络数据,以及生化分子结构数据、脑网络数据、引文网络数据、知识图谱等等。图是一种比树结构更复杂的非线性结构,图中包含了一系列的顶点与边,其中,顶点可以表示为个体,边可以表示为个体与个体之间的关系,同时顶点或边都可以附带一些描述自身的信息(特征),通过学习顶点和边的特征,可以很好地为处理图数据进行服务。神经网络在数据特征提取上有很优异的表现,但是单纯地将图转化为欧几里得结构数据,然后交由传统神经网络方法处理会造成拓扑结构信息的损失。因此,更加有效的图结构数据处理方法——图神经网络(graph neural etwork,gnn)应运而生,并且发展出了多种分支,例如图卷积网络(graph convolutional network,gcn)、图自编码器(graphauto-encoder,gae)、图生成网络(graph generative network,ggn)、图注意力网络(graphattention network,gat)等。
2、图神经网络(gnn)在知识图谱、社交媒体挖掘、自然语言处理[和推荐系统等各个领域都取得了显著的成绩。通常,在gnn中采用消息传递过程,其中为每一层中的每个节点聚合来自邻居的信息。该过程丰富了节点表示,并保留了节点本身特性和拓扑结构。
3、尽管在图数据建模方面取得了成功,但在图上训练的gnn可能会继承数据中的社会偏见,这限制了gnn在许多实际应用中的采用。首先,广泛的研究表明,历史数据可能包括以前的歧视模式和社会偏见。在此类数据上训练的机器学习模型可以继承对敏感属性(如年龄、性别、肤色和区域等)的偏见,这意味着gnn也可能表现出偏见。其次,图的拓扑结构和gnn的消息传递可能会放大偏见。一般来说,在社交网络等图中,敏感属性相似的节点比敏感属性不同的节点更容易相互连接。例如,年轻人倾向于在社交网络上与年龄相近的人建立友谊。这使得gnn中邻居特征的聚合对于相似敏感信息的节点具有相似的表示,而对于不同敏感特征的节点的表示不同,导致决策的严重偏差,即预测与敏感信息的敏感属性节点高度相关。这种偏见将在很大程度上限制gnn在诸如求职者排名和犯罪率预测等领域的广泛采用。因此,研究公平的gnn很重要。
4、图表示学习旨在将节点映射到潜在的嵌入空间中,而这些节点表示通常用于下游预测、分类任务,并已成为多个现实世界应用中的最新技术。然而,这些节点表示学习方法可能会忽略隐藏在图数据中的潜在偏见,从而对由某些敏感属性定义的子群体引入算法偏见。因此,这可能会引发伦理和社会问题,尤其是在高风险决策场景中,如求职者排名和信用评分等。例如,如果银行对贷款申请的决定受到申请人及其密切接触者敏感属性的影响,这将成为一个严重的道德问题。
5、为了解决上述问题,学者们提出了一些方法来评估和解决图上节点表示学习的公平性。在这些方法中,大部分旨在学习节点表示,它们会对整个群体产生在统计上公平的预测。此外,反事实公平的概念最近被扩展到图结构数据。与以前的统计概念不同,反事实公平扩展了因果结构模型,旨在鼓励同一个人的不同版本(也称为反事实)做出的预测是平等的。
6、然而,得到符合反事实公平的图表示学习并非易事。首先,为了实现反事实公平,我们需要获取大量具有已知敏感属性的节点,以便我们可以修改数据或正则化模型;而人们不愿意在现实世界中分享他们的敏感信息,从而导致具有以反事实公平模型学习而闻名的敏感属性节点不足。其次,尽管通过修改特征、解开纠结、对抗性去偏和公平约束来建立公平模型已经付出了巨大的努力,但它们压倒性地致力于独立同分布(i.i.d)数据,由于没有同时考虑节点属性和图结构的偏差,因此不能直接应用于图数据。
技术实现思路
1、本发明的目的在于克服上述现有技术中存在的缺陷,提供一种新的针对部分观察敏感属性实现反事实图表示学习的方法。
2、1.子图生成
3、由于图数据的真实因果模型通常很难完全获得,尤其是对于大规模图。基于一个共同的观察每个节点主要受其最近邻居的影响,所以,我们提取了一个子图包含每个节点的节点特征x(i)和邻接矩阵a(i)。该子图提取上的中心节点i的上下文信息,即的子图仅包含节点i的top—k邻居(包括其自身)。这些top—k邻居通常在距离中心节点的几跳范围内。具体来说,对于图上的每个节点i,我们使用子图生成器sub(·)生成其上下文子图基于这些上下文子图,我们学习了它们对应的中心节点的表示。这是基于一个常用的假设,即每个节点与其上下文子图之外的节点具有低依赖性。因此,相对于中心节点而言,每个子图都有望在图形结构方面有足够的信息量,以便进行高质量的表征学习和事后的反事实数据增强。
4、受基于子图的节点表示学习方法的启发,我们首先使用个性化的pagerank算法计算每个节点对的重要性分数。重要性得分可以计算为:其中r是重要性得分矩阵,每个条目ri,j描述节点j对节点i的重要性,ri,:表示节点i的重要性得分向量。α是[0,1]范围内的参数,i是单位矩阵。表示列归一化邻接矩阵,其中d是di,i=∑jai,j对应的对角矩阵。我们在模型训练之前的预处理阶段计算r以提高效率。有了重要性分数,我们使用top(·)操作为每个中心节点i选择top—k重要节点然后将上下文子图公式化如下:
5、
6、
7、
8、其中符号:表示所有索引。上述子图生成过程(式(1)到(3))定义为然后将生成的子图输入编码器以学习中心节点的表示。
9、2.敏感属性估计器
10、针对个体敏感属性差异性所导致的敏感属性部分缺失的情况,因为在现实中一部分个体会比较注重个人隐私保护,针对这些敏感属性不愿意分享,这导致的尺寸很小。即使有对抗性去偏,缺乏带有标记敏感属性的数据将导致公平性的改善很差。虽然我们的敏感属性节点有限,即较小,但通常具有相似敏感属性的节点更可能相互连接,这使得使用图和可以准确预测中节点的敏感属性。因此,我们部署了一个图卷积网络来估计敏感属性不可用的节点的敏感属性。大量估计的敏感属性将极大地有利于对抗性去偏。请注意,使用两个单独的gnns进行节点标签预测和敏感属性预测很重要,因为我们的目标是学习的公平表示,即不包含敏感信息。训练的目标函数是:
11、
12、其中是fe预测节点的敏感属性,θe是fe的参数。使用fe,我们可以得到节点的敏感属性的估计。我们用来表示敏感属性的集合,将s和结合起来,即
13、3.反事实数据增强
14、为了实现图反事实公平,我们在节点表示学习之前预训练了一个反事实数据增强模块。在这里,我们考虑一个相对简单但通用的因果模型来为每个子图生成反事实。基于常见的观察,我们假设敏感属性是外生的,即它在因果图中没有父变量,它会因果地影响其他节点特征、图结构和标签。基于我们假设的因果模型,一旦我们对敏感属性进行干预,我们就需要对其他变量如何进行相应的变化来建模。为了实现这一目标,我们使用图形变化自动编码器(graphvae)作为基础模块,该模块将每个上下文子图作为输入,并将子图中的每个节点编码为潜在嵌入hi,然后解码器重建具有潜在嵌入h={h1,…,hk}的原始子图和该子图中k个节点的敏感属性值。重建损失如下(为了符号简单,我们省略了上标(·)(i)):
15、
16、其中p(h)是标准的正态先验分布。我们从q(h|x,a)中对嵌入h进行采样。由于假设敏感属性是外生的,我们可以通过消除它们之间的统计依赖性来减轻敏感属性对嵌入的因果影响。为了实现这一目标,我们使用对抗性学习方法来学习对每个节点及其邻居的不同敏感属性值相同的嵌入。具体来说,我们在这里使用鉴别器来预测相邻敏感属性值的摘要。对于子图中的所有节点我们把摘要作为平均聚合,即我们将摘要划分为b范围,以将其表述为判别器d(·)的多变量分类任务。我们使用如下的公平约束:其中鉴别器d(h,b)预测敏感属性值的汇总是否在b范围内的概率。根据中的理论分析,是一个正则化器,用于最小化敏感属性值的摘要和嵌入之间的互信息。反事实数据增强的最终损失是:其中β是公平约束权重的超参数。我们使用交替随机梯度下降进行优化:1)我们通过固定鉴别器和更新其他部分的参数来最小化2)相对于鉴别器我们最小化而其他部分固定。为了实现图的反事实公平,我们期望嵌入h可以捕获潜在变量,这些变量可以提供输入子图的信息,但不受子图中节点的敏感属性的因果影响。我们预训练了反事实数据增强模块,以更好地解开框架的不同组件。如果提供了因果模型的更多先验知识,我们可以将其合并到反事实数据增强中,例如,使用给定的因果模型直接生成反事实,并且不需要更改框架中的其他组件。
17、4.反事实公平表示学习
18、基于上述反事实数据增强,我们学习了公平的表示,这些表示有望实现同一个节点在不同的反事实中引出相同的预测标签。为了实现这一目标,我们利用孪生网络对三种子图进行编码:原始子图反事实子图和表示每一个中心节点i的对于图反事实公平,我们希望从三种子图中为每个中心节点学习相同的表示。我们对在这三种子图中的所有中心节点i训练一个子图编码器φ(·)分别来生成zi,zi三种表示。然后我们最小化从原始子图和反事实学习的中心节点表示之间的距离。我们将图反事实公平的损失表述为:
19、
20、其中d(·)是距离度量,例如余弦距离。λs∈{0,1}是一个控制邻居扰动权重的超参数。从原始子图和反事实中,我们通过以下方式获得节点表示:
21、zi=(φ(x(i),a(i)))i (7)
22、
23、
24、其中将每个子图作为输入,并将输入子图上的每个节点嵌入到潜在表示中。我们将从原始数据中学习到的每个中心节点i表示为zi,并且我们使用作为下游任务。对于和中的采样反事实子图,我们使用聚合器(例如,均值聚合器)agg(·)聚合每个中心节点i的表示,得到最终的表示和zi。
25、为了将节点特征和图结构的有用信息编码到表示中,我们使用标签作为监督。我们以节点分类任务为例,但我们的框架可以自然地扩展到图数据上的其他类型的任务,例如链接预测。我们将节点n的类标签表示为y={y1,...,yn}。预测损失可以表示为:
26、
27、其中l(·)是测量预测误差的损失函数(例如,交叉熵),f(·)使用表示对下游任务进行预测,即最后,公平表示学习的整体损失函数为:
28、
29、其中θ是模型参数集,λ和μ是控制图反事实公平约束权重的超参数,l2表示范数正则化。
1.基于图表示学习实现部分观察敏感属性的反事实公平方法,包括下列步骤:
2.如权利要求1所述的基于图表示学习实现部分观察敏感属性的反事实公平方法,其特征在于:
3.如权利要求2所述的基于图表示学习实现部分观察敏感属性的反事实公平方法,其特征在于:
4.如权利要求3所述的基于图表示学习实现部分观察敏感属性的反事实公平方法,其特征在于:
5.如权利要求4所述的基于图表示学习实现部分观察敏感属性的反事实公平方法,其特征在于:
6.如权利要求5所述的基于图表示学习实现部分观察敏感属性的反事实公平方法,其特征在于:
7.如权利要求6所述的基于图表示学习实现部分观察敏感属性的反事实公平方法,其特征在于:
