本技术涉及机器学习,具体的说是一种转化率模型更新方法、装置、电子设备及存储介质。
背景技术:
1、在在线数字广告中,预测转化率(cvr)对于在按转化成本(cpa)模型下最大化收入至关重要。在这种模型中,广告投放商仅在用户完成特定操作(如购买)后才会支付费用。cvr预测的一个主要挑战是延迟反馈问题,即转化可能在用户点击后数小时或数周才发生。这种延迟使得预测模型的训练变得复杂,导致偏差和次优性能。尽管现有方法在一定程度上解决了这一问题,但它们常常难以应对用户兴趣的变化,并且依赖额外的辅助模型,带来计算的低效和模型混淆问题。
2、目前应对延迟反馈的解决方案主要分为离线和在线方法。离线方法依赖历史数据来训练模型,通常额外包含一个模块来建模延迟时间的分布或调整错误的标签。它们通常假设未来数据分布与历史模式一致;而在线方法则尝试通过利用新点击数据并实时更新模型来解决这一问题。这些更新通常涉及对重复数据的标签进行修正,或近似优化损失函数以接近理想模型。
3、尽管这些方法有一定效果,但当前的方法存在两个主要局限性:
4、1、对用户兴趣变化的适应不足。用户兴趣的动态变化构成了重大挑战。离线方法在处理数据分布变化时往往无法捕捉用户的最新行为和偏好,而在线方法虽然更快适应新数据,但在标签修正过程中引入的样本重复可能导致模型混淆,从而影响真实标签信息的有效整合。
5、2、依赖辅助模型。主流方法通常包含辅助组件来估计观察到的负样本的潜在标签逆转或模拟虚假负样本的概率。然而,这些额外组件的开发复杂度与构建主要cvr模型相当,并且其有效性受限于历史数据的质量和数量。这种依赖关系可能导致计算低效,并增加cvr预测任务的复杂性。
技术实现思路
1、在本实施例中提供了一种转化率模型更新方法、装置、电子设备及存储介质,以解决模型对延迟反馈的适应性差、用户兴趣变化的适应不足的问题。
2、第一方面,本发明提供了一种转化率模型更新方法,包括如下步骤:
3、获取训练集,所述训练集包括具有标签的训练样本,所述训练样本包括在线广告平台上的点击和转化数;
4、利用预训练的cvr模型对所述训练样本初步预测并进行模型参数初步调整;
5、获取标签翻转样本,所述标签翻转样本包括训练过程中标签翻转样本和训练后的标签翻转样本,汇总所有标签翻转样本的梯度并通过计算估计cvr模型第一参数变化量;
6、获取在训练截止时间至测试时间内的新到达数据,所述新到达数据包括新样本,利用新样本输入所述cvr模型得到新样本的模型参数近似,通过计算模型参数近似得到由新到达数据带来的第二参数变化量;
7、根据所述第一参数变化量和所述第二参数变化量得到总参数变化量,基于所述总参数变化量对所述cvr模型更新。
8、在一个可选的实施例中,获取标签翻转样本,所述标签翻转样本包括训练过程中标签翻转样本和训练后的标签翻转样本,汇总所有标签翻转样本的梯度并通过计算估计cvr模型第一参数变化量包括:
9、将标签翻转建模为数据扰动,将标签翻转的训练样本作为数据扰动后的样本,基于扰动后的样本构建优化目标:
10、;
11、式中,是训练的模型参数,是训练样本,对训练样本增加扰动为的样本,是对样本调整的权重,是基础损失函数,具体地,;是二元交叉熵损失函数,具体地,;是对样本权重调整后的最优参数;
12、由上式推导出:
13、;
14、其中,是对求导,指二阶梯度,是原损失函数的最优参数,是一阶梯度;
15、汇总所有标签翻转样本的梯度,利用下式估计cvr模型第一参数变化量:
16、;
17、式中,是第一参数变化量,n是训练集中训练样本总数,是在之前点击并在区间内转换的样本索引集合,其中,是训练截止时间,是测试时间。
18、在一个可选的实施例中,获取在训练截止时间至测试时间内的新到达数据,所述新到达数据包括新样本,利用新样本输入所述cvr模型得到新样本的模型参数近似,通过计算模型参数近似得到由新到达数据带来的第二参数变化量包括:
19、将所述新到达数据中的新样本代入如下新扰动损失函数:
20、;
21、其中,,;
22、通过对新扰动损失函数泰勒展开得到新样本的模型参数变化量近似:
23、;
24、其中,是对于新样本和扰动程度的参数变化量;在取最优参数所有样本的二阶梯度的逆,是在取最优参数新样本的一阶梯度;
25、通过模型参数近似得到由新到达数据带来的第二参数变化量。
26、在一个可选的实施例中,通过模型参数近似得到由新到达数据带来的第二参数变化量包括:
27、将取值为并代入新扰动损失函数泰勒展开式,得到由新到达数据带来的第二参数变化量:
28、。
29、在一个可选的实施例中,根据所述第一参数变化量和所述第二参数变化量得到总参数变化量包括:
30、通过下式计算总参数变化量:
31、;
32、式中,是由新到达数据带来的参数变化量;
33、具体地,通过下式估计出总参数变化量:
34、;
35、其中,和分别是标签翻转样本和新样本的索引集合,
36、表示样本在对在取最优参数时参数求一阶梯度,表示样本在对在取最优参数时参数求一阶梯度,表示样本在对在取最优参数时参数求一阶梯度。
37、在一个可选的实施例中,基于所述总参数变化量对所述cvr模型更新包括:
38、将总参数变化量作为如下线性系统的解:
39、;
40、其中,是在取最优参数的所有样本的二阶梯度,是待求解变量,的定义如下:
41、;
42、对上式求解得到总参数变化量是如下凸二次优化问题的最小化解:
43、;
44、其中,是向量内集,是待求解变量的转置;
45、根据的有限求和结构,表示为:
46、;
47、其中,,是样本总数;
48、利用求出的解对cvr模型更新。
49、在一个可选的实施例中,利用求出的解对cvr模型更新包括:
50、获取求出的解;
51、在最优参数加上解以完成cvr模型参数的更新;
52、直至cvr模型参数收敛。
53、与现有技术相比,本发明的转化率模型更新方法的有益效果如下:
54、本发明提出的转化率模型更新方法可以广泛应用于在线广告领域中的转化率预测任务。在实际应用中,能够在各种环境下有效地处理转化率预测中的延迟反馈问题。例如,在一个大规模的在线广告平台中,广告投放者可以利用本方法动态调整cvr模型的参数,以应对用户点击行为和转化延迟带来的数据标签逆转问题。本方法通过计算新数据和延迟转化数据对模型参数的影响,实现了模型的实时更新,避免了重新训练模型,从而提高了预测准确性和模型适应性。
55、第二方面,本发明提供一种转化率模型更新装置,包括:
56、获取模块,用于获取训练集,所述训练集包括具有标签的训练样本,所述训练样本包括在线广告平台上的点击和转化数;
57、初始化模块,用于利用预训练的cvr模型对所述训练样本初步预测并进行模型参数初步调整;
58、标签翻转计算模块,用于获取标签翻转样本,所述标签翻转样本包括训练过程中标签翻转样本和训练后的标签翻转样本,汇总所有标签翻转样本的梯度并通过计算估计cvr模型第一参数变化量;
59、新到达数据计算模块,用于获取在训练截止时间至测试时间内的新到达数据,所述新到达数据包括新样本,利用新样本输入所述cvr模型得到新样本的模型参数近似,通过计算模型参数近似得到由新到达数据带来的第二参数变化量;
60、更新模块,用于根据所述第一参数变化量和所述第二参数变化量得到总参数变化量,基于所述总参数变化量对所述cvr模型更新。
61、第三方面,本发明提供一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行第一方面所述的转化率模型更新方法。
62、第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面所述的转化率模型更新方法。
63、与现有技术相比,本发明中转化率模型更新装置、电子设备及存储介质的有益效果与第一方面的转化率模型更新方法相同,故此处不再赘述。
1.一种转化率模型更新方法,其特征在于,包括如下步骤:
2.根据权利要求1的转化率模型更新方法,其特征在于,获取标签翻转样本,所述标签翻转样本包括训练过程中标签翻转样本和训练后的标签翻转样本,汇总所有标签翻转样本的梯度并通过计算估计cvr模型第一参数变化量包括:
3.根据权利要求2的转化率模型更新方法,其特征在于,获取在训练截止时间至测试时间内的新到达数据,所述新到达数据包括新样本,利用新样本输入所述cvr模型得到新样本的模型参数近似,通过计算模型参数近似得到由新到达数据带来的第二参数变化量包括:
4.根据权利要求3的转化率模型更新方法,其特征在于,通过模型参数近似得到由新到达数据带来的第二参数变化量包括:
5.根据权利要求4的转化率模型更新方法,其特征在于,根据所述第一参数变化量和所述第二参数变化量得到总参数变化量包括:
6.根据权利要求5的转化率模型更新方法,其特征在于,基于所述总参数变化量对所述cvr模型更新包括:
7.根据权利要求6的转化率模型更新方法,其特征在于,利用求出的解对cvr模型更新包括:
8.一种转化率模型更新装置,其特征在于,包括:
9.一种电子设备,包括存储器和处理器,其特征在于,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行权利要求1至7中任意一项所述的转化率模型更新方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现权利要求1至7中任意一项所述的转化率模型更新方法。
