基于动态背包的多场景广告序列投放算法

简介：电商广告是广告主接触其目标用户的重要手段。普遍的广告目标是在预算约束下，在一定时间范围内最大化广告主累计收入。实际应用中，广告的转化通常需要对同一用户进行多次曝光，直到该用户最终购买为止。但是，现有的广告系统主要关注单次广告曝光的直接收益，而忽略了每次曝光对最终转化的贡献，因此通常属于次优解决方案。在本文中，我们将广告序列投放策略优化转化为一个动态背包问题。为求解此背包问题，我们提出了一个具有理论保证的双层优化框架，该框架在不影响求解精度同时，显着减少了原始优化问题的求解空间。在下层框架的优化中，我们引入强化学习并设计了一种有效的动作空间约减方法，提高了强化学习在实际广告应用中的探索效率。 1.背景

在电商平台中，在预算约束下优化一段时间的GMV是广告主的核心诉求之一。作为电商平台，从广告主视角如何帮助其实现该诉求是非常重要的问题。

对广告主：一段时间预算约束下的GMV优化帮助广告主实现更多营收和更高的投资回报率（ROI），从而让广告主真正满意；
对平台：消费者和广告主的满意度提升为平台带来健康的生态和长期的贸易繁荣，并能吸引更多的广告主加入以及投入更多的广告预算，从而带来平台的收入提升；
对消费者：GMV的优化满足了更多的消费者购买需求，从而优化了消费者体验；

总之，在预算约束下优化一段时间的GMV能够带来三方共赢，其重要性不言而喻。

为了解决该问题，绝大多数出价策略将一段时间的GMV优化问题拆解为：对每次用户请求进行独立优化，并简单地认为这些独立优化的汇总结果可以实现一段时间整体GMV的最优化。事实上，这类策略得到的是次优解，因为它们以孤立的视角把消费者和广告限定在了单次交互中，而忽略了一段时间内的多次交互可能产生的其它影响。

为什么孤立的单次交互视角优化会导致次优解？我们从实际情况出发，首先，同一个消费者在一段时间内（例如3-7天）会多次访问淘宝，并且随机地在淘宝不同的场景出现（例如首页猜你喜欢、支付成功等），这为同一个广告和同一个消费者在不同场景多次接触创造了机会；其次，大量的成交并非发生在消费者和广告的首次接触中，而是发生在第二次或之后的多次接触中。通过AB实验，我们发现广告和消费者的前序接触会影响消费者对该广告在后续接触中的点击率和转化率，说明多次的接触对消费者的心智有累积影响的效应。在这样的背景下，单次请求优化结果的累积很容易导致次优解。

举个常见的例子，假设消费者和广告存在两次接触，第一次接触时，其转化的期望低于其它流量转化的平均期望，而如果在接触一次后再发生第二次接触，由于消费者心智累积效应，其第二次接触后转化的期望显著升高，使得两次接触的整体转化期望高于其它流量转化的平均期望。在这种的设定下，单次贪心的优化策略在第一次接触时由于其转化期望较低，所以不会选择去竞得流量；而由于第一次的未接触导致了心智并没有产生积累效应，因此第二次接触的转化期望依然较低，也不会去竞得流量。然而，如果在第一次接触时就能预估到两次接触的整体转化期望较大，那么第一次接触就会做出竞得的决策，并顺理成章地竞得第二次高价值接触，我们称这种策略为序列投放算法，显而易见，其在整体上比单次请求优化策略（下文统一称为“单次投放算法”）实现了更好的效果。

这个例子中，序列投放算法和单次投放算法做出不同决策的核心原因在于：第一次接触前，单次投放算法只评估了单次请求的价值，即短期价值，而序列投放算法评估了未来多次请求的整体价值，我们称为长期价值。我们定义同一个消费者和同一个广告的多次接触构成了一个广告投放序列，并定义长期价值为从此刻起剩余序列的总价值。可以看出，当序列长度为1时，短期价值是长期价值的一种特殊情况。因此，基于长期价值的序列投放策略能够兼容并优于基于短期价值的单次投放策略。基于这个理念，我们提出了基于长期价值的多场景序列投放算法。

然而，基于长期价值的序列投放算法在解决预算约束下GMV的优化问题时存在诸多挑战：

优化目标是长期的累积价值，而决策的粒度是单次的；如何基于长期价值的预估获得最优的单次决策？
长期价值预估模型的学习离不开策略探索生成的序列数据。长期价值预估模型和决策模型的学习如何保证收敛性？如何保证决策的最优性？如何提升策略探索的效率？
如何保障预算约束的满足？

针对这些挑战，我们逐一给出了相应的解决方案。首先，我们将预算约束问题建模为背包问题：背包中物品的价值为形成的序列价值（长期成交、收藏加购等），物品的重量为此序列中发生的成本（消耗）；我们按照性价比（序列价值/成本）由高到低逐个选择物品，直到选出的物品总消耗刚好不超过预算约束。这里，由于物品重量远小于背包容量，按性价比排序的贪心算法能够接近最优解。然而，每个序列的价值和成本与运营该序列的广告策略有关，因此这是一个动态背包问题。为求解此动态背包，我们采用双层优化问题的解法来迭代求解：1）物品的贪心挑选，2）物品价值/成本以及对应策略的优化。在此框架下，我们提出了一种近似最优的运营策略，该策略满足强化学习中Policy Iteration算法的性质，能够保证其学习的收敛性。此外，为了使策略在实际场景中落地，我们提出了一种将连续出价转换为离散动作的方法，能够在不丢失出价精度的情况下，大幅度减少动作的探索空间，提高学习效率。综上，我们将整个算法称之为MSBCB(Multi-channel Sequential Budget Constrained Bidding)，大量的离线和在线实验验证了我们算法的有效性。下面我们详细介绍问题的定义、解决方案和实验结果。

该工作已被ICML-2020接收，论文原文《Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential Advertising》地址：https://arxiv.org/abs/2006.16312

2.建模方案

3.3 预估模型

上面主要介绍了如何根据长期价值来做相应的决策，在本小节，我们介绍长期价值该如何预估。首先，模型的预估对象分成交和消耗两种，因此我们这是一个多任务学习，需要同时学习回归和分类。为应对多任务学习，我们将模型结构进行拆分，底层共享embedding，顶层网络参数解耦，以降低多任务学习互相不利干扰，而且通过validation的方式优化各个loss之间的权重。其次，对于回归任务，由于其存在大量的零样本，导致模型成为一个零膨胀模型（Zero-inflated models），其输出基本上全为0，无法用MSE loss来正常学习网络参数。为解决此问题，我们提出两种解决办法：

通过合理的负采样来保证证样本的有效学习，并通过校准技术补偿由样本分布调整造成的预估偏差；
引入CTR先验，构造CTR loss来辅助回归学习。我们认为消耗的期望可以拆分成消耗发生的概率与对应的消耗值的点乘，因此我们将未来消耗发生的概率显示地单独用CTR的label来学习，并使其更新不受其他loss的影响；然后我们基于较为准确的消耗概率，再来学习其概率对应下的消耗值，能够有效避免消耗值输出全为0的情况，使MSE loss能正常更新模型参数。

另外，对于偏长期预估的模型，由于历次大促活动会对样本分布有较大影响，造成模型严重高估问题。为了解决这些问题，我们通过稳定的样本分布调整，保障训练样本与预测样本分布近似一致。此外，我们还在样本特征上也有一些尝试，在用户历史行为基础上新增了一些实时行为特征，带了来一些效果提升。

3.4 整体框架

我们对整个流程进行梳理：

首先，当用户请求到达广告平台之后，我们构造用户和广告特征，然后对每个进行四个长期价值的预估，得出每个广告所采取的策略（投/不投）并算出对应的最优出价。
接着，对于任意广告，我们计算当前用户在两个不同决策下的最高性价比，若此性价比高于此广告的阈值CPRthr，则将当前用户装入此广告的背包中。
最后，我们拿到用户的反馈，一方面，我们在PID模块中基于预算和实际消耗来更新阈值CPRthr，另一方面，我们构造训练数据来更新强化学习模型参数，使预估的长期价值更准确。

步骤一描述了我们基于长期价值对每个广告进行投放/不投放的动作决策，但无论哪个动作都会获得一个最终出价，即使是不投策略也会产生一个出价，因为此出价会保证此广告最终不会赢得竞价；步骤二描述了我们通过对比当前用户最高性价比与广告主设定的阈值，来判断此广告背包中是否还有多余的空间能装下当前用户；前两个步骤需要进行在线打分和决策，实时地与用户交互，而第三个步骤则是根据其反馈离线更新阈值CPRthr和模型参数，具体来说，阈值CPRthr的预设初始值一般较高，这样可以保证背包中都是优质的流量（性价比），但此时消耗较少，然后逐步下调阈值导致消耗增加，直到消耗满足预算。

4.离线实验

为了对比我们算法最优性质，我们在离线对比了我们方法MSBCB与多种强化学习baseline以及其他理论最优方法，具体如下：

Greedy + DDPG：动态背包下使用DDPG求解动作策略，没有使用动作约减。
Greedy + DQN: 动态背包下使用DQN求解动作策略，出价被手动离散至11维。
Greedy + PPO: 动态背包下使用PPO求解动作策略，出价被手动离散至11维。
MSBCB: 这是我们基于RL的方法，动态背包下使用DQN求解动作策略，并使用了动作约减。
Myopic Greedy: 静态背包下使用短视预估值(CVR)来构造动作策略。
Greedy with maximized CPR (enumeration)：动态背包下使用枚举方法求解动作策略，枚举选择的是性价比CPR最大的策略。
MSBCB (enumeration)：这是我们理论最优解，动态背包下使用枚举方法求解动作策略，枚举选择的是最大reward的策略（不通过RL求解）。
Offline Optimal (dynamic programming): 这是离线的全局最优解，使用动态规划方法，此方法不能用于在线实验，只能应用于非常小规模的离线实验。

离线数据中包含了10000个用户和500个广告，每个广告有4000元的预算，我们用真实的数据对线上的用户心智进行了分析和拟合，并将上面算法与拟合后的模拟器进行交互，画出各个算法的学习曲线在GMV上的表现，其结果如下：

从上面的学习曲线，我们能获得以下结论：MSBCB优于DDPG, DQN, PPO说明我们提出的动作约减比直接使用RL更有效；MSBCB优于Myopic说明基于长期价值的决策优于基于短期价值的决策；MSBCB(枚举)约等于Offline Optima说明我们方法理论最优解与全局最优解完全一致；而Greedy maxCPR(枚举)小于MSBCB(枚举)说明最大化CPR的理论最优解并不是全局最最优，对应章节3.2证明部分，同时也说明我们算法的理论天花板优势；而MSBCB和MSBCB(枚举)的对比说明了我们算法在实际学习过程中能快速收敛并逼近理论天花板。

5.在线实验

为了验证算法在实际落地中的效果，我们在淘宝线上首猜、购后等9个场景部署了MSBCB算法以及Myopic Greedy。我们考虑以下几个实验对象：

base桶：大盘基准桶，其调价算法为OCPC。
test1桶：Myopic Greedy实验桶（在业务上也称整合营销），它的目的是在多场景中优化短期CVR，用于与优化长期价值的方法进行对比。
test2桶：MSBCB实验桶，它的预估决策与我们的建模方案一致
test3桶：这是一个MSBCB实验桶的简化版，它的实验目的是为了验证对消耗的预估是否准确，test2和test3共用着同一个长期价值预估模型，只是在出价动作上test3不考虑未来消耗情况。

我们通过用户尾号进行分桶。

长期总体效果：首先，为了验证其长期的优化效果，我们将当天展现广告的成交、消耗等指标窗口拉到7天，以观察广告展现后的7天长期效果；我们统计了2019.12.13-2019.12.19这七天内展现的广告的长期效果如下，从表中可以看出，我们的实验桶test2能够在cost基本持平的情况下(

基于动态背包的多场景广告序列投放算法

[ 申请 ]友情链接：