Display Advertising with Real-Time Bidding (RTB) and Behavioural Targeting读书笔记(四)

动态价格

Posted by Wenqian on April 4, 2021

这一章主要是聚焦与RTB系统中的发布者。对于发布者来说,如何提升他们的收入是最关键的。我们先从起拍价说起。

起拍价优化

起拍价反映了发布者对于曝光的价值评估,如果出价低于起拍价,那么就会直接被舍弃。下图就展示了发布者方的决策逻辑:

img

我们可以很容易地得到发布者的回报(payoff)方程:

img

其中假设最终的出价是 $b_{1}(t),b_{2}(t),…,b_{K}(t)$ ,并且是排好序的;起拍价是 $\alpha(t)$ 。那么总收入就是 $R(T) = \sum_{t=1}^{T} r’(t)$ 。

尽管早在搜索竞价排名时期,起拍价优化问题就已经展开了研究,但是在RTB场景下,这个问题还是有很大区别的。这主要体现为两点:一是最优拍卖理论需要在计算最优起拍价之前,就对广告主自己针对曝光的价值评估分布有了解,而这其实是不太现实的;二是不像在搜索竞价排名场景中,广告主是没有关键词限制的,而是直接面对海量的曝光供应,如果直接把起拍价设的很高,那么广告主可能就不会选择你了。

下面先简单说说最优拍卖理论。

最优拍卖理论

在没有质量分数的情况下(不是竞价搜索),以私人价值(private value)判断竞价的策略构成系统纳什均衡的一部分,也就是说随着时间的流逝,广告主在其他给定因素不变的情况下,其实会更倾向于不改变他们的报价。假设发布者知道竞价者的私人价值分布,最优拍卖理论就可以通过计算得到最优起拍价。

然而,这种方法其实不是很靠谱,因为很难学习到竞拍者的私人价值判断。这其中的原因主要有三点:

  1. 竞拍者的私人价值判断分布可能很复杂,而不是简单服从对数正态分布。
  2. 我们假设广告主依据他们的私人价值判断在第二价格拍卖中进行出价。但事实上他们可能自己都搞不清楚某次曝光到底有多少价值。
  3. 还有一些实际场景中会遇到的限制,比如不一定能获取拍卖细节,或者由于拍卖获胜者频繁变动而带来的噪声等。

基于博弈树的启发式方法

博弈树其实就是两方博弈过程的一种树形表示,其中节点是博弈过程中的某个状态,而连接的边是某一方的某种行为。在起拍价优化的场景下,我们可以先假设售卖方只考虑当前拍卖而不考虑历史拍卖数据(即各个拍卖相互独立),那么博弈树就如下图所示:

img

这里博弈的双方就是拍卖获胜者(winner)和发布者(publisher)。上图中的状态有两种:一个是 $I_1$ ,表示获胜者的出价 $b$ 大于等于当前起拍价 $\alpha$ ;另一个是 $I_2$ ,表示获胜者的出价 $b$ 小于当前起拍价 $\alpha$ 。

对于获胜者 $A_w$ 来说,有四种可能操作:

  1. $a_{w1}$ ,表示增加 $b$ ,从而大于 $\alpha$ 。
  2. $a_{w2}$ ,表示增加 $b$ ,但仍小于 $\alpha$ 。
  3. $a_{w3}$ ,表示减小或不改变 $b$ ,同时大于 $\alpha$ 。
  4. $a_{w4}$ ,表示减小或不改变 $b$ ,同时小于 $\alpha$ 。

对于发布者 $A_p$ 来说,同样有四种可能操作:

  1. $a_{p1}$ ,表示增加或保持 $\alpha$ ,从而大于 $b$ 。
  2. $a_{p2}$ ,表示增加或保持 $\alpha$ ,但仍小于 $b$ 。
  3. $a_{p3}$ ,表示减小 $\alpha$ ,但仍大于 $b$ 。
  4. $a_{p4}$ ,表示减小 $\alpha$ ,同时小于 $b$ 。

行动的顺序是先发布者,再获胜者。通过上面的分析可以得到对于发布者而言,他或她需要采取的行动是:

img

也就是说报价可能会一步一步下降,但当拍卖失败后会重新上升。

最小化regret下的探索策略

这部分主要介绍了Cesa-Bianchi等人提出的一种方法,感觉推导相对复杂,并且很多地方解释的不是很清楚,需要阅读原论文才能清晰,因此这里先不记录了,将来有时间阅读完论文后再另写一篇。

程序化直接交易(Programmatic direct)

程序化直接交易是一个针对发布者或者SSP的分发和定价引擎,可以在RTB之外自动售卖担保库存(guaranteed inventories)。下图展示了在展示广告中,PG是如何为一个发布者或SSP服务的:

img

对于某一个特定时间段的曝光,会在之前先估计并且分发给担保市场(guaranteed market)或者现货市场(spot market)。前者的曝光会通过担保价格在交货日期(delivery date)之前被售卖,而后面的则是在RTB内进行拍卖。这里担保市场约定的担保价格会被动态地罗列在ADX内,就想股票那样,而不是说是由发布者和广告主协商的。

由于曝光可以在交货日期那天的任意时刻被拍卖掉,因此它们的清算价值(salvage value)其实是不固定的。事实上,最优的担保价格也是动态的,并且随着时间是非下降的(non-decreasing)。此外,根据不同的竞争程度,进行分发和定价的策略也是不同的。对于低竞争市场,广告主更倾向于购买价格较低的担保合约,这样他们在RTB市场可以有更高的竞争力,而此时收入其实主要来源于RTB市场;如果是高竞争市场,则情况恰恰相反,广告主更倾向于购买价格较高的担保合约,因为这时收入主要来源于担保售卖。

广告期权(options)和first look合约

理论上,RTB拍卖会受到很多限制,比如广告主支付金额的不确定性,发布者收入的不稳定以及发布者和广告主之间脆弱的信任关系。近些年,期权合约的概念被引入广告领域,用来解决非担保交割问题(non-guaranteed delivery problem),并且给广告主提供了更高的灵活性。在实践中,期权合约以一个叫“First Look”的策略实现。一个广告期权是一个合约,其中广告主有权(但不是必须)以一个特定的价格在某个特定的广告位置或关键词上购买将来的曝光或点击。事先商讨好的价格叫做行权价(strike price)。与之相对的,在实时拍卖中获胜的价格叫基本价格(underlying price)。发布者或搜索引擎在提供这项权利的同时会收取一定的费用,这被叫做期权价格。下图是购买并使用广告期权的一个例子:

img

从上图中我们可以看到广告期权是非常灵活的,具体来说:

  1. 广告主不是必须使用广告期权(即行权),他/她仍然可以参与关键词拍卖。
  2. 广告主可以在合约期限内的任意时刻履行期权。
  3. 广告主可以履行最多不超过合约所规定的点击数。
  4. 广告主可以在每个exercise(个人理解是)下请求任意数量的点击,只要加起来不超过合约规定的最大数量即可。
  5. 广告主可以在每个execise内的任意关键词之间自由切换而无需额外支付费用。

广告期权中很重要的一点就是定价。作者提到了两种方式,一种是假设基本价格服从几何布朗运动(GBM),但在实际场景中,只有很少数量的广告位置的CPM或CPC是真的符合GBM的。另一种方法则给出了一个基于格点法(lattice method)的更具一般性的定价框架。这种方法采用一个随机波动模型(stochastic volatility model)来描述基本价格波动,并在此基础上构建一个删减二项式格(censored binomial lattice)用于期权定价。

Reference

[1] Display Advertising with Real-Time Bidding (RTB) and Behavioural Targeting by Jun Wang, Weinan Zhang and Shuai Yuan. ArXiv 2016.