
UniROM:统一广告排序,让平台收益大增
Buaa Wht
4
6-29From
One Model to Rank Them All- Unifying Online Advertising with End-to-End Learning.pdf
FromOne Model to Rank Them All- Unifying Online Advertising with End-to-End Learning.pdf
现代工业广告系统普遍采用多级级联架构(MCA),但其面临优化目标不一致和难以捕捉广告外部性等挑战,影响系统效率和平台盈利。本文提出UniROM,一种创新的端到端生成式架构,旨在将在线广告排序统一为单一模型,通过技术创新克服传统MCA的局限性,显著提升用户体验、平台收益和广告主投资回报率。UniROM整合了混合特征服务、RecFormer和AucFormer等核心组件,并采用两阶段训练策略,实现了从特征处理到最终广告序列生成的全面优化。
现有级联架构(MCA)的挑战
- 性能不一致性: 不同阶段(召回、预排序、排序、竞价)的优化目标不一致,且能力差异大,导致预测偏差和最终广告质量下降。
- 忽略广告外部性: 大多数现有排序方法基于独立点击率假设,未能考虑候选广告之间的复杂交互和相互影响,限制了性能。
- 系统效率与盈利受损: 上述问题最终导致系统有效性受损,并降低平台盈利能力。
UniROM:统一的端到端架构
- 核心理念: 将在线广告排序统一为一个模型(Uni fies online advertising Ranking as One Model),取代多级级联,直接从完整候选广告库生成最优广告序列。
- 应用场景: 尤其适用于基于位置服务(LBS)的广告系统,通过缩小候选集(如同一城市约10^5个广告)实现精细化建模。
- 关键优势: 消除不同管道阶段固有的目标冲突,实现端到端优化,提升用户兴趣探索和广告表示准确性。
UniROM的核心技术创新
- 混合特征服务(HFS): 算法与引擎协同设计,解耦用户和广告特征处理,通过本地存储和批量处理降低延迟和I/O成本,同时保持特征表达力。
- RecFormer: 创新的推荐框架,利用Global Cluster-Former (GCF)高效建模序列内关系,以及Mid-fusion Interest-Former (MIF)提取跨序列互信息,解决大规模注意力机制的计算瓶颈。
- AucFormer: 优化广告排序以符合平台目标,包含非自回归(NAR)生成器用于同时预测分配概率,以及排列感知评估器更准确地估计用户参与度(如pCTR, pCVR)。
- 支付网络: 在AucFormer中引入,通过神经网络学习最优支付规则,以满足经济约束(如个体理性IR)。
两阶段训练策略
- 预训练阶段: 重点是根据用户参与信号(如点击、购买)来对齐UniROM,利用二元交叉熵损失进行优化。
- 后训练阶段: 采用基于强化学习的拍卖反馈优化(RLAF),以平台盈利目标为导向,并指导支付网络满足预定义的经济约束(如激励兼容IC)。
实验结果与显著成效
- 离线评估: 在美团工业数据集上,UniROM在Recall@50、AUC、eCTR、eRPM等指标上显著优于现有SOTA的MCA,特别是IC指标Ψ从约9%大幅降至2.3%。
- 在线A/B测试: 实际部署显示,UniROM相较基线MCA在CTR、RPM和ROI上分别提升了+5.2%、+13.6%和+3.1%,同时在线响应时间仅增加2.2%。
- 消融研究与特征分析: 验证了GCF、MIF、AucFormer等组件的有效性,并证实MIF能够有效弥补交叉特征消除带来的性能损失。