排序模型迭代
现代推荐系统主要的挑战:多场景多体裁、多目标的融合
- 多场景和多体裁
- 多业务场景覆盖
- 直播、电商货架、内容流
- 内容形态多样性
- 长图/多图组合
- 横竖版视频
- 图文混排
- 交互反馈多样性
- 支持正文页深度消费
- 流内即时交互(博主页访问/正文跳转/多媒体互动/社交行为)
- 多业务场景覆盖
- 多业务目标:和产品定位有关
- 抖音:效率逻辑
- 内容生态平衡 (保证爆款同时防止信息茧房)
- 商业价值和用户价值平衡
- 快手
- 公域私域流量平衡 (老铁文化和新用户破圈)
- 下沉市场保证(白牌扶持、内容渗透等)
- 小红书
- 社区文化:UGC、用户信任维护
- 有用心智:优质内容发现、知识沉淀
- 微博:
- 热点事件响应:突发流量下稳定性
- 社交关系沉淀:内容推荐沉淀社交关系
- 电商:淘宝拼多多
- 当期交易和生命周期价值平衡
- 互动、社交(”逛逛“)和交易价值融合
- 抖音:效率逻辑
多目标融合
- 融合方法演进
- 初期:静态融合 + 离线搜参
- 中期:强化学习实现动态搜参
- 将线上流量分成小流量池
- 基于当前参数生成新参数
- 收集用户反馈进行迭代
- 用户偏好变化快(如周末vs工作日)
- 融合参数需反映用户偏好实时变化
- 核心是reward计算,使用CEM、ES等算法
- 优化技巧
- 用户使用有周期性,每天定时初始化校正
- 先进行先验化分析,再差异化融合
- 加入异常检测机制确保参数一致更新
- 后期:融合公式优化
- 最新趋势:通过模型输出融合分
- 升级为多任务之后,通过模型进行目标融合
- 通过模型融合,能更好地捕捉很多非线性关系,具有更好的表达力
- 能做到个性化融合,每个用户融出来的东西是不一样的。
- 最新趋势:通过模型输出融合分
多任务(Multi-Task)
- 多任务建模的挑战
- 多目标间loss冲突与跷跷板效应
- 样本空间不一致问题
- loss平衡问题
- 常见多任务建模模型
- MMoE (Multi-gate Mixture-of-Experts)
- 核心思想:共享底层专家网络,为每个任务设计独立的门控网络
- 优势:通过门控机制学习任务间的关系,有效平衡共享与特化
- 应用:广泛应用于CTR、CVR等多目标预估
- SNR (Sub-Network Routing)
- 核心思想:动态路由机制,为不同样本选择不同的专家子网络
- 优势:比MMoE更灵活的专家选择策略,减少负迁移
- 创新:引入路由机制,优化专家利用率
- DMT-GRU (Deep Multitask GRU)
- 核心思想:结合GRU结构的多任务学习框架
- 优势:更好地捕捉序列信息和任务间时序依赖
- 应用:适合有序列依赖的多任务场景
- MM (Mixture of Multitask)
- 核心思想:在SNR基础上增加融合网络优化
- 优势:更好的任务间知识迁移,更强的表达能力
- 特点:全量模型,综合了多种多任务学习技术
- 多任务建模演进路线:
- 技术路线演进:硬连接 → MMOE → SNR/PLE
- 团队实践:采用SNR模型并进行两项优化
- 简化expert内部transformation结构
- 结合共享专家和独享专家策略
- 专家配置方法:基于业务数据反馈和估计偏差分析进行专家设计
- MMoE (Multi-gate Mixture-of-Experts)
- 实践效果
- PCGrad、UWL等方法在测试数据中有效,但在生产环境中效果会逐渐衰减
- 经验性参数设置在在线学习环境中有时更实用
- MMOE单独实现也能带来良好业务收益
多场景(Multi-Domain)
多场景建模是解决推荐系统中不同场景数据分布差异的重要技术。与多任务建模相比,多场景建模的主要动机有所不同:
- 多任务建模:主要解决某些目标稀疏的问题
- 多场景建模:解决不同规模场景间的知识迁移问题
多个推荐场景中,存在以下挑战:
- 场景规模差异大:小场景因数据量不足导致模型收敛困难
- 即使规模相近的场景,通过知识迁移也能带来业务收益
- 需要平衡共享知识与场景特化的需求
多场景建模是近期研究热点,与多任务建模在技术实现上有许多相通之处
多场景模型的核心特点是在多任务模型基础上增加了 Slot-gate 层。这一层使相同的 Embedding 能够针对不同场景表达不同作用。Slot-gate 的输出可分为三个方向:
- 连接专家网络
- 连接目标任务
- 连接特征
实践中,主模型采用 SNR (Sub-Network Routing) 替换了 CGC (Customized Gate Control),与多任务建模的技术迭代一脉相承。
场景:
- 首页推荐:热门流
- 发现页推荐:热点流
整体结构类似 SNR,顶层设计了点击、互动和时长三个目标塔。这三个目标塔针对热门和热点两个场景,进一步细分为六个具体目标。
此外,我们还增加了 Embedding Transform Layer,它与 Slot-gate 的区别在于:
- Slot-gate:主要识别特征在不同场景中的重要性差异
- Embedding Transform Layer:处理不同场景下embedding空间的差异,进行embedding映射转换
这一设计特别适用于处理两个场景中维度不同的特征,通过 Embedding Transform Layer 实现有效转换,促进跨场景知识迁移。
特征工程
兴趣表征和行为序列建模
- 主要技术演进
- DIN (Deep Interest Network)
- 核心:对不同行为构建多个序列,引入attention机制
- 特点:使用local activation unit学习用户序列与候选物料的权重分布
- 成果:实现热门精排方案,带来业务收益
- SIM (Search Interest Model)
- 在DIN基础上的改进模型
- 更适合搜索场景下的兴趣建模
- DMT (Deep Multifaceted Transformers)
- 核心:将Transformer架构应用于多任务学习
- 实践:团队简化了DMT模型,移除bias模块,用SNR替代MMoE
- 成果:上线后取得业务效果提升
- DIN (Deep Interest Network)
- 序列建模优化方向
- 多序列融合 (Multi-DIN)
- 方法:将多个行为序列展开,候选物料特征(mid/tag/authorid)作为query
- 流程:对每个序列单独做attention → 获取兴趣表征 → 拼接其他特征 → 进入多任务排序
- 长序列建模
- 实验:将点击/时长/互动序列从20条扩展到50条
- 结论:效果更好,与学术研究一致
- 权衡:需要更多算力成本
- 生命周期超长序列建模
- 与普通长序列的区别:
- 需离线构造用户长行为序列特征
- 通过搜索方式找到对应特征生成embedding
- 主模型与超长序列模型分开建模
- 业务价值评估:
- 在微博等快节奏平台价值有限(用户关注点变化快)
- 对低频/回流用户可能更有价值
- 与普通长序列的区别:
- 多序列融合 (Multi-DIN)
- 技术选择逻辑
- 序列长度与业务特性匹配:快节奏内容平台不宜过长
- 计算成本与效果提升平衡:序列越长,成本越高
- 用户类型差异化处理:活跃用户vs回流用户需不同策略
特征构造
在大规模推荐模型中,特征选择与工程面临的挑战与实践经验:
- 理论上有价值的特征加入后效果可能不及预期
- 大规模模型中已包含大量ID类信息,对用户偏好已有较好表达
- 简单统计特征在此情况下边际效益递减
常见特征工程思路
- 匹配特征:用户与物料、内容类型、发博者之间的详细统计数据,效果显著
- 多模态特征:解决低频/冷门物料的用户行为不足问题
- 方法一:多模态embedding直接融合
- 冻结底层embedding梯度,仅更新上层MLP
- 优点:保留完整语义信息
- 挑战:增加模型复杂度,需要空间变换和特征重要性分析
- 方法二:多模态聚类ID化
- 先对多模态特征聚类,将聚类ID作为特征输入模型
- 优点:模型复杂度低,线上服务简单,可达到90%左右效果
- 可与聚类ID的统计特征结合使用,进一步提升效果
- 缺点:会损失部分具体语义信息
- 方法一:多模态embedding直接融合
- 特征交叉:Co-action方法
- 动机:传统特征交叉方法(DeepFM、Wide&Deep)效果不佳
- 原因分析:可能是交叉特征与DNN部分共享embedding导致冲突
- 解决方案:为交叉特征单独开辟存储空间
- 效果:增加表达空间,获得业务收益提升
推荐链路
链路表达一致性
推荐系统中粗排和精排的一致性问题是影响整体效果的关键因素:
-
粗排截断问题
- 粗排通常会将候选集从海量内容截断至约1000条
- 若粗排与精排表达不一致,可能错误截断精排评分高的内容
- 提高一致性直接促进业务指标提升
-
粗排与精排差异来源
- 特征体系不同:粗排特征通常更简化
- 模型结构差异:粗排偏向轻量级向量检索结构
- 特征交叉时机:粗排特征交叉较晚,表达能力受限
-
技术演进路线
- 双塔模型路线:
- 优势:计算效率高,适合大规模候选集
- 局限:特征交互晚,表达能力有天花板
- 改进尝试:DSSM-autowide等交叉方式,类似Deep-FM结构
- DNN模型路线(2022年后):
- 优势:表达能力更强,打分质量更高
- 挑战:工程架构压力大,需要特征筛选、网络剪枝和性能优化
- 权衡:虽然一次性处理条数减少,但因打分质量提升而可接受
- 双塔模型路线:
-
实践经验总结
- 基于双塔模型的改进(如特征交叉增强)收益有限
- 多任务粗排模型尝试仍受双塔结构本身限制
- 向DNN架构迁移是提升粗排表达能力的有效途径
- 粗排与精排一致性提升是推荐系统优化的重要方向
这种一致性问题实质上反映了推荐系统多阶段架构中的信息损失与表达能力差异,解决这一问题需要在模型能力与计算效率间寻找平衡点。
级联模型
级联模型是解决粗排与精排一致性问题的有效方案,具有以下关键价值:
- 架构优势
- 采用DNN和级联模型的Stacking架构,实现粗排内部的"粗-精"两级处理
- 通过双塔模型进行初筛,再由DNN模型进行精细打分
- DNN模型支持更复杂结构,能更快拟合用户兴趣变化
- 解决大规模候选集问题
- 在推荐框架中扮演关键角色,实现从大候选集到小候选集的高效筛选
- 解决了直接使用DNN处理大规模候选集的计算瓶颈
- 样本构造策略
- 核心在于合理构造训练样本
- 在推荐漏斗各环节(百万级物料→召回数千→精排千条→曝光数十→用户行为个位数)进行采样
- 通过组合难易不同的样本对(pairs)提升模型学习效果
级联模型通过优化和全局负采样带来了显著的效果提升,是现代推荐系统中平衡表达能力与计算效率的重要技术方案。
因果推断和Debias
因果推断的关键价值
- 个性化推荐的平衡
- 解决流行物品偏置与用户小众兴趣之间的矛盾
- 提升推荐系统对用户个性化需求的满足能力
- 避免模型过度推荐高流行度但与用户兴趣不匹配的内容
- 实现方法
- 构建特殊的pairwise样本对:用户点击的低流行度物料 vs 未点击的高流行度物料
- 采用贝叶斯方法设计loss函数进行模型训练
- 通过反事实推理识别真实的用户兴趣因果关系
- 应用策略
- 在粗排和召回阶段应用效果优于精排阶段
- 对个性化能力较弱的模型组件带来更显著的提升
- 与模型复杂度和表达能力呈反比关系
Debias的重要性
- 数据偏差问题
- 推荐系统天然存在曝光偏差、位置偏差和流行度偏差
- 这些偏差导致模型学习到的是有偏的用户行为而非真实兴趣
- 长期存在会造成推荐系统的马太效应,损害长尾内容生态
- Debias的核心价值
- 打破推荐系统中的正反馈循环,避免信息茧房
- 提升内容多样性,增强用户发现新兴趣的可能性
- 为创作者提供更公平的曝光机会,促进平台生态健康发展
- 实施挑战与方法
- 需要平衡去偏与推荐准确性之间的关系
- 结合因果图和干预模型识别和消除有害偏差
- 通过反事实学习和倾向性得分匹配等技术实现有效去偏
因果推断和Debias技术不仅提升了推荐系统的个性化能力,更是构建公平、多元推荐生态的关键技术支撑,对推荐系统的长期健康发展具有战略意义。
LLM for Rec
LLM与推荐系统的融合趋势
- 基础模型技术对推荐系统的革新
- Transformer架构为序列建模带来突破性进展,显著提升推荐模型对用户行为序列的理解能力
- 自注意力机制能更精准捕捉用户兴趣在不同物品间的关联性和演变规律
- 预训练-微调范式使推荐模型能够从海量通用数据中学习,再针对特定场景优化
- LLM赋能推荐系统的关键价值
- 多模态理解能力:整合文本、图像、视频等多种内容形式,实现更全面的物品表征
- 长文本理解:深入解析物品详细描述、用户评论等长文本信息,挖掘深层次特征
- 跨域知识迁移:利用LLM的通用知识,解决冷启动和数据稀疏问题
- 意图理解增强:通过自然语言交互,精准理解用户复杂、模糊的需求表达
- 实现路径与技术方案
- LLM作为特征提取器:利用LLM生成高质量的物品和用户表征,作为传统推荐模型的输入
- LLM增强的混合架构:将LLM与传统推荐模型结合,前者负责语义理解,后者负责个性化匹配
- 端到端LLM推荐:将推荐任务重新定义为生成式任务,直接利用LLM生成推荐结果
- RAG增强推荐:结合检索增强生成技术,提升推荐的时效性和准确性
LLM与推荐系统的结合正在重塑推荐技术的发展路径,从特征表示、模型架构到交互方式都带来了革命性变化,为解决传统推荐系统的长尾问题、冷启动问题和解释性问题提供了新的可能性。
大规模+实时+深度
特征实时性
- 用户兴趣实时捕捉
- 用户兴趣变化快速,实时特征能够捕捉最新行为偏好
- 短期兴趣往往比长期兴趣对当前决策影响更大
- 实时特征能够显著提升推荐相关性和时效性
- 业务场景时效性要求
- 新闻、短视频等内容消费场景对实时性要求极高
- 电商促销、直播带货等场景需要实时响应用户行为变化
- 实时特征能够减少推荐延迟,提升用户体验
- 实时特征工程的挑战
- 海量用户行为数据的实时收集与处理
- 特征计算与存储的效率与成本平衡
- 实时特征与离线特征的一致性保障
模型实时性
- 模型实时更新的必要性
- 内容分发环境快速变化,模型需要及时适应
- 冷启动内容需要快速获得准确的模型评估
- 实时模型更新能够减少模型漂移带来的性能下降
- 实时学习的技术挑战
- 增量学习与全量学习之间的平衡
- 模型更新频率与计算资源消耗的权衡
- 实时特征与模型更新的协同优化
- 实时推荐系统的架构设计
- 流式计算框架(如Flink, Spark Streaming)的应用
- 特征存储选型(如Redis, Cassandra)对实时性的影响
- 在线学习与近线学习的混合架构设计
实时性提升的应对策略
- 技术层面的解决方案
- 采用流批一体的特征计算架构
- 实现特征计算的增量更新与缓存机制
- 部署轻量级模型用于实时预测,复杂模型用于离线训练
- 算法层面的优化方向
- 设计适合增量更新的模型结构
- 采用在线学习算法(如FTRL, Follow-the-Regularized-Leader)
- 引入时间衰减因子,增强近期行为的权重
- 工程实践的最佳经验
- 构建特征实时性监控指标体系
- 建立模型性能随时间变化的评估机制
- 实现灰度发布与快速回滚的模型更新策略
实时性已成为现代推荐系统的核心竞争力,通过特征与模型的实时化,能够显著提升推荐系统对用户兴趣变化的响应速度,为用户提供更加及时、相关的内容推荐。