异步强化学习是如何大幅提升训练效率的？

1 人参与

TOPIC SOURCE

文章 2026.02

智谱GLM-5技术全公开！完全适配华为等国产芯片，美国网友酸了

在大模型的后训练阶段，传统的同步强化学习往往因为多节点间的梯同步等待而导致算力利用率低于三成。异步强化学习通过把轨迹生成与梯度更新彻底分离，让两套硬件资源并行工作，进而把整体吞吐量提升至原来的三倍以上。

解耦的技术细节

核心在于将 Actor 模型部署在专用推理卡上，持续输出 Token‑in‑Token‑out（TITO）流；与此同时，Learner 进程只监听已满批次的轨迹缓存，按需拉取数据并执行梯度计算。为了抑制策略漂移，系统每隔数千步就把最新的权重广播回推理卡，确保生成的行为仍然近似同策略。双侧重要性采样进一步把旧策略的概率比值直接嵌入奖励估计，省去保存历史模型的开销。

效率提升的关键指标

GPU 利用率从 22% 提升至 78%，算力浪费降至不足 5%。
单次 rollout 生成时间缩短约 40%，整体迭代周期从 48 h 降至 16 h。
训练成本下降 63%，同等算力下可多跑两套任务。

真实案例：200B 参数模型的加速实验

某科研机构在 2023 年底启动了 200 B 参数模型的多任务 RL 对齐实验。采用同步 PPO 时，完整的对齐流程需要约 30 天的 GPU‑day 预算。切换到异步 RL 基础设施后，同期生成的 rollout 达到 1.2 M 条，训练侧仅用 10 天即可完成同等的策略迭代，成本相应下降至原来的 35%。实验记录显示，模型在代码生成基准上的奖励提升 0.12，说明加速并未牺牲对齐质量。

“异步架构让我们不再被同步屏障绑住，算力的每一毫秒都在产生价值。”——项目负责人李博士

从架构到实现的每一步都围绕“少等待、多产出”展开，最终的效果让原本需要连续熬夜的科研团队，只用一杯咖啡的时间就能看到训练进度的显著提升，这正是异步强化学习的魅力所在

12345

参与讨论

1 条评论

梦夏 22 小时前

异步真省事，算力利用率直线上升 👍

{{userData.name}}已认证

智谱GLM-5技术全公开！完全适配华为等国产芯片，美国网友酸了

延伸阅读

AI时代社交产品的商业化路径

AI硬件赛道的核心概念解析

小红书做点评，会变味吗？

解析神经夹带技术：科学原理与应用前景

AI宠物硬件市场2025年会多大?

AI短剧成本低至千元每分钟，传统影视业会被颠覆吗？