羅福莉：大模型邁入後訓練時代，頂尖團隊預訓練與後訓練算力比達1:1

MMetaEra

2026年04月24日 04:29

4 月 24 日（UTC+8），據動察 Beating 監測，小米大模型團隊負責人羅福莉指出，大模型競爭已從預訓練主導的 Chat 時代，全面轉向後訓練（Post-train）主導的 Agent 時代。當前的核心賽點是「如何在 Agent 上做好強化學習（RL）的 scaling」。這一正規化轉變直接導致算力分配的重構。羅福莉透露，在 Chat 時代，用於研究、預訓練和後訓練的算力比例約為 3:5:1；而在如今的 Agent 時代，合理的算力分配比例變為 3:1:1，即預訓練與後訓練的算力投入已基本相當，目前頂尖模型團隊在這兩項的投入比例已達到 1:1。同時，系統架構的要求也發生鉅變。過去的 RL 基礎設施主要以「模型推理引擎」為核心，處理純文字演算；現在的基建必須以「Agent」為核心，支援異構叢集排程，並能容忍 Agent 在複雜工作流中因各類不可控因素中斷的模糊性。 [BlockBeats]