羅福莉:大模型邁入後訓練時代,頂尖團隊預訓練與後訓練算力比達1:1

MMetaEra
4 月 24 日(UTC+8),據 動察 Beating 監測,小米大模型團隊負責人羅福莉指出,大模型競爭已從預訓練主導的 Chat 時代,全面轉向後訓練(Post-train)主導的 Agent 時代。當前的核心賽點是「如何在 Agent 上做好強化學習(RL)的 scaling」。 這一正規化轉變直接導致算力分配的重構。羅福莉透露,在 Chat 時代,用於研究、預訓練和後訓練的算力比例約為 3:5:1;而在如今的 Agent 時代,合理的算力分配比例變為 3:1:1,即預訓練與後訓練的算力投入已基本相當,目前頂尖模型團隊在這兩項的投入比例已達到 1:1。 同時,系統架構的要求也發生鉅變。過去的 RL 基礎設施主要以「模型推理引擎」為核心,處理純文字演算;現在的基建必須以「Agent」為核心,支援異構叢集排程,並能容忍 Agent 在複雜工作流中因各類不可控因素中斷的模糊性。 [BlockBeats]