北大董豪談具身大模型演進趨勢:從模仿到強化、從單任務Scaling到通用Scaling

MMetaEra
北京大學計算機學院副教授、上緯啟元首席科學家董豪近日在北大科技園交流中談及具身大模型演進趨勢。作為橫跨具身智慧領域產學研的專家,董豪拆解了當前模仿學習、強化學習、模擬資料集等主流技術路線的瓶頸,並提出全新橫向二維Scaling Law框架,統一解釋世界模型、生成式資料增強、人示教資料轉化等前沿方案的底層邏輯,為家用、通用人形機器人落地指明技術演進方向。 以下為報告實錄:我至今仍清晰地記得 AlphaGo 團隊做分享的場景 —— 當時我就在倫敦,UCL 離我的住處很近。那場演講給我留下了極為深刻的震撼,也讓我對 AI 技術的演進邏輯有了更本質的思考。AlphaGo 的成功,清晰地展現了 AI 能力躍升的第一套經典正規化:先模仿,後強化。它首先通過海量人類棋譜進行監督學習,本質上就是模仿人類棋手的落子決策。但這種純模仿學習有一個天然的天花板:模型的能力永遠無法超越訓練資料中人類的最高水平。 為了突破這個瓶頸,AlphaGo 引入了自對弈強化學習:讓兩個經過預訓練的模型相互對弈,通過勝負結果產生明確的反饋訊號。在這個過程中,模型不再受限於人類經驗,能夠自主探索出人類從未想到過的策略,最終實現了對人類頂尖棋手的超越。這一 “模仿 – 強化” 的技術演進路徑,在後來的 ChatGPT 身上得到了完美復刻。ChatGPT 首先基於網際網路海量文字資料進行大規模預訓練,這一階段的核心依然是模仿學習 —— 學習人類語言的表達方式和知識體系。而它之所以能從一個 “會說話的模型” 變成一個 “會好好說話的模型”,關鍵在於引入了基於人類反饋的強化學習(RLHF):讓模型對同一個問題生成多個回答,由人類標註員對不同回答的質量進行打分,再將這些人類偏好作為回報訊號來微調模型。 與 AlphaGo 的自對弈相比,ChatGPT 的強化學習之所以需要引入人類,核心區別在於反饋訊號的確定性:下棋的勝負由清晰的規則決定,是一個絕對客觀的標準;而一個回答的好壞沒有統一的規則可循,只能依賴人類的主觀判斷。今天的具身智慧大模型,依然在沿著這條被反覆驗證的技術路徑前進。現階段,我們首先通過採集大量人類專家的正確示範資料,讓模型進行模仿學習,掌握基本的動作技能和任務流程。但純模仿學習的固有缺陷在具身領域同樣存在:模型只見過 “正確的做法”,從未經歷過 “失敗的場景”,一旦遇到訓練資料中沒有的意外情況,就很容易出錯。 而目前解決這個問題最直接有效的方法之一,正是 2011 年提出的DAgger(資料集聚合)演算法。其核心思想非常樸素:當模型在真實環境中執行任務出現錯誤時,立即由人類專家接管並進行修正,然後將這些修正後的 “糾錯資料” 迴流到訓練集中,對模型進行持續迭代訓練。通過這種 “試錯 – 糾錯 – 再訓練” 的閉環,模型的魯棒性和泛化能力會不斷得到強化。值得一提的是,DAgger 演算法最早被廣泛應用於自動駕駛領域,但它在自動駕駛場景中遇到了巨大的落地障礙。一方面,自動駕駛的錯誤往往伴隨著嚴重的安全風險,我們不可能為了採集糾錯資料而放任事故發生;另一方面,自動駕駛對單次任務成功率的要求近乎苛刻,哪怕是萬分之一的失誤率都可能導致災難性後果,長尾問題極其複雜。 相比之下,絕大多數具身智慧任務的容錯空間要大得多。以疊衣服為例,即使單次成功率只有 95%,模型完全可以在失敗後重新嘗試一次,直到成功為止。更重要的是,這些任務的失敗通常不會產生任何不可挽回的嚴重後果。正是基於這一核心差異,我們有理由相信:具身智慧的商業化落地速度,很可能會比自動駕駛更快。然而,當我們把目光投向更遠的未來,就會發現”模仿 + 強化”的scaling law正規化雖然能解決單個任務的落地問題,卻無法回答通用具身智慧的終極命題。 自動駕駛本質上是在追求單一任務的極致優化 —— 它只需要做好 “安全駕駛” 這一件事。但具身智慧的終極目標截然不同:我們需要的不是一萬個只能做一件事的專用機器人,而是一個能做一件事的通用機器人。這就意味著,傳統Scaling Law的描述方式已經走到了盡頭。過去我們只把資料量、引數量、計算量作為Scaling的維度,認為只要線性增加這些資源,就能獲得線性的能力提升。但在具身智慧領域,這套邏輯註定失效:你不可能為世界上每一個可能的家務動作、每一種可能的操作場景,都單獨採集百萬級資料、單獨訓練一個模型。單任務Scaling的邊際收益會極速遞減,最終陷入 “逐個任務攻克” 的死衚衕。 因此,我們必須建立一個全新的Scaling視角:”任務數量 – 資料量”Scaling Law。我們要把 “任務數量” 作為與 “資料量” 同等重要的核心座標軸。通用能力從來不是在單個任務上堆出來的,而是在海量不同任務之間遷移出來的。當模型在越來越多不同任務上進行訓練時,它會逐漸掌握物理世界的通用規律 —— 比如物體的剛性、重力的作用、摩擦力的影響、工具的通用使用方法。此時,面對一個從未見過的全新任務,模型的初始完成率會顯著提升,達成高成功率所需的額外樣本量會持續下降,真正實現 “越學越快、越學越省”。 今天行業裡百花齊放的技術路線,無論是世界模型、UMI,還是模擬資料生成、人類第一視角視訊預訓練,看似方向分散,底層邏輯卻高度統一:所有這些技術創新,本質上都是為了加速這條新的”任務數量 – 資料量”Scaling曲線的成型。它們要麼在提升單條資料的跨任務遷移價值,要麼在降低新增任務的訓練成本,最終共同推動具身智慧從 “專用” 走向 “通用”。 [ME AI]