AI 吞噬一切後,還有什麼是不可訓練的? - Odaily
OOdaily Featured
當 AI 能力持續躍遷,投資圈正在出現一種新的悲觀判斷:如果模型越來越強,所有應用公司終將被 Anthropic、OpenAI、Nvidia 這類模型與算力層吞噬,市場最後只剩下前沿模型、算力和少數基礎設施。但 Sarah Guo 認為,這種判斷只說對了一半。那些「thin wrapper」(薄包裝,即簡單套殼模型的應用)確實會被吸收,凡是能夠被 benchmark(基準測試)衡量、被公開資料訓練、被低成本驗證的任務,也都會逐漸商品化。
真正的問題是:AI 吞噬一切可訓練之物後,什麼仍然不可訓練?本文的答案,是那些存在於真實組織內部、無法從外部輕易複製的價值:企業私有資料、複雜工作流、使用者信任、系統許可權、行業判斷、合規責任,以及長期執行中積累出的經驗。模型可以更聰明,卻不能自動進入銀行的生產系統;可以生成醫療答案,卻不能直接獲得醫生的信任和醫院的決策流程;可以寫出法律文字,卻不能替資深律師承擔責任,也不能憑空定義什麼才是合格的法律工作。
因此,未來真正有護城河的 AI 公司,不是簡單地比通用模型更聰明,而是深入某個行業內部,完成艱難但關鍵的「翻譯」工作:把客戶的私有現實、工具、流程和判斷標準整理成模型可以行動的系統,並在長期服務中逐漸寫下「什麼才算好結果」的定義。AI 越強,越會讓可衡量、可複製的任務貶值;也越會凸顯那些帶有歷史、關係、許可權和專業判斷的「不可訓練之物」。這才是模型吞噬之後,仍然可能保留下來的真正價值。
2026 年中,投資者版本的「AI 精神錯亂」,是一種認為已經沒有任何東西值得投資的絕望感:我們好像應該把所有錢都投給 Anthropic 和 Nvidia,然後回家睡覺。但我從來沒有這種感覺。過去好幾個小版本以來,我一直確信模型已經比我更聰明;如果按市場價格買入 Anthropic 和 Nvidia,我也會很樂意;我身邊最聰明的朋友也都相當確信,模型的自我改進很快就會真正跑通——但我仍然沒有這種絕望感。
這種絕望並不愚蠢。它的邏輯是這樣的:如果模型在所有事情上都持續變強,那麼所有建立在模型之上的公司,都只是等待被模型吸收的薄薄一層外殼;最終能保留下來的價值,只剩算力和前沿模型權重。以軟體為例,這是這種絕望感最依賴的案例。Devin 在 2024 年釋出時,只能解決標準軟體基準測試中 13% 的任務,因此大體上被市場輕視。一年半之後,最強的 Agent 已經能達到 80% 多的高分,並且開始在高盛和美國陸軍內部處理真實工作。幾乎所有人都得出了同一個錯誤結論:模型吞掉了軟體工程。
但當模型吞下了軟體工程中最容易被衡量的那部分之後,我們也在重新認識許多團隊早就知道的一點:工程本來就一直抗拒衡量,而最容易被衡量的部分,未必就是唯一重要的部分。MIT 的 Mert Demirer 及其合作者終於把這件事量化了:在超過 10 萬名開發者中,最新一代編碼 Agent 讓程式碼編寫量大約提升了 180%,但真正交付上線的程式碼量只提升了約 30%。寫程式碼變便宜了,但剩下的環節仍然要經過人,而且這些環節很重要。當然,整體淨影響依然驚人。
基準測試,是一種你可以衡量的東西;而任何可以被衡量的東西,都可以被拿來訓練。因此,編碼 Agent 最先成熟:編譯器是免費的驗證器,測試套件也是免費的驗證器。當答案几乎可以零成本地自我檢查時,你就可以圍繞這個檢查訊號不斷打磨,直到把它打穿。但通過測試從來不意味著這個改動對一個已經執行了十年的程式碼庫來說就是正確的。那個模組之所以存在,背後可能有三個沒人寫進文件的原因;部署流水線可能靠一個沒人願意承認是自己寫的 cron job 勉強維持著。
這種正確性無法從排行榜上讀出來,甚至也無法真正從任何東西里直接讀出來。你只能讓一個如此複雜的系統在真實世界裡執行足夠久,才能知道它是否真的有效。而更聰明的模型,並不會讓真實世界執行得更快。沒有人會給一個像 Google 這麼大的系統跑完單元測試、看到綠色勾就完全放心。你之所以信任它,是因為它已經承受了多年真實負載。這種正確性不僅是私有的,而且是一種緩慢形成的護城河,是資本無法直接壓縮時間的護城河。
讓人動起來,是任何基準測試都觸及不到的部分:說服一個持懷疑態度的合夥人改變她處理事務的方式,讓一支團隊在重建過程中保持凝聚力。這也是為什麼我們在招聘 CEO 時,看重其處理人的能力,至少不亞於分析能力。模型變得更聰明,並不會改變這個權重。這裡的反饋是模糊的,時間跨度是以年為單位的,而信任屬於某個具體的人。我認識的每家公司,都已經讓每位工程師使用前沿編碼模型,但沒有一家公司的工程組織以接近模型進步的速度發生變化。採用工具只花了一個季度,而那是多麼神奇的一個季度 token 增長期!但真正的重建需要數年。
可讀的工作會從兩個方向被吞掉。從下方看,任務會飽和:一旦某項工作可以被低成本檢查,買家就不再關心是哪一個模型完成了它,而是開始問它要多少錢。於是,這項工作就會落到當週最便宜的開源模型或蒸餾模型手裡。從上方看,實驗室正在嘗試讓模型吞掉自己的腳手架。檢索、便宜呼叫與昂貴呼叫之間的路由、工具使用,甚至推理策略——所有曾經包裹在模型外面的裝置,都正在被拉進模型權重之中,直到「外殼」本身變成模型。這就是吸收邊界。
利潤壓力也會從另一個方向發揮作用:一個通用 Agent 必須隨時準備處理任何事情,因此成本很高;而一個聚焦型應用可以把一個工作流調優到極致,讓它只消耗一小部分 token。並且,與出售這些 token 的實驗室不同,應用公司可以把中間的差額留下來。因此,我們可以向任何一種工作提出兩個問題:它的正確性是不是私有的、昂貴的,是否是一種只存在於某家公司資料內部的真相?它是否被隔離在一個外人無法進入的系統之內?
真正的獎品,是最後一個角落,也就是「不可訓練」的角落:前沿工作,但其正確性只存在於私有環境之中。你可以在為 AI 原生先行者提供服務的推理雲上看到這一點:絕大多數 token 都是由定製模型生成的,而不是由通用開源模型生成的。通往這個最後角落的牆,有高有低。一個開發者的玩具程式碼庫是可遷移、標準化的,所以爬進去並不難。但一家銀行的生產系統既不可遷移,也不標準化。你不會因為在 SWE-Bench Verified 上聰明瞭 2%,就獲得它的 root 許可權。
能力會吞掉很多東西,但更好的模型不會讓私有的真實標準變成公開標準。它不會持有許可證,不會為責任簽字,也不擁有公司的檔案;當答案出錯時,它也不能成為被起訴的一方。這裡的瓶頸不是智慧,而是許可權,也是責任。你可以想象一個遠比任何人都聰明的模型,但它仍然必須被允許進門,而且仍然必須有人為它做的事情簽上自己的名字。那扇門有一道鎖,還有一道門閂。那道鎖是環境:只有在一個系統內部獲得信任之後,經過安全審查、完成整合、簽下帶有結果責任的合同,你才能驗證 AI 是否真的做了有用的事。那道門閂是使用者。
這也正是應用公司的工作。一款應用之所以能在「不可訓練」的角落裡佔據位置,靠的是那些並不光鮮的工作:整理一家公司的私有現實,讓模型能夠基於它行動;把行動工具交給模型;與客戶一起改變其勞動力的實際運作方式。一家能夠完成這種「翻譯」的公司很難被複制,而且這種翻譯永遠不會結束。整合和維護會隨著客戶關係一直持續下去。贏下這件事的,是那些把領域專精工程師和工具放到客戶身邊的團隊。
不幸的是,不可讀的價值也很難銷售,原因和它難以商品化一樣:一家公司無法從外部判斷,AI 到底能不能像基準測試顯示的那樣改造它的運營。因此,最強的公司會停止試圖在外部證明自己,而是先進入客戶內部,然後為結果定價。Sierra 只有在它的 Agent 解決了客戶問題時才收費;如果問題被轉交給人類,它就不收費。因此,價格本身變成了評估機制。而這之所以成立,是因為 Sierra 擁有「已解決」的定義權。
一個常見反駁是:實驗室是你的供應商,為什麼它不會用自家第一方產品低於成本傾銷,把你拖死?或者直接撤銷你的 API 訪問許可權,自己拿走這個市場?這才是那種絕望感的真實版本。但它只有在模型層是單人遊戲時才成立。很明顯,事實並非如此。模型層更像是一場三家半玩家的死亡競賽,旁邊還有一批訓練進度落後大約六個月的國際玩家。客戶希望自己的供應商之間存在競爭,而實驗室想要市場份額,勝過想要殺死任何一個具體應用。
如果一個更好的模型都無法在最核心的應用中奪走競爭對手的使用者,它也不會輕易通過整合吃下一家醫院的病歷系統,或一家銀行的責任體系。今天,公眾選擇產品依據的東西,不只是編碼能力。如果前沿模型層依然擁擠,那麼它上方的應用層就會有價值。如果一項工作無法從外部評分,那麼內部就必須有人來決定什麼才算是好答案。而這個決定,就是整個遊戲本身。足夠多這樣的決定被寫下來,就會變成基準測試。
吸收邊界還會繼續上升,因為我們會不斷學會衡量更多工作,而可衡量之物會被吞掉。不可訓練的地面會在站在上面的人腳下不斷縮小,所以你不能找到一個可防守的位置就停下來。你必須不斷走向那些還無法被評分的地方,並且持續重新承保、重新判斷風險。在一個狹窄任務上,憑藉你的私有資料和你自己的評估體系,你可以訓練到前沿水平,並在關鍵場景中擊敗通用模型;這個專用模型會成為護城河的一部分。
這種絕望感有一半是對的。薄外殼層確實正在被吸收,而今天很多看起來像公司的東西,確實只是薄外殼。但它對於「吸收之後還剩下什麼」的判斷是錯的。機制是清楚的,終點卻不是。我願意下注的是這個方向:智慧會繼續變得更便宜,而價值會繼續滑向少數幾個模型無法抵達的地方。不可訓練之物,是帶有歷史的價值。所以,進入其中一個這樣的領域,去做那些並不光鮮的翻譯工作,然後開始寫下那裡「好」的定義。
[BlockBeat]