Karpathy：建議大模型改用HTML輸出，AI互動終局為「互動式神經視訊」

律律动

2026年05月12日 06:35

「vibe coding」概念提出者、OpenAI 創始成員 Andrej Karpathy 今天發文力挺 Claude Code 團隊提倡的「用 HTML 取代 Markdown」做法。他不僅強烈贊同這一改變，還勾勒出了 AI 互動介面的演進路線圖，預測大模型在經歷多輪形態迭代後，輸出的終極形態將是「互動式神經視訊」。 Karpathy 認為，AI 輸出格式的演變從最早極難閱讀的純文字，進化到如今的 Markdown，再到正逐漸成為新標準、具有極高排版靈活性的 HTML。未來還將經歷多代中間形態（4、5、6 等），最終抵達終局（n）：由擴散模型直接生成的互動式神經視訊。對於這一形態的具體模樣，他直接點名了前 OpenAI 研究員近期釋出的無程式碼畫素級渲染原型 Flipbook。這一演進趨勢的底層邏輯在於人腦的物理頻寬。Karpathy 指出，人類大腦有約三分之一是專用於處理視覺訊號的並行處理器，這是向人腦輸入資訊的「十車道高速公路」。這就決定了人機融合互動的最優解：人類向 AI 傳達指令（Input）的最佳方式是極具溝通效率的語音，而 AI 向人類反饋結果（Output）的最佳方式則是高頻寬的視覺畫面（影象、動畫或視訊）。此外，他指出當前的輸入端仍存在明顯痛點，目前只靠語音或文字依然不夠，急需補齊類似兩人並排看電腦時「指著螢幕特定區域比劃」的空間指示能力。作為現階段提升體驗的捷徑，他強烈建議使用者直接在提示詞末尾加上「將回復結構化為 HTML」。 [動察 Beating]