Karpathy:建議大模型改用HTML輸出,AI互動終局為「互動式神經視訊」
律律动
「vibe coding」概念提出者、OpenAI 創始成員 Andrej Karpathy 今天發文力挺 Claude Code 團隊提倡的「用 HTML 取代 Markdown」做法。他不僅強烈贊同這一改變,還勾勒出了 AI 互動介面的演進路線圖,預測大模型在經歷多輪形態迭代後,輸出的終極形態將是「互動式神經視訊」。
Karpathy 認為,AI 輸出格式的演變從最早極難閱讀的純文字,進化到如今的 Markdown,再到正逐漸成為新標準、具有極高排版靈活性的 HTML。未來還將經歷多代中間形態(4、5、6 等),最終抵達終局(n):由擴散模型直接生成的互動式神經視訊。對於這一形態的具體模樣,他直接點名了前 OpenAI 研究員近期釋出的無程式碼畫素級渲染原型 Flipbook。
這一演進趨勢的底層邏輯在於人腦的物理頻寬。Karpathy 指出,人類大腦有約三分之一是專用於處理視覺訊號的並行處理器,這是向人腦輸入資訊的「十車道高速公路」。這就決定了人機融合互動的最優解:人類向 AI 傳達指令(Input)的最佳方式是極具溝通效率的語音,而 AI 向人類反饋結果(Output)的最佳方式則是高頻寬的視覺畫面(影象、動畫或視訊)。
此外,他指出當前的輸入端仍存在明顯痛點,目前只靠語音或文字依然不夠,急需補齊類似兩人並排看電腦時「指著螢幕特定區域比劃」的空間指示能力。作為現階段提升體驗的捷徑,他強烈建議使用者直接在提示詞末尾加上「將回復結構化為 HTML」。
[動察 Beating]