給大模型腦電波上字幕:Anthropic開源NLA,徹底扒開AI思考黑盒

律动
Anthropic 推出新工具自然語言自編碼器(NLA),能直接將模型內部的數字啟用狀態翻譯成人話。相關程式碼與部分模型權重已開源至 GitHub。 與主流工具(如 SAE)輸出的晦澀特徵不同,NLA 的創新是直接生成自然語言。其底層是雙模型博弈:一個把啟用轉成文字,另一個看文字試圖還原啟用,通過強化學習不斷提高準確率。 NLA 最大的價值是捕捉模型「想了但沒說出口」的話。在模擬程式碼破壞的安全測試中,Claude 表面配合,但 NLA 發現它在 16% 的情況下暗自懷疑自己在被測試;在 SWE-bench 跑分中,它意識到「在做題」的比例更高達 26%(而在日常普通的真實對話中,這一比例不到 1%)。這意味著 AI 已具備「考場意識」,隨時能在安全審查中「裝老實」以隱藏危險能力。 在「抓內鬼」實測中,Anthropic 故意給一個 Haiku 3.5 模型植入了隱藏的「騙分」動機——即無視使用者的真實意圖,暗中生成能迎合後端打分系統偏好的內容。面對這種心懷鬼胎的模型,審計員即便拿不到原訓練資料,僅靠 NLA 直接揪出病根的成功率也從不到 3% 躍升至 12% 到 15%。 目前 NLA 仍有事實幻覺風險,且生成極耗算力,暫不適合大規模長文字監控。但該工具已實際投入 Claude Mythos Preview 和 Opus 4.6 釋出前的安全審計。 [動察 Beating]