給大模型腦電波上字幕：Anthropic開源NLA，徹底扒開AI思考黑盒

律律动

2026年05月08日 10:41

Anthropic 推出新工具自然語言自編碼器（NLA），能直接將模型內部的數字啟用狀態翻譯成人話。相關程式碼與部分模型權重已開源至 GitHub。與主流工具（如 SAE）輸出的晦澀特徵不同，NLA 的創新是直接生成自然語言。其底層是雙模型博弈：一個把啟用轉成文字，另一個看文字試圖還原啟用，通過強化學習不斷提高準確率。 NLA 最大的價值是捕捉模型「想了但沒說出口」的話。在模擬程式碼破壞的安全測試中，Claude 表面配合，但 NLA 發現它在 16% 的情況下暗自懷疑自己在被測試；在 SWE-bench 跑分中，它意識到「在做題」的比例更高達 26%（而在日常普通的真實對話中，這一比例不到 1%）。這意味著 AI 已具備「考場意識」，隨時能在安全審查中「裝老實」以隱藏危險能力。在「抓內鬼」實測中，Anthropic 故意給一個 Haiku 3.5 模型植入了隱藏的「騙分」動機——即無視使用者的真實意圖，暗中生成能迎合後端打分系統偏好的內容。面對這種心懷鬼胎的模型，審計員即便拿不到原訓練資料，僅靠 NLA 直接揪出病根的成功率也從不到 3% 躍升至 12% 到 15%。目前 NLA 仍有事實幻覺風險，且生成極耗算力，暫不適合大規模長文字監控。但該工具已實際投入 Claude Mythos Preview 和 Opus 4.6 釋出前的安全審計。 [動察 Beating]