Claude爆火研究漏引華人團隊成果,已捱打立正道歉

律动
4 月 2 日 Anthropic 釋出了一篇新論文,研究了 Claude 內部的「情緒機制」,在 Sonnet 4.5 中發現了 171 種「情緒向量」。這些情緒會在與之關聯的情境中被啟用,並且與人類的心理結構和情緒空間相似。 MBZUAI 碩士生 Chenxi Wang 發現,其團隊在 2025 年 10 月發表的論文(《LLMs 會「感覺」嗎?情緒迴路的發現與控制》)才是首個系統研究大語言模型情緒產生內部機制的工作。當她讀到 Anthropic 的論文時,第一反應是「這不是我們去年做的嗎?」雙方的核心區別在於:此前多數研究關注模型識別文字中的情緒(即情緒感知),而雙方做的都是研究模型自身生成情緒(即情緒生成/內部機制)。 Anthropic 的通訊作者 Jack Lindsey 最初認為雙方工作與已有研究重疊,但 Chenxi Wang 逐一閱讀並指出區別後,他認可了這一區分。目前,Anthropic 已經更新其論文部落格,在「相關工作」部分明確新增了對這一工作的引用,事件以相對友好的方式得到解決。 華人團隊的論文中曾提及三個核心發現:第一,大模型內部確實存在與具體語義無關的、穩定的情緒表示,不同情緒在神經網路淺層就開始形成清晰的分組,比如憤怒和厭惡捱得近、悲傷和恐懼捱得近,與人類直覺一致。 第二,這些情緒機制由少數核心神經元和注意力頭主導,通過消融實驗發現,只需關閉 2-4 個神經元或 1-2 個注意力頭,模型的情緒表達能力就會大幅下降。 第三,團隊將這些核心元件整合成跨層的「情緒迴路」,直接調節該回路可使模型生成指定情緒的準確率達到 99.65%,遠超傳統的提示詞引導和向量操控方法,即使是之前最難控制的「驚訝」情緒也實現了 100% 準確表達。該機制在 LLaMA 和 Qwen 等多個模型上均得到驗證,證明這是大語言模型的通用規律。 [1M AI News]