Claude爆火研究漏引華人團隊成果，已捱打立正道歉

律律动

2026年04月07日 07:10

4 月 2 日 Anthropic 釋出了一篇新論文，研究了 Claude 內部的「情緒機制」，在 Sonnet 4.5 中發現了 171 種「情緒向量」。這些情緒會在與之關聯的情境中被啟用，並且與人類的心理結構和情緒空間相似。 MBZUAI 碩士生 Chenxi Wang 發現，其團隊在 2025 年 10 月發表的論文（《LLMs 會「感覺」嗎？情緒迴路的發現與控制》）才是首個系統研究大語言模型情緒產生內部機制的工作。當她讀到 Anthropic 的論文時，第一反應是「這不是我們去年做的嗎？」雙方的核心區別在於：此前多數研究關注模型識別文字中的情緒（即情緒感知），而雙方做的都是研究模型自身生成情緒（即情緒生成/內部機制）。 Anthropic 的通訊作者 Jack Lindsey 最初認為雙方工作與已有研究重疊，但 Chenxi Wang 逐一閱讀並指出區別後，他認可了這一區分。目前，Anthropic 已經更新其論文部落格，在「相關工作」部分明確新增了對這一工作的引用，事件以相對友好的方式得到解決。華人團隊的論文中曾提及三個核心發現：第一，大模型內部確實存在與具體語義無關的、穩定的情緒表示，不同情緒在神經網路淺層就開始形成清晰的分組，比如憤怒和厭惡捱得近、悲傷和恐懼捱得近，與人類直覺一致。第二，這些情緒機制由少數核心神經元和注意力頭主導，通過消融實驗發現，只需關閉 2-4 個神經元或 1-2 個注意力頭，模型的情緒表達能力就會大幅下降。第三，團隊將這些核心元件整合成跨層的「情緒迴路」，直接調節該回路可使模型生成指定情緒的準確率達到 99.65%，遠超傳統的提示詞引導和向量操控方法，即使是之前最難控制的「驚訝」情緒也實現了 100% 準確表達。該機制在 LLaMA 和 Qwen 等多個模型上均得到驗證，證明這是大語言模型的通用規律。 [1M AI News]