OpenAI查清了「哥布林」從哪來的:一個性格獎勵訊號汙染了整條訓練流水線

MMetaEra
4 月 30 日(UTC+8),據動察 Beating 監測,OpenAI 發文覆盤了困擾 GPT 系列多代的「哥布林」問題。從 GPT-5.1 起,模型越來越愛在回答裡塞哥布林、小妖精之類的奇幻生物比喻,使用者投訴不斷。GPT-5.1 上線後,ChatGPT 對話中出現「goblin」一詞的頻率上升了 175%。到 GPT-5.4,問題徹底爆發。 根源在 ChatGPT 的「書呆子」(Nerdy)人格定製功能。這個人格的系統提示詞要求模型「用語言的趣味性消解一本正經」「承認世界的怪異並享受它」。訓練時,用於強化這個人格風格的獎勵訊號對含有奇幻生物詞彙的輸出打了更高分,76.2% 的資料集中都能觀察到這種偏向。 問題是獎勵訊號只在「書呆子」人格下生效,但強化學習不保證學到的行為只留在觸發條件裡。一旦模型在某個條件下被獎勵了某種說話習慣,這種習慣就會通過後續訓練擴散到其他場景。擴散路徑很清晰:獎勵訊號鼓勵了帶哥布林的輸出,這些輸出出現在後續的監督微調(SFT)資料裡,模型越來越習慣產出這類詞,形成正反饋迴圈。 資料上看,「書呆子」人格只佔 ChatGPT 全部回覆的 2.5%,卻貢獻了 66.7% 的哥布林提及量。GPT-5.4 中「書呆子」人格的哥布林出現率較 GPT-5.2 暴漲 3881%。 GPT-5.5 在根因查明前就開始訓練了,哥布林已經混進了 SFT 資料。OpenAI 在 3 月下線了「書呆子」人格,移除了偏向奇幻生物的獎勵訊號並過濾了訓練資料。對已上線的 GPT-5.5,則在 Codex 的開發者提示詞中加入抑制指令。OpenAI 稱這次調查催生了一套新的模型行為審計工具。 [BlockBeats]