Meta FAIR 研究員分享透過非合作博弈實現語言模型安全對齊的研究

MMetaEra

2026年03月18日 23:03

3 月 19 日（UTC+8），近日，斯坦福大學NLP小組舉辦研討會，邀請Meta基礎人工智慧研究（FAIR）的@arreqe_ai分享了題為《通過非合作博弈實現語言模型的安全對齊》的報告。報告摘要指出，在保持語言模型實用性的同時確保其安全性是AI對齊領域的關鍵挑戰。報告介紹了一種新正規化：將安全對齊視為攻擊者LM和防禦者LM之間的非零和博弈，通過線上強化學習聯合訓練，使雙方模型持續適應對方不斷演變的策略，驅動迭代改進。該方法使用基於偏好的獎勵訊號（源自成對比較而非點式評分），以提供更魯棒的監督並可能減少獎勵破解。其強化學習方案AdvGame改變了安全性與實用性的帕累託前沿，產生了一個同時更有幫助且對對抗攻擊更具彈性的防禦者LM。此外，由此產生的攻擊者LM會收斂為一個強大的、通用的紅隊代理，可直接用於探測任意目標模型。 [InFoQ]