Meta FAIR 研究員分享透過非合作博弈實現語言模型安全對齊的研究
MMetaEra
3 月 19 日(UTC+8),近日,斯坦福大學NLP小組舉辦研討會,邀請Meta基礎人工智慧研究(FAIR)的@arreqe_ai分享了題為《通過非合作博弈實現語言模型的安全對齊》的報告。報告摘要指出,在保持語言模型實用性的同時確保其安全性是AI對齊領域的關鍵挑戰。
報告介紹了一種新正規化:將安全對齊視為攻擊者LM和防禦者LM之間的非零和博弈,通過線上強化學習聯合訓練,使雙方模型持續適應對方不斷演變的策略,驅動迭代改進。該方法使用基於偏好的獎勵訊號(源自成對比較而非點式評分),以提供更魯棒的監督並可能減少獎勵破解。
其強化學習方案AdvGame改變了安全性與實用性的帕累託前沿,產生了一個同時更有幫助且對對抗攻擊更具彈性的防禦者LM。此外,由此產生的攻擊者LM會收斂為一個強大的、通用的紅隊代理,可直接用於探測任意目標模型。
[InFoQ]