GLM 5.2在長週期商業模擬評測中榮升第二,Kimi及Minimax新版表現分化
MMetaEra
Andon Labs 釋出的最新 Vending-Bench 2 評測顯示,開源模型 GLM 5.2 成功奪得第二名。評測通過程式碼模擬了自動販賣機企業為期 365 天的虛擬運營,每天向模型輸入當前的庫存和財務資料,並由模型呼叫介面進行進貨、定價等決策,旨在評估大語言模型在長期任務中的決策連貫性。
資料分析顯示,GLM 歷代版本在評測中的表現呈現出極強的線性增長趨勢,平均每月利潤表現提升近 1000 美元(其中 GLM 5 平均得分為 4432 美元,GLM 5.1 提升至 5634 美元)。
與 GLM 的穩定進步相比,其他主流國產模型在最新版本中表現各異。Kimi K2.7 Code 在評測中的表現較前代 Kimi K2.6 有所下滑。Minimax M3 的表現相比前代 M2.5 取得了顯著提升,但整體盈利水平仍大幅落後於 Kimi 和 GLM 系列模型。
[BlockBeats]