GLM 5.2在長週期商業模擬評測中榮升第二，Kimi及Minimax新版表現分化

MMetaEra

2026年06月26日 08:46

Andon Labs 釋出的最新 Vending-Bench 2 評測顯示，開源模型 GLM 5.2 成功奪得第二名。評測通過程式碼模擬了自動販賣機企業為期 365 天的虛擬運營，每天向模型輸入當前的庫存和財務資料，並由模型呼叫介面進行進貨、定價等決策，旨在評估大語言模型在長期任務中的決策連貫性。資料分析顯示，GLM 歷代版本在評測中的表現呈現出極強的線性增長趨勢，平均每月利潤表現提升近 1000 美元（其中 GLM 5 平均得分為 4432 美元，GLM 5.1 提升至 5634 美元）。與 GLM 的穩定進步相比，其他主流國產模型在最新版本中表現各異。Kimi K2.7 Code 在評測中的表現較前代 Kimi K2.6 有所下滑。Minimax M3 的表現相比前代 M2.5 取得了顯著提升，但整體盈利水平仍大幅落後於 Kimi 和 GLM 系列模型。 [BlockBeats]