世界盃才踢幾天, AI 預測已經有模型封神,有模型翻車 - Odaily
OOdaily Featured
本屆世界盃,最熱鬧的地方不只在球場上。隨著世界盃相關預測事件熱度升溫,越來越多使用者開始用真金白銀參與交易。誰能贏、幾比幾、會不會爆冷、有沒有紅牌、哪名球員能進球,這些原本屬於球迷賽前閒聊的話題,如今被拆成了一個個可以交易的預測事件。
而當預測變成交易,使用者需要的就不只是情緒和直覺:賠率變化、球隊狀態、傷病資訊、歷史交鋒、市場情緒,都會成為交易前的參考。在這一過程中,AI 模型開始被頻繁拉進世界盃預測場景裡。千問、ChatGPT、Gemini、Claude、DeepSeek、Qwen 以及 Copilot 等大模型,不僅能回答“哪支球隊更可能贏”,還能給出比分判斷、爆冷可能、紅牌風險、關鍵球員表現和比賽走勢分析。對於預測市場參與者來說,AI 的賽前推演,正在成為賠率、新聞、球隊資料和市場情緒之外的另一層參考。
不過,預測最終仍要回到比賽本身。隨著世界盃正式開賽,前幾場比賽結果已經陸續出爐。那些賽前被使用者拿來輔助判斷的 AI 分析,也終於有了可以對照的答案:比分有沒有押中,爆冷有沒有提前看到,紅牌、絕殺、比賽走勢這些細節,又有多少真正被模型捕捉到了。
最先出圈的,竟是千問。世界盃首日最有節目效果的,無疑是千問。揭幕戰墨西哥對南非,千問賽前給出的預測是墨西哥 2:0 南非。比賽結束後,比分真的定格在 2:0。更有看點的是,全場一共出現三張紅牌,也和千問賽前提到的“南非防守動作過大、可能早早陷入少打一人”的風險判斷基本吻合。
如果只是判斷墨西哥取勝,這並不算太意外。作為東道主之一,墨西哥本身就更被看好。但千問這次踩中的是更具體的比賽細節:2:0 的比分、南非的紅牌風險,以及比賽中後段被逐漸拉開的節奏。緊接著,韓國對捷克這場,千問又給出了韓國 2:1 的判斷。這場比賽賽前並不算好猜,捷克有身體對抗,有定位球威脅,也有歐洲球隊一貫的大賽經驗。比賽過程也確實沒有一邊倒,捷克先取得領先,韓國隨後扳平,比賽一度長時間僵在 1:1。直到最後階段,韓國打進位制勝球,比分最終變成 2:1。這一下,千問的預測就有了更強的“劇本感”。
Copilot:有神來一筆,也有明顯翻車。賽前,USA Today 曾讓 Copilot 預測了本屆世界盃全部 104 場比賽。從目前已經結束的比賽來看,這份預測既有高光,也有明顯失手。其中,有三場比賽的預測最亮眼。揭幕戰墨西哥對南非,Copilot 給出的預測是墨西哥 2:0,最終比分正好命中。韓國對捷克,它預測韓國 2:1,同樣與賽果一致。到了巴西對摩洛哥,Copilot 又給出 1:1 的判斷,結果巴西真的被摩洛哥逼平。
尤其是巴西 1:1 摩洛哥這場,含金量不低。巴西畢竟是傳統豪門,陣容和關注度都在第一梯隊。摩洛哥雖然上屆世界盃打進四強,但面對巴西,賽前直接預測雙方打平,並不是一個特別安全的選擇。結果比賽踢完,巴西沒有拿下開門紅,摩洛哥也延續了自己在大賽中的韌性,Copilot 這場預測確實是“神來一筆”。
但 Copilot 的問題也很快暴露出來。它預測加拿大 2:1 戰勝波黑,結果雙方踢成 1:1;預測瑞士 1:0 小勝卡達,結果瑞士同樣被逼平;預測美國 2:0 巴拉圭,方向雖然對了,但實際比分是 4:1,進攻強度被明顯低估。更明顯的翻車,出現在幾場爆冷和強隊受阻的比賽裡。土耳其對澳大利亞,Copilot 預測土耳其 2:1 取勝,結果澳大利亞 2:0 爆冷贏球。厄瓜多對象牙海岸,它預測厄瓜多 2:1,結果象牙海岸 1:0 拿下。荷蘭對日本,它預測荷蘭 2:1,結果日本兩度追平,最終雙方 2:2 戰平。瑞典對突尼西亞,它預測 1:1,結果瑞典直接踢出 5:1。
ChatGPT:分析很完整,但冷門抓得不夠準。相比 Copilot 的完整賽程預測,ChatGPT 更像是一個“賽前分析型選手”。在揭幕戰預測中,ChatGPT 預測墨西哥 2:0 南非,最終比分命中。它給出的理由也比較完整,包括墨西哥的主場優勢、近期狀態、南非進攻乏力,以及墨西哥城高海拔和主場氛圍等因素。這次預測中,ChatGPT 不只是給了結果,背後的判斷邏輯也和比賽結果對上了。
但到了對世界盃完整賽程預測裡,ChatGPT 的穩定性就沒那麼強。雖然它命中了墨西哥 2:0 南非和巴西 1:1 摩洛哥,也看對了蘇格蘭、德國、瑞典等幾場比賽的勝負方向。但在韓國 2:1 捷克、卡達 1:1 瑞士、澳大利亞 2:0 土耳其、日本 2:2 荷蘭這些比賽上,ChatGPT 的判斷都預測了紙面實力更強的隊伍。比如瑞士應該贏卡達,土耳其應該贏澳大利亞,荷蘭應該小勝日本。ChatGPT 不是沒有預測能力,它能把球隊實力、主場環境、近期狀態拆得很清楚,也能在部分比賽裡命中比分。但從目前結果看,它更擅長解釋“為什麼熱門隊更合理”,而不是提前識別哪些比賽可能偏離熱門劇本。
Gemini、Grok、Claude:同一場比賽,不同模型寫出不同劇本。除了千問、Copilot 和 ChatGPT,還有一些社媒使用者把同一場比賽餵給多個模型做賽前預測。以揭幕戰墨西哥對南非為例,有博主同時測試了 ChatGPT、Gemini、Grok 和 Claude 四款 AI 模型進行賽前預測。結果顯示,ChatGPT 和 Gemini 都給出了墨西哥 2:0 南非的預測,最終比分正好命中;Grok 預測墨西哥 2:1,Claude 預測墨西哥 3:1,雖然都看對了墨西哥取勝,但沒有押中具體比分。
這次揭幕戰的預測,不同模型給出了三種不同的“劇本”。ChatGPT 和 Gemini Pro 更接近實際比賽:墨西哥佔優,南非進攻乏力,最終被零封。Grok 更像是給了一個相對開放的比分,認為南非會有反擊收穫。Claude Sonnet 則把墨西哥的進攻預期拉得更高,給出了 3:1 這種更大開大合的結果。
小結:由於目前可回溯的 AI 預測樣本仍然有限,現階段還不能直接判斷哪個模型最“懂球”。但只看已經結束的幾場比賽,差異已經開始顯現。千問目前最有記憶點,首日連續命中墨西哥 2:0 南非、韓國 2:1 捷克,還踩中了紅牌風險和比賽走勢,屬於小樣本里的高光表現。不過,後續能否持續命中,還需要更多比賽驗證。
Copilot 和 ChatGPT,兩者都有命中具體比分的高光,但也都暴露出一個共同問題——面對澳大利亞擊敗土耳其、卡達逼平瑞士、日本戰平荷蘭這類偏離紙面實力的比賽,判斷仍然不夠敏感。至於 Gemini、Grok、Claude 等模型,目前公開樣本更多集中在單場或社媒對照,參考價值有,但還不適合直接下排名。AI 已經可以成為世界盃預測市場使用者的一層參考,但還遠不是標準答案。接下來,Odaily星球日報也會繼續收集各模型賽前預測,並隨著比賽推進持續回看:哪些模型只是開局運氣好,哪些模型真的能在更多場次裡經得起賽果檢驗。
[Odaily 星球日報]