圖片來源:視覺中國
藍鯨新聞4月9日訊(記者 朱俊熹)開源霸主Meta近來陷入了尷尬的境地。當地時間4月5日,Meta發布了全新的Llama 4系列模型。但很快便因為實測效果不及預期,而遭遇“刷榜”爭議。
Meta此次率先推出了Llama 4系列中的Scout(偵察者)、Maverick(獨行俠)兩款模型,并預覽了仍在訓練中的Behemoth(巨獸)模型。據其介紹,Llama 4 Maverick在LM Arena評測榜中位居第二,超越了ChatGPT-4o、DeepSeek-V3等領先模型,僅次于谷歌的Gemini 2.5 pro。
圖片來源:Meta
但引起注意的是,Meta在公告的注腳處提到,該項測試使用的是針對對話優化版的Llama 4 Maverick模型。4月8日,LM Arena平臺在社交媒體X上回應稱,“Meta對我們政策的理解與我們對模型提供商的預期不符。Meta本應更明確地說明‘Llama-4-Maverick-03-26-Experimental’是一個針對人類偏好優化的定制模型?!盠M Arena表示,將會添加Maverick的公開版本,并會對排行榜政策進行更新,以強化公平、可重復評估性。
LM Arena模型基準測試平臺由加州大學伯克利分校SkyLab的研究人員創建。有別于其他評測集,它采用的是眾包的投票方式。在該平臺上,用戶可以向兩個匿名的AI對話助手提出任何問題,投票選出認為更優的答案,以此評選得到最佳的大模型。
在關于Llama 4的回應中,LM Arena提到,初步分析顯示,風格和模型回應的語氣是影響排名的重要因素,正在進行更深入的分析,表情符號的使用或許也會產生影響。一位國內大廠大模型從業者告訴藍鯨新聞,用戶在評測時,會偏向于選擇回答更長的、活潑的、會夸人的模型。
根據LM Arena公布的評選過程不難發現,Llama 4 Maverick實驗版在回答時,篇幅要顯著長于其他模型,語氣更貼近真人對話,還會積極使用表情符號。但有使用者發現,當詢問同樣的問題時,用于LM Arena測試的實驗版和部署在其他平臺上的版本所生成的回復風格存在較大出入。
圖片來源:Llama 4 Maverick實驗版生成的回復
北京理工大學研究語言模型評測與推理方向的博士生袁沛文對藍鯨新聞表示,通過LM Arena所采用的眾包形式,盡管大眾的提問足夠有泛化性,是模型訓練時不可知的,但依然存在“刷榜”風險。LM Arena平臺主打盲測,但可以借助各種隱蔽的方式實現去匿名化,例如直接詢問它是哪個模型、通過一些后門特征來判別模型,或通過水印技術檢測出自家模型。在去匿名化之后,大模型廠商就可以通過海量IP來為自己的模型刷票。
除了眾包投票外,業內也會采用其他的大模型評測方式,但當下都難以做到完全的客觀、全面。據袁沛文介紹,最為廣泛采用的評測形式是大模型Benchmark(基準測試),即人類專家圍繞某項任務來出題,讓模型進行回答,看是否與人類期望相同。由于模型從互聯網平臺上獲取訓練語料,難免會摻雜一些基準測試。負責任的開發者會主動從訓練集中過濾這部分測試集,也有人可能會采取相反的做法,甚至可能在后訓練階段讓模型在一些主流基準測試上做強化,使其測試表現明顯虛高,“就像訓練時背過了題目和答案”。
此前Meta首席AI科學家、圖靈獎得主楊立昆還參與發起了一項評測榜單LiveBench,被稱作“最難作弊”的榜單。LiveBench主打提供具有挑戰性、無污染的基準測試,每月對問題進行更新。袁沛文指出,雖然這能避免模型提前背題,但一個問題在于是否總能收集到足夠多的數據實現更新。實際上,LiveBench的更新頻率也越來越慢,除本月的更新外,上一次更新還要追溯到五個月前。此外,一些垂類評測領域也無法被覆蓋,難以知道模型在具體業務場景上的能力表現。
“不難發現,現有的范式都沒法從根本上同時滿足兩個評測領域的核心愿景:一是可信,沒有辦法刷榜;二是可擴展,任何評測需求、能力、場景都能被滿足?!痹嫖谋硎?。
面對“刷榜”質疑風波,Meta副總裁兼GenAI負責人Ahmad Al-Dahle在社交媒體上否認了在測試集上進行模型訓練的說法,“我們絕不會這么做”。據其說法,用戶感知到的質量差異是由于穩定性還沒有完全調整到位。
拋開備受爭議的LM Arena測試,Meta公布的結果顯示,Llama 4 Maverick在部分基準測試上表現優于GPT-4o、Gemini 2.0 Flash、DeepSeek-V3等模型,但不及更為領先的GPT-4.5、Claude 3.7 Sonnet、Gemini 2.5 Pro等。尚未發布的Llama 4 Behemoth會在以 STEM 為重點的基準測試上對標這些頂尖模型。此外,目前Meta公布的模型中還沒有類似OpenAI o1、DeepSeek-R1的推理模型。
自DeepSeek年初引發海內外熱議以來,對此前在開源領域占據領先的Meta同樣造成巨大沖擊。據媒體此前報道,Meta為此組建了多個專門的研究小組,對DeepSeek進行分析并希望借此改進Llama模型。
Meta表示,全新的Llama 4模型是其首批使用MoE(混合專家)架構的模型。DeepSeek-V3、阿里Qwen2.5-Max等模型也是基于MoE架構,在處理單個token時只激活模型中的部分參數,以實現更高的計算效率。
硅谷科技媒體The Information引述知情人士說法稱,在過去一年多的時間里,Meta的研究人員一直在激烈地爭論,究竟要將Llama 4變成MoE模型還是延續一直采用的Dense模型。對Meta來說,做出改變技術方案的決定并不容易。