
【本報訊】近日,有關“人類最後的測試”這一大模型測試集,在AI領域引發熱議。起因是在OpenAI擔任研究科學家的姚順雨近日寫了一篇他對於AI大模型發展思考的文章《AI的下半場》(The Second Half),文章中他提到了“人類最後的測試”以及對於大模型能力測試的看法,行業中引發討論。在他看來行業內的主流AI大模型已經通過了圖靈測試,讓人工智慧到達了AGI(通用人工智慧)的標準。現有的大模型測試集,不足以評判如今快速反覆運算的大模型能力。
無獨有偶,在業內討論AI測試之際,谷歌CEO皮查伊在社交媒體平臺上慶祝穀歌旗下模型Gemini 2.5 Pro完成通關經典遊戲《精靈寶可夢藍》的測試。全球兩大主流AI企業不約而同地關注大模型測試,這本身就能說明AI測試的重要性。現行的大模型集出現了什麼問題,讓業內關注起模型測試的反覆運算升級?
自2023年3月GPT-4發佈,引發了市場社會對於AI的火爆關注,由GPT-4帶動的AI測試集MMLU猶如手機評測界的“安兔兔”,在大模型測試中備受關注。以MMLU為主的各種衍生集,比如MMLU-Pro、MMLU-CF等測試集,成為之後雨後春筍發展的各類大模型發展中的必經之路。
既然是發佈上市的“必經之路”,圍繞如何通過“測試集”就成為部分AI大模型的重中之重,由此也引發出AI大模型的“作弊”,即圍繞特點大模型測試集進行主動“刷分”,以謀求在該測試集上得到較高的排名。結果是,一個開發者做的模型把在這些測試集上的表現當作重要考量目標,那只要足夠長的訓練後,就一定可以得到很好的成績。但與此同時,和這些訓練集內容無關的問題,回答品質就不如人意。
很現實的影響是,目前主流大模型廠商對這些已經被“作弊”弄得千瘡百孔的測試集,已經失去興趣,開始謀求新的AI測試工具。上文中提到穀歌對大模型通過遊戲測試表現出如此高的興趣,這也符合邏輯。
除了“作弊”,拋棄現有大模型測試集另一個方面在於,現有的大模型測試集並不能真實地反映出當前主流大模型的能力。例如,2024年9月之後出現的幾個模型,o1、Sonnet-3.5、Gemini 1.5、Llama 3.1,在做MMLU測試的時候,都是90-95分的水準,沒有出現區分度。
面對這樣的情況,OpenAI牽頭做出了FrontierMath測試集,這是一個在數學方面較好的測試集。在基礎版的測試場景下,不同模型的表現差異顯著。2023 年 5 月發佈的 GPT – 4o 在該測試中正確率約為 1%;Sonnet 3.5 的正確率相對略高,達到 1.5%左右;Gemini 1.5 Pro 的正確率約為 1.2%;馬斯克旗下的 Grok 2 Beta 正確率約為 0.9%。但當測試物件換為 2025 年 1 月 OpenAI 最新上線的 o3 模型時,情況發生了巨大變化,其正確率高達 25%,這一成績是其他模型正確率的十幾倍。
不過,近期有業內人士爆出,OpenAI曾經主動向出題方索要到資料庫訪問權,FrontierMath的題庫和解答都盡在眼底。這種“既當裁判員,又當運動員”的行為,也讓FrontierMath測試集失去了成為主流測試集的機會。
總而言之,在AI行業內設立一個多方都認可的AI測試集已經成為行業共識。不過是否能夠公正地找到這個多方都認可的測試集,目前還是在多方博弈之中。目前,已經有業內人士透露,作為協力廠商一家為AI模型提供訓練資料的公司Scale AI和美國AI安全研究聯盟的核心成員非營利性的研究AI安全的學術機構CAIS,正在攜手設計新的模型測試集。【編輯:陸語】
編輯出版發行人:環球新聞時訊報
社長:魏月童
承印:環球電視有限公司
地址:香港上環幹諾道西20號中英大廈14樓1401室