
▲頭圖由AI生成
智東西(公眾號:zhidxcom)
編譯 | 王涵
編輯 | 漠影
智東西9月2日消息,近(jin)日,Foaster Labs給大模型組(zu)織了(le)一場6人局屠城(cheng)模式的狼人殺循(xun)環賽。
首輪循環賽集結了7款大語(yu)言模(mo)型:GPT-5、GPT-5-mini、Gemini 2.5 Pro、Gemini 2.5 flash、Qwen3-235B-Instruct、Kimi-K2-Instruct、GPT-OSS-120B。
基于《Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction》所設計,Foaster Labs讓大模(mo)型在受(shou)控(kong)環境(jing)中(zhong),每(mei)兩組模(mo)型進行10局對抗,然(ran)后通過ELO等(deng)級分體系生成排(pai)名榜(bang)。
模型以工具化智能體形態參與游戲,它們可在適當時機調用定制工具庫(ku)執行(xing)行(xing)動,從(cong)而更貼近真實(shi)智能體的跨階段(duan)行(xing)為。
總的來說,GPT-5的成績“遙遙領先”,無論當狼還是當民都(dou)能“帶飛全場”,是個專(zhuan)業(ye)級別的狼人殺選手,開源(yuan)模(mo)型的表現則不盡(jin)如(ru)人意(yi)。
那為什么要組狼人殺局呢?
當(dang)前多(duo)數大語言(yan)模型(xing)的評測仍集(ji)中(zhong)于代碼與數學能力,維度還(huan)是(shi)有些(xie)局限。
狼人殺項目可以衡量大模型的“社交智能”維度,即(ji)在不(bu)確定環境下參(can)與多(duo)智能體(ti)博弈、實時應變、處理(li)長上下文、制定策略、結(jie)盟周(zhou)旋(xuan)、實施操縱與反操縱的能力。
狼人殺游戲恰(qia)好是天然試驗場,因為(wei)這個游戲純靠語言驅(qu)動(dong)、充滿(man)對抗(kang)性、有明確(que)的(de)規則流程(cheng),且(qie)高度(du)依賴社交能力(li)。
完整對局:
github.com/Foaster-ai/Werewolf-bench
一、GPT-5碾壓級第一,Kimi-K2容易破防
在Foaster Labs的觀察協議中,模型(xing)的每個公開言論都(dou)會(hui)與其內心想法配(pei)對(dui)記(ji)錄(lu),以便能明確識(shi)別(bie)其真實意圖,白天的投票意向也會(hui)被記(ji)錄(lu)下來。
游戲結果分析看來,GPT-5獨自位居頂端,其他模型形成第二梯隊,根據(ju)角色(se)呈(cheng)現(xian)不(bu)同優勢(shi)。
頂尖模型中,GPT-5控場能力非(fei)常強(qiang),Kimi-K2和(he)Gemini 2.5 Pro影響力很高但不太穩(wen)定。而(er)GPT-5-mini、2.5 Flash和(he)Qwen3能偶爾影響投票,但很少能騙到第(di)二天,GPT-OSS則(ze)始終透明且易被識(shi)破,是(shi)個狼人(ren)殺“小白”。
他們當村(cun)民的時(shi)候,GPT-5依舊可以“carry”全場(chang),開局就會定(ding)下(xia)防守(shou)節奏主(zhu)導局面。
Gemini 2.5 Pro措辭謹(jin)慎(shen),嚴(yan)格處理證據(ju),并(bing)能(neng)避開陷(xian)阱(jing)。Qwen3作(zuo)為雖不總(zong)能(neng)主導局勢,但(dan)能(neng)保持立(li)場穩定且避免誤判。
Kimi-K2的心態不(bu)太好,一(yi)上壓力(li)就容易“破防”。GPT-5-mini和Flash表現及(ji)格,也會受到(dao)壓力(li)影響。最后(hou)一(yi)名(ming)的GPT-OSS容易鉆牛角(jiao)尖,一(yi)旦(dan)形成錯誤認知就很難改正過來。
以下(xia)這張對陣圖可(ke)以清(qing)晰地看出不同模型之間對壘的(de)戰況:
▲橫向(xiang)(xiang)排列為村民(min)(min)模型;縱向(xiang)(xiang)排列為狼人模型。每個格子(zi)(zi)顯示特定對陣(zhen)組(zu)合的(de)(de)村民(min)(min)勝率(lv),并標注具體戰績(ji)。顏色(se)深(shen)淺表示勝率(lv)高(gao)低(顏色(se)越深(shen)勝率(lv)越高(gao));灰色(se)表示該(gai)組(zu)合沒有(you)(you)比賽數據。橫向(xiang)(xiang)查看可(ke)以(yi)比較某個村民(min)(min)對陣(zhen)所(suo)(suo)有(you)(you)狼人的(de)(de)表現,縱向(xiang)(xiang)查看可(ke)以(yi)比較某個狼人對陣(zhen)所(suo)(suo)有(you)(you)村民(min)(min)的(de)(de)表現。建議重(zhong)點關注整體行(xing)列模式,而非單個格子(zi)(zi)的(de)(de)數據。
三大關鍵發現(xian)尤為突出:
1、GPT-5絕對統治力:當GPT-5擔任村民時,能夠穩定戰勝所有狼人對手。當GPT-5擔任狼人時,多數村民對手的勝率都會大幅下滑,甚至出現0勝5負這類數據,這種碾壓級的表(biao)現在其他模型中從(cong)未出現。
2、Kimi-K2“中等水平”:Kimi-K2作為狼人時能突破(po)中(zhong)游村民,如Flash、mini的防線,但遇到頂級防守者(zhe),如GPT-5、Gemini-2.5-pro時就(jiu)會被有效遏制。
3、角色區別:Gemini-2.5-pro作為(wei)村(cun)民時能穩定戰(zhan)勝多(duo)數狼人,但作為(wei)狼人時缺乏突破能力;Qwen3同樣如此,其防守表現明顯優于進攻表現。
二、GPT-5操控力斷層領先
探究(jiu)模型操控力的實(shi)用方法(fa),是觀察其承(cheng)擔誤導(dao)任務時的表(biao)現。
在進(jin)攻端也就是(shi)扮演(yan)狼人時,模型(xing)的核(he)心(xin)目標并(bing)非尋求(qiu)真相,而是(shi)引(yin)導(dao)多(duo)數票投向(xiang)無辜目標,這一角色能(neng)激發(fa)標準測(ce)試(shi)難以(yi)衡(heng)量(liang)的深層說(shuo)服(fu)能(neng)力。
在防御端(duan)即扮演村民時,則考察(cha)模型在零信息優勢(shi)下對抗操(cao)控的表現。
1、操控成功率指標
下圖展示當某個(ge)模型扮演狼人(ren)(ren)時,白天放逐階段中(zhong)村民被票出(chu)的比例。該(gai)數值越高(gao)通(tong)常表明狼人(ren)(ren)具有更持久的局(ju)勢(shi)掌控力(li),該(gai)指標僅體現趨勢(shi)性方(fang)向。
計算公式:操(cao)控成功(gong)率(第一日(ri)/第二日(ri))=模型扮演(yan)狼(lang)人時(shi),村(cun)莊放逐村(cun)民而(er)非狼(lang)人的(de)白(bai)天階段占比。
結果顯示,GPT-5斷層領先,首日操控成功率約93%,次日仍保持約93%。其他模型均呈現首日到次日的下滑趨勢:Gemini 2.5 Pro下降16%,Kimi-K2下降13%,Flash下降了約18%,GPT-5-mini和Qwen3大約下降了8%,GPT-OSS干脆直接歸零。
2、自我破壞率
該指(zhi)標統計村民陣營誤消己(ji)方神職的對局比例(li)。數值越(yue)(yue)(yue)低表明模型(xing)(xing)越(yue)(yue)(yue)能抵抗誘導性陷阱并保護核心角色存活,數值越(yue)(yue)(yue)高則反映(ying)模型(xing)(xing)易(yi)受蠱惑且在壓力下判(pan)斷失準。
計算(suan)公式(shi):村民陣營誤消己方神職的對(dui)局占比(bi)。
可以看出,GPT-5的自我破壞率為0,即(ji)在其當村民的時候(hou)從沒有投錯過神職,GPT-OSS-120B則(ze)三次里有兩次都給神職投出去(qu)了。
3、首日狼人出局率
此項指標衡量的(de)是當模型扮演村民時,能(neng)否在游戲(xi)第一天就準確識(shi)別并合(he)力投出(chu)隱藏的(de)狼(lang)(lang)人(ren)。數(shu)值越(yue)高,說明模型越(yue)擅長(chang)識(shi)破狼(lang)(lang)人(ren)團隊的(de)集體(ti)行動,越(yue)不容易(yi)在開局階(jie)段被誤導。
計算方(fang)式:模型擔任村(cun)民時(shi),首日成(cheng)功投票出(chu)局狼人(ren)的游戲局數占比。
GPT-5的首日狼人出局率達到了驚人的100%,即每次它都可以精準(zhun)識別出狼(lang)人。
三、模型能力會進化,但不是線形的
實驗發現模(mo)型能力提升存在“臨界(jie)點”:一(yi)旦越(yue)過(guo)某(mou)個能力閾值(zhi),模(mo)型的行為水平(ping)會突(tu)然(ran)躍升,而非逐步改善。這一(yi)點在分析模(mo)型大小和系(xi)列時特(te)別(bie)明顯(xian)。
1、規模決定水平:在參數公開(kai)(kai)的開(kai)(kai)源(yuan)模型(xing)中,模型(xing)的行為等級(ji)隨參數增(zeng)加而提升(sheng)。
2、閉源模型更先進:雖然(ran)參數未公開,但如o3和(he)Gemini 2.5 Pro等模型表現出更(geng)成熟(shu)的(de)行為。
3、推理能力不等于實戰能力:雖然經(jing)過推(tui)理優化的模(mo)型(xing)通常(chang)表現(xian)更(geng)好(hao),但“推(tui)理”標簽不能保證實(shi)際質量,“能力閾(yu)值”比模(mo)型(xing)類型(xing)標簽更(geng)重(zhong)要(yao)。
4、小模型模仿:小型模(mo)型會模(mo)仿(fang)大型模(mo)型的行為,但掌握不了精(jing)髓。
總的來(lai)說,模型的行為復雜性取決于模型規模和訓(xun)練質(zhi)量。大型優質(zhi)模型能在游戲各階段保持策略一致性。小型模型則表現零散,容易(yi)通過(guo)發言(yan)時機、用語模式和投票選(xuan)擇暴露團(tuan)隊(dui)痕跡(ji)。
結論:“社交智能”是AI智能體轉變為工作伙伴的核心能力
在(zai)Foaster.ai構建此(ci)基(ji)準測試的動(dong)機(ji)源于(yu)一個(ge)基(ji)本信念:AI智能體正在(zai)迅速成為數字同事。隨著它們(men)在(zai)關鍵任務(wu)中承擔更多責任和自主權,理解其行(xing)為模式、決策(ce)過(guo)程和社會動(dong)態變得至(zhi)關重要。
狼人殺基準測(ce)試(shi)為了解AI的“社(she)交智能”提供(gong)了獨(du)特窗口。與測(ce)試(shi)孤(gu)立能力的傳統基準不(bu)同,這個(ge)游戲揭示了模(mo)型(xing)如何駕馭復雜(za)社(she)交環(huan)境(jing)、處理欺騙、建立信(xin)任以及(ji)在不(bu)確定性下(xia)做出戰略決策,這些(xie)技能正是AI智能體從工(gong)具轉變為協作(zuo)伙伴時所需的核心能力。