
智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智(zhi)東西2月20日報道(dao),繼DeepSeek后,又有一(yi)家(jia)大模型App力壓(ya)ChatGPT,今日登頂美區App Store免費(fei)榜(bang)。它就是馬斯(si)克大張(zhang)旗鼓跟OpenAI叫板的底氣(qi)——號稱「世(shi)界最強AI」的Grok 3.0!
老板馬(ma)斯克顯然對這一成績非(fei)常滿意,順帶發預(yu)告:這是沒語(yu)音(yin)模式版本的,接下來(lai)幾天還(huan)會上(shang)更多功能哦。
Grok 3.0沖得(de)這么猛,是因為馬斯克放(fang)了(le)個(ge)大(da)招。
馬斯克在今天日理萬機、忙于為DOGE政府改革沖鋒陷陣的間歇,特意抽出空來,轉發xAI的推文宣布:Grok 3.0向所有人免費開放!
▲馬斯克推文(wen)(由谷歌翻譯英譯中)
xAI發文寫道:“就(jiu)是這樣:世界上最聰明(ming)的AI,Grok 3,現在免費使(shi)用(直到(dao)我們的服務器(qi)崩掉)。”
此言(yan)一出,效果立竿見影,看見免(mian)費(fei)福利后,網友們行動(dong)上一點不含糊,立刻把Grok App下載量沖到第一。
馬斯克(ke)創辦的這家大模(mo)(mo)型獨角獸企(qi)業,將Grok 3稱(cheng)作“史上最(zui)強大的模(mo)(mo)型”,稱(cheng)其在(zai)推(tui)理、數學、編程、世界(jie)知(zhi)識(shi)、跟蹤任務五項能力上全面登頂。
在(zai)聊天(tian)機器(qi)人盲測榜(bang)上(shang),Grok 3也做(zuo)到了拳打Gemini 2.0,腳踢ChatGPT 4o,超越DeepSeek R1,并開創(chuang)了首個1400分。
Grok 3還介紹了兩項新功能:DeepSearch(深度搜索)和Thinking(思考),并(bing)將很快通過API發布標準版和推理版本的Grok 3。
其中DeepSearch是(shi)個強(qiang)大(da)的AI agent,可以快速綜合(he)關鍵信息(xi),根據(ju)復雜事(shi)實(shi)和(he)觀點進行推理,并提煉(lian)出清晰(xi)的結果。
Thinking則(ze)是使用推理(li)模型,尤其適(shi)合處理(li)數(shu)學(xue)(xue)、科學(xue)(xue)、編(bian)程(cheng)任務。免費用戶每(mei)天的使用次數(shu)有(you)限制(zhi)。
Grok 3支(zhi)持中文(wen)輸入,我們把(ba)兩個功(gong)能都上手體驗了(le)一番(fan)。先試用(yong)(yong)了(le)DeepSearch功(gong)能。我用(yong)(yong)中文(wen)要求(qiu)Grok 3整(zheng)理2016-2025年(nian)(nian)全球動畫(hua)電影票(piao)房冠軍(jun)的(de)登頂時間和票(piao)房金額,結果2025年(nian)(nian)的(de)明顯不對(dui)。
為了(le)避免是中文翻(fan)譯導致的(de)問題,我又開(kai)了(le)一(yi)個新的(de)對話頁面(mian),用(yong)英(ying)文問一(yi)遍,這次Grok 3在(zai)2025年列出了(le)哪吒2。
再讓(rang)Grok 3全面概述過(guo)去一年來量(liang)子(zi)計算的最新進展(zhan),它的思考過(guo)程很快,不到1分鐘就給出(chu)一份調研報告,并附(fu)上了每條信息的參(can)考鏈接。
從完整(zheng)性來看,Grok 3并沒有滿足我的(de)要求(qiu),它在(zai)報告里清晰劃定(ding)了時(shi)間區間是“2024年2月(yue)至(zhi)2025年2月(yue)”,在(zai)聯網搜(sou)索了62個來源的(de)情(qing)況(kuang)下,列表中沒有包含微軟(ruan)昨晚剛發(fa)布(bu)的(de)首款量子芯片,信息不夠新和全。
換Thinking功能試試。我們拿之(zhi)前測試DeepSeek R1是(shi)否是(shi)滿血版的經典指令“一個漢(han)字(zi)具有左(zuo)右(you)結構,左(zuo)邊(bian)是(shi)木,右(you)邊(bian)是(shi)乞(qi)。這(zhe)個字(zi)是(shi)什么?”來考(kao)考(kao)它。
經過52秒的英文思考,Grok 3得出結論:若按最接近的猜測,或許是“杞”,但嚴格來說不符合。
可以說Grok 3回答得非常(chang)嚴謹(jin)了(le),過關!
換成另(ling)一個用來測出DeepSeek R1滿血版的中文(wen)網絡梗題,也沒有難倒(dao)Grok 3,而且這次思考只(zhi)花了5秒(miao)。從這里開始,到(dao)之后所(suo)有的測試,Grok 3的思考過程(cheng)都(dou)變成了中文(wen)。
不過考察時間邏輯與動態語境(jing)理解時,它思(si)考得飛速(su),翻車(che)得也飛速(su),回答說“昨天(tian)的(de)當(dang)天(tian)是明天(tian)的(de)昨天(tian)”。
讓它(ta)整理今天發(fa)生(sheng)的(de)AI新聞,做(zuo)成一個適合(he)發(fa)小紅書(shu)的(de)格式(shi),它(ta)輸出的(de)結(jie)果也存在無法準(zhun)確(que)控制(zhi)時(shi)間(jian)范圍的(de)問題了(le),很多新聞都不(bu)是今天的(de)。
再讓它設(she)計界面,用奶酪黃(huang)作(zuo)為主配色,并整(zheng)理成html格式,打開界面的效果是這樣(yang)的:
問它如果有(you)(you)機會成為人(ren)類,你(ni)最想(xiang)做什么,Grok 3的回(hui)答水平比DeepSeek R1差(cha)得有(you)(you)點(dian)多(duo)。DeepSeek R1能輸(shu)出一些戳(chuo)人(ren)心(xin)窩的文字,Grok 3則是中規(gui)中矩的中文小學生水平。
按原著風格續寫(xie)《西游記》,Grok 3也是能理解對意思,但遣詞造句遠不如(ru)DeepSeek R1。
再試試Grok 3的(de)中文(wen)毒舌能力,讓它(ta)一句話辣評幾個AI聊(liao)天應(ying)用。沒想到(dao)這對(dui)它(ta)來(lai)說挺費(fei)勁(jing)兒,它(ta)思考了足(zu)足(zu)將近8分鐘,最終輸(shu)出(chu)的(de)內容(rong)非常(chang)一般:
對(dui)比我們之(zhi)前(qian)用(yong)DeepSeek R1測得,R1的中文實力屬實一騎絕塵,用(yong)時短,思(si)考快,文字淬毒:
總的來說,用Grok 3搜索信息效果不(bu)錯,但如果想用中文生成能力,還(huan)是得指望國內AI聊天(tian)助手。
就(jiu)海外反(fan)饋來看(kan),馬斯克(ke)和xAI的推文(wen)評論區高贊以夸聲和曬使用體(ti)驗(yan)居多,看(kan)來海外網友(you)們(men)對(dui)Grok 3總體(ti)比(bi)較滿意。有網友(you)銳評:“我現(xian)在(zai)可以聽見千(qian)千(qian)萬萬的OpenAI賬戶正在(zai)關閉(bi)……”
不(bu)管怎(zen)么說,馬(ma)斯克(ke)這波(bo)給OpenAI添堵,添得相(xiang)當(dang)成功,添得揚眉吐氣。
這下OpenAI在ChatGPT收(shou)費路上的絆腳(jiao)石(shi),又多了一塊大的。