
智東西(公眾號:zhidxcom)
作者|陳駿達
編輯|漠影
智東西2月25日報道,今天,阿里通義千問團隊推出QwQ-Max-Preview深度思考模型,并支持聯網搜索,展現(xian)出(chu)超強的通用能力,不(bu)僅(jin)(jin)現(xian)場銳(rui)評了最新的《哪吒2》電影,還能寫代碼、做數學題(ti),并可以勝任創意寫作、游戲開發等(deng)開放性任務。這款模型(xing)會在不(bu)久后開源,目前已在通義千問的新官網上(shang)線(xian),僅(jin)(jin)需(xu)點擊聊天框(kuang)左下角的“深度思考(QwQ)”按鈕即可體驗(yan)。
QwQ-Max-Preview的(de)博客文(wen)(wen)章(zhang)有滿屏醒目的(de)顏文(wen)(wen)字,并(bing)附上跳轉到體驗頁(ye)面(mian)和Discord的(de)鏈接,還特別標注(zhu)出這篇(pian)博客是正是由新(xin)模型(xing)親自(zi)操(cao)刀的(de),模型(xing)撰寫(xie)博客時的(de)思(si)考過程也被(bei)一并(bing)呈現在文(wen)(wen)內。
體驗鏈接://chat.qwen.ai/
Discord鏈接://discord.com/invite/yPEP2vHTu4
在(zai)(zai)(zai)DeepSeek推出(chu)DeepSeek-R1深度思考模型(xing)后,阿里和騰訊(xun)都爭相推出(chu)了類R1的深度推理模型(xing)。QwQ-Max-Preview基(ji)于Qwen2.5-Max構(gou)建,在(zai)(zai)(zai)數學(xue)、編(bian)程以及通用(yong)任務(wu)中(zhong)展現(xian)(xian)了更強(qiang)的能力(li),同時在(zai)(zai)(zai)與(yu)Agent相關(guan)的工(gong)作(zuo)流(liu)中(zhong)也有不(bu)錯的表現(xian)(xian)。作(zuo)為(wei)即將發布的QwQ-Max的預覽版(ban),這個版(ban)本還在(zai)(zai)(zai)持續(xu)優化中(zhong)。
通(tong)(tong)義千問(wen)團隊計(ji)劃(hua)在不久的將來以Apache 2.0許可協議開源(yuan)發布QwQ-Max以及Qwen2.5-Max。此外(wai),通(tong)(tong)義千問(wen)計(ji)劃(hua)面向全球用(yong)戶推出Qwen Chat App,并(bing)開源(yuan)更適合端側的小尺寸推理模型。
博客內(nei),通義千(qian)問團隊放出了多個實測(ce)案例(li)。
通(tong)(tong)義千(qian)(qian)問的(de)深(shen)度思(si)(si)考模型能(neng)與(yu)聯網(wang)功(gong)能(neng)結合,根(gen)據(ju)實時互聯網(wang)信息進行推理,先來看看通(tong)(tong)義千(qian)(qian)問是(shi)怎(zen)么評價(jia)《哪吒2》的(de)。在打開深(shen)度思(si)(si)考和聯網(wang)搜索功(gong)能(neng)后,千(qian)(qian)問快(kuai)速查(cha)詢互聯網(wang)信息,并在思(si)(si)考過程(cheng)中與(yu)答案里都(dou)清晰地引用信源。
下方是QwQ對(dui)《哪吒2》的評(ping)價,截圖(tu)后(hou)由(you)Qwen2.5-VL-72B-Instruct翻譯(yi):
下一(yi)個案例(li)主要展現了模(mo)型的(de)代碼能力(li)。提示詞為(wei)“創建一(yi)個p5.js腳本,用于在(zai)旋轉的(de)球(qiu)(qiu)體內創建100個彈跳的(de)黃色小球(qiu)(qiu)。小球(qiu)(qiu)被(bei)限(xian)制在(zai)球(qiu)(qiu)體內,并且正確(que)處理了碰撞檢測。球(qiu)(qiu)體緩(huan)慢旋轉以產生動態效果。”
長(chang)時間(jian)思考后,QwQ-Max-Preview輸(shu)出(chu)了(le)71行(xing)代碼,并(bing)附上(shang)了(le)對代碼主要功能的描述和(he)使(shi)用指南,可(ke)以(yi)(yi)說是十分全面了(le)。復制代碼并(bing)運(yun)行(xing)后,可(ke)以(yi)(yi)看(kan)到(dao)動畫的效果基(ji)本(ben)符(fu)合提示詞要求。
不過(guo),當(dang)智東(dong)西將同(tong)款(kuan)提示詞甩給體驗(yan)鏈接中的QwQ-Max-Preview,它給出(chu)的代(dai)碼運行后可以說是“車(che)禍現(xian)場”,黃色小(xiao)球(qiu)漫天飛(fei)舞,完(wan)全忽視了“小(xiao)球(qiu)被限(xian)制在球(qiu)體內”這(zhe)(zhe)一要(yao)求。這(zhe)(zhe)一現(xian)象或許是由于預(yu)覽(lan)版本(ben)尚不穩定。
接下來的測試任務(wu)是游(you)(you)戲(xi)(xi)開發。QwQ-Max-Preview收到(dao)的需求是:“在同(tong)一(yi)個(ge)(ge)HTML文件中創建一(yi)個(ge)(ge)游(you)(you)戲(xi)(xi)。發揮你的想象力,將俄羅斯方塊和2048游(you)(you)戲(xi)(xi)結合成一(yi)個(ge)(ge)游(you)(you)戲(xi)(xi)。”
模型開發(fa)出的新(xin)(xin)游(you)戲確(que)實(shi)將(jiang)兩款(kuan)游(you)戲的玩(wan)法結(jie)合了起來,原版2048游(you)戲是通過滑動方塊(kuai)進(jin)(jin)行(xing)相同(tong)數(shu)字的消除,而新(xin)(xin)游(you)戲中數(shu)字將(jiang)會從上方掉落,需要玩(wan)家進(jin)(jin)行(xing)操(cao)作并(bing)消除。
這(zhe)款模型還能勝任(ren)(ren)更為復(fu)雜的游戲(xi)開發任(ren)(ren)務,例如下方提示詞這(zhe)種帶(dai)調整的:
創建一個棋盤游戲網頁,顯示一個六邊形網格,就像在《卡坦島》游戲中一樣。每個六邊形網格都標有從1到N的數字,其中N是六邊形格子的總數。使其具有通用性,以便可以使用滑塊更改“環”的數量。例如,在《卡坦島》中,半徑為3個六邊形。請使用單個HTML頁面。
案例中模型(xing)對(dui)提示詞的理解還是比較(jiao)到位(wei)的,拖(tuo)動滑塊確實(shi)可以(yi)修(xiu)改環的數量。
不過,在我們用同樣提(ti)示詞(ci)進行的(de)實測中,完成效(xiao)果依舊不太理想(xiang),從六邊形(xing)的(de)形(xing)狀到(dao)格子的(de)排列(lie),都(dou)與原提(ti)示詞(ci)的(de)要求有些(xie)偏差,還(huan)出現了(le)超(chao)出顯示范圍的(de)問題。或許在未(wei)來正式(shi)版發布(bu)后,這些(xie)問題能得到(dao)解(jie)決。
通(tong)義(yi)千問思考(kao)模型本(ben)次還融入了Agent能力,支(zhi)持(chi)工具選擇,不過目前的體驗版(ban)本(ben)尚(shang)不支(zhi)持(chi)。在博客文章(zhang)中提供的案例里,可以看到這些工具包括圖(tu)像(xiang)生(sheng)成(cheng)、物(wu)流追蹤、二維(wei)碼生(sheng)成(cheng)、港股行情等。
示例中(zhong),測(ce)試人員選擇了(le)二維碼(ma)生(sheng)成器和圖像生(sheng)成兩款工具,要求模型生(sheng)成一(yi)個(ge)(ge)穿(chuan)著白(bai)色連衣(yi)裙的女(nv)孩,然后展示一(yi)個(ge)(ge)指向taobao.com的二維碼(ma)圖片。
生成結果是這樣(yang)的(de),可(ke)以(yi)看到(dao)模型(xing)選(xuan)擇了(le)二次(ci)元的(de)畫風(feng),畫面內容符(fu)合要求,二維(wei)碼(ma)實測也可(ke)以(yi)跳轉至淘寶(bao)官(guan)網。
據通義千(qian)問團隊介(jie)紹(shao),本(ben)次他們(men)既會開源滿血版思(si)考模(mo)型,也將推出輕量級(ji)的變體(ti),還(huan)會將其融(rong)入應用,此(ci)舉(ju)是為了讓不同層次用戶(hu)都能體(ti)驗到(dao)這款模(mo)型的能力。他們(men)也邀(yao)請全(quan)球開發者社群對這些模(mo)型進行實驗、優化和擴(kuo)展,探索從教育(yu)工具到(dao)agent等多樣(yang)化應用場(chang)景。
QwQ-Max-Preview的(de)(de)發布及將要到來的(de)(de)開源,意味著阿(a)里(li)也正(zheng)式(shi)加入了這波推(tui)理模型的(de)(de)開源潮。阿(a)里(li)的(de)(de)Qwen系(xi)列模型作(zuo)為(wei)當今全球影響力最大(da)的(de)(de)開源模型家族(zu)之一,衍生模型數量已經超過(guo)9萬個,還(huan)(huan)霸(ba)榜了Hugging Face開源榜單(dan)的(de)(de)全球前10名。在(zai)正(zheng)式(shi)版的(de)(de)QwQ-Max開源發布后(hou),或許還(huan)(huan)會給全球開發者帶(dai)來更多的(de)(de)驚喜(xi)。