
智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
一只藍色鯨魚,正在硅谷和華(hua)爾街掀起海(hai)嘯。
智東西1月28日報道,震動美股的“國產AI之光”DeepSeek,在瘋狂霸屏主流美媒頭版、令美股科技股血流成河后,今日乘勢追擊——發布全新開源多模態AI模型Janus-Pro!
OpenAI顯然也感受到DeepSeek帶來的壓力。今日,OpenAI聯合創始人兼CEO Sam Altman連發多條推文,難得公開夸贊DeepSeek R1,稱這是一款“令人印象深刻的模型”。接著他給自家模型打廣告,說OpenAI將推出更好的模型,而且會繼續(xu)執(zhi)行原有路線圖,相信更(geng)多計算比(bi)以往任何時候(hou)都更(geng)重要。
根據DeepSeek披露的信息,新開源模型Janus-Pro-7B在GenEval和DPG-Bench基準測試中,性能擊敗OpenAI DALL-E 3和Stable Diffusion。這顯(xian)然又(you)戳中(zhong)了(le)業界的(de)興奮點(dian),網友們在(zai)(zai)社交平臺發出各種梗圖。其中(zhong)一張圖給GPT-5打了(le)個大(da)紅(hong)叉,在(zai)(zai)巨鯨身(shen)上(shang)放了(le)個大(da)大(da)的(de)DeepSeek logo。
此前DeepSeek新(xin)模型(xing)R1的(de)發布,憑借前所(suo)未有(you)的(de)高(gao)性(xing)能(neng)和成本效益,徹底坐實了“國產AI價格(ge)屠夫”的(de)標(biao)簽,令(ling)整(zheng)個硅(gui)谷驚慌失措(cuo),業界(jie)對美(mei)國科技巨頭重資砸(za)向AI基(ji)礎設施的(de)必(bi)要性(xing)產生質(zhi)疑。()
隨著影響力快速發酵,DeepSeek登頂中美等多國App Store免費榜。受DeepSeek沖擊美股影響,英偉達昨日股價暴跌17%,收于118.42美元/股,市值蒸發近6000億美元(折合人民幣近4.35萬億元)。一天之內,排名彭博億萬富豪榜第15名的英偉達創始人兼CEO黃仁勛財富縮水201億美元(約合人民幣1458億元)。
其晶圓代工供應商臺積電的市值也在昨日蒸發了1508億美元(約合人民幣1.09萬億元)。等于DeepSeek作為“AI界拼多多”,一刀“砍掉”了英偉達和臺積電共超5萬億元市值,實屬罕見。
美股(gu)科(ke)(ke)技(ji)股(gu)、芯片股(gu)均受重挫(cuo),納斯達克100指數下(xia)(xia)跌(die)(die)(die)(die)3.1%,標普500指數下(xia)(xia)跌(die)(die)(die)(die)1.5%,微軟下(xia)(xia)跌(die)(die)(die)(die)2.14%,谷歌母公司Alphabet下(xia)(xia)跌(die)(die)(die)(die)4.03%,博通下(xia)(xia)跌(die)(die)(die)(die)17.40%,臺積(ji)電(dian)(dian)下(xia)(xia)跌(die)(die)(die)(die)13.33%,ASML下(xia)(xia)跌(die)(die)(die)(die)5.75%,為AI基礎設施(shi)(shi)提供電(dian)(dian)氣(qi)硬(ying)件的西門子(zi)能(neng)源下(xia)(xia)跌(die)(die)(die)(die)20%,電(dian)(dian)力產品制(zhi)造商(shang)施(shi)(shi)耐德電(dian)(dian)氣(qi)下(xia)(xia)跌(die)(die)(die)(die)9.5%……對AI競賽并不熱衷的蘋果則安然無(wu)恙,在(zai)一眾暴跌(die)(die)(die)(die)的科(ke)(ke)技(ji)股(gu)中逆(ni)勢上漲3.2%,重返全球市值第一。
多(duo)家(jia)主(zhu)流外媒(mei)的網站頭版都是針對DeepSeek的報道,這十分少見(jian)。
隨著(zhu)以閃電速(su)度陸續(xu)開源高質量新模型,DeepSeek在全球科技圈引起的轟動(dong)效應還在持續(xu)擴大。
新發布的Janus-Pro有1B和7B兩款(kuan)尺寸,能輸出生成高(gao)質量的AI圖像,一(yi)如既往(wang)開源、免費、可商用。13頁技(ji)術報告已(yi)經公開。
“Janus-Pro超(chao)越了(le)(le)之前的統一(yi)(yi)模型(xing),達到甚(shen)至(zhi)超(chao)過了(le)(le)特定(ding)任務模型(xing)的性(xing)能。”DeepSeek在(zai)一(yi)(yi)篇文(wen)章(zhang)中寫道,“Janus-Pro的簡單性(xing)、高(gao)靈活性(xing)和有(you)(you)效性(xing)使(shi)其成為下一(yi)(yi)代統一(yi)(yi)多(duo)模態模型(xing)的有(you)(you)力候選者。”
網友們(men)已經在社交(jiao)平臺(tai)上(shang)(shang)積極曬出對(dui)Janus-Pro-7B的體(ti)驗。總體(ti)來(lai)看,Janus-Pro-7B的信(xin)息理解基本準確,生(sheng)成圖像很完整,在局部(bu)細(xi)節(jie)上(shang)(shang)相對(dui)有(you)欠缺。
以下是DeepSeek最新多模態理解和生成模型Janus-Pro的技術解讀:
根據技(ji)術報告,Janus-Pro是前作Janus的(de)(de)(de)(de)升級版,結合了優化的(de)(de)(de)(de)訓練策略、擴展的(de)(de)(de)(de)訓練數據,并擴展到(dao)更(geng)大的(de)(de)(de)(de)模(mo)型(xing)尺(chi)寸(cun),在多模(mo)態理(li)解和(he)文(wen)本到(dao)圖像的(de)(de)(de)(de)指(zhi)令遵循能力方面都取得(de)了顯著(zhu)進步,同時也增強了文(wen)生圖的(de)(de)(de)(de)穩定性。
技術報告://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
Janus-Pro只(zhi)能(neng)分析分辨率至多384 x 384的小圖像(xiang)。但考慮到模型尺寸(cun)很小,其(qi)性能(neng)令人(ren)印象深刻,相比前(qian)代輸(shu)出了更(geng)好的視(shi)覺質量(liang)、更(geng)豐(feng)富(fu)的細節,并具備(bei)生成(cheng)簡單文本的能(neng)力。
對(dui)于(yu)富有想象力和創造性的(de)(de)場景,Janus-Pro-7B能夠從提示(shi)中準(zhun)確捕獲語義信息,產生合理和連貫的(de)(de)圖像。
Janus-Pro 1B模(mo)型更適合需要緊湊高效(xiao)的AI任務,比如(ru)在(zai)(zai)消費級(ji)硬(ying)件上做(zuo)輕量(liang)化部署。這款模(mo)型同樣(yang)在(zai)(zai)GenEval等(deng)基準(zhun)測試中(zhong)取(qu)得(de)了較高的平均性能,證明它能夠以(yi)更少(shao)資源(yuan)在(zai)(zai)指令遵循和(he)圖像分析上表現(xian)出(chu)色。
此前一些統(tong)一多(duo)(duo)模(mo)態(tai)理(li)解和(he)生成模(mo)型方法(fa)已(yi)被證明(ming)可以增強視覺(jue)(jue)生成任務中的(de)指令(ling)遵循能力(li),同時減少模(mo)型冗余。它(ta)們大多(duo)(duo)使用相同的(de)視覺(jue)(jue)編碼器(qi)來處理(li)多(duo)(duo)模(mo)態(tai)理(li)解和(he)生成任務的(de)輸入。由于(yu)兩(liang)個任務所需的(de)表(biao)示不同,這通常(chang)會導致多(duo)(duo)模(mo)態(tai)理(li)解中的(de)次優性能。
為(wei)了解(jie)(jie)決(jue)這個(ge)問(wen)題,Janus提出(chu)了解(jie)(jie)耦視覺編碼(ma),將視覺理(li)解(jie)(jie)與(yu)圖像(xiang)(xiang)生(sheng)成(cheng)(cheng)任務分開,確保(bao)兩(liang)個(ge)任務不會互相(xiang)干擾(rao),從而在多模態理(li)解(jie)(jie)和生(sheng)成(cheng)(cheng)任務中都取得了優異(yi)的性能。Janus在1B參數(shu)尺寸上(shang)進行了驗證,但受限于訓練數(shu)據(ju)量和相(xiang)對較小(xiao)的模型容(rong)量,它(ta)表(biao)現出(chu)一定的缺點,例如短提示圖像(xiang)(xiang)生(sheng)成(cheng)(cheng)的性能不理(li)想、文生(sheng)圖質(zhi)量不穩定。
Janus-Pro則是Janus的增強版,著重(zhong)改進了訓練策(ce)略、數據和模型大小。新模型遵循一(yi)款自(zi)(zi)回(hui)歸框架,解耦了多模態(tai)理解和視覺生(sheng)成的視覺編(bian)碼。研究(jiu)團隊采用獨(du)立的編(bian)碼方法將原(yuan)始輸(shu)入轉換(huan)為特征(zheng),然后由統一(yi)的自(zi)(zi)回(hui)歸Transformer進行處理。
其(qi)實驗使用最大(da)支持(chi)序(xu)列長度為(wei)4096的DeepSeek大(da)模型(1.5B和7B)作為(wei)基礎模型。
對(dui)于(yu)多(duo)模態(tai)理(li)(li)解,研究人員使用SigLIP-Large-Patch16-384編碼器從圖(tu)像中提取高維語義特征,將這些特征從二維網格平展到一(yi)維序列(lie),并使用理(li)(li)解適配器將這些圖(tu)像特征映射到大(da)語言模型的輸入(ru)空間中。
對于視(shi)覺(jue)生(sheng)成(cheng)(cheng)任(ren)務,研究人員(yuan)使(shi)用VQ tokenizer將(jiang)圖像轉換為離散(san)ID,在(zai)將(jiang)ID序列平面化為1-D后,使(shi)用生(sheng)成(cheng)(cheng)適配器將(jiang)每(mei)個ID對應(ying)的(de)碼(ma)本(ben)嵌入(ru)映射(she)到大語(yu)言(yan)模型的(de)輸(shu)(shu)入(ru)空間中(zhong),然后將(jiang)這些特征序列連接起來形成(cheng)(cheng)一個多(duo)模態特征序列,隨后將(jiang)其輸(shu)(shu)入(ru)大語(yu)言(yan)模型進行處理。
除了(le)大語(yu)言模型中(zhong)內置的預(yu)測(ce)頭外,研究(jiu)人(ren)員還在視覺生成任務(wu)中(zhong)使用隨機(ji)初始化的預(yu)測(ce)頭進行圖(tu)像預(yu)測(ce)。
前代Janus模型(xing)采用(yong)了三階訓練(lian)(lian)過程:第一階段(duan)(duan)的(de)重點是訓練(lian)(lian)適配(pei)器和圖像頭,第二階段(duan)(duan)是使用(yong)多模態(tai)數(shu)據做統一預訓練(lian)(lian),第三階段(duan)(duan)是進行監(jian)督(du)微調。這種方法使Janus能夠(gou)勝過更大的(de)模型(xing),同時保(bao)持(chi)可(ke)管理的(de)計算占(zhan)用(yong)空(kong)間。但經(jing)實驗,其策(ce)略會導(dao)致大量計算效率低(di)下。
為此DeepSeek做了兩處修改:一是(shi)增(zeng)加第(di)一階段的(de)(de)(de)訓練(lian)步驟,允許在ImageNet數(shu)據集(ji)上進行足夠(gou)的(de)(de)(de)訓練(lian);二是(shi)在第(di)二階段,放棄ImageNet數(shu)據,直接利(li)(li)用(yong)正常(chang)的(de)(de)(de)文(wen)生(sheng)(sheng)圖數(shu)據來訓練(lian)模型,以(yi)基(ji)于密集(ji)描(miao)述生(sheng)(sheng)成圖像(xiang)。這種重新設計的(de)(de)(de)方(fang)法使第(di)二階段能夠(gou)更(geng)有效(xiao)地利(li)(li)用(yong)文(wen)生(sheng)(sheng)圖數(shu)據,從而提高訓練(lian)效(xiao)率和(he)整(zheng)體性能。
研究人員還(huan)調整了第三階段(duan)監(jian)督微調過程中不(bu)同(tong)類型數(shu)據集的數(shu)據比例,將多模態數(shu)據、純文本數(shu)據和文本到(dao)圖像(xiang)數(shu)據的比例從7:3:10更改為5:1:4,使(shi)模型在(zai)保持出色視(shi)覺生成能力的同(tong)時,實(shi)現(xian)改進的多模態理解性能。
Janus-Pro將模型大(da)小擴展(zhan)到(dao)7B。當(dang)使用更大(da)規(gui)模的(de)大(da)語言模型時,與(yu)較小的(de)模型相(xiang)比,多模態(tai)理(li)解和視覺生成(cheng)的(de)損失收斂(lian)速度都有顯著提高(gao)。該發(fa)現進一步驗證了這個方法的(de)可擴展(zhan)性。
研究人員在(zai)訓(xun)練(lian)(lian)過(guo)程(cheng)(cheng)中使用序列(lie)打包來(lai)提高(gao)訓(xun)練(lian)(lian)效(xiao)率,在(zai)單個訓(xun)練(lian)(lian)步驟中根據指定的比例混合所有數據類(lei)型。Janus使用輕(qing)量級高(gao)效(xiao)分布式(shi)訓(xun)練(lian)(lian)框(kuang)架(jia)HAI-LLM進行訓(xun)練(lian)(lian)和評估(gu)。對(dui)于1.5B/7B模型,在(zai)16/32個節點的集(ji)群上,每個節點配備8個英偉達A100 (40GB) GPU,整個訓(xun)練(lian)(lian)過(guo)程(cheng)(cheng)大約需要(yao)7/14天。
DeepSeek在(zai)多個基準上對(dui)Janus-Pro進行了(le)(le)評(ping)估,結果顯示了(le)(le)出色(se)的多模(mo)態(tai)理解能力和顯著提高的文(wen)生圖指令遵循性能。
比如Janus-Pro-7B在多模(mo)態(tai)理解基準MMBench上獲(huo)得了79.2分,超過最先進的統一多模(mo)態(tai)模(mo)型;在文生圖指令(ling)遵循(xun)基準測試GenEval中,Janus-Pro-7B得分為0.80,超過Janus、Stable Diffusion 3 Medium、DALL-E 3、Emu3-Gen、PixArt-alpha等(deng)先進圖像生成模(mo)型。
總體來看,Janus-Pro在(zai)(zai)訓(xun)練策略、數據、模(mo)(mo)型大(da)小上的(de)(de)改進,使其取(qu)得多(duo)模(mo)(mo)態(tai)理解和文生(sheng)圖指(zhi)令(ling)遵(zun)循能力的(de)(de)進步。該模(mo)(mo)型仍存在(zai)(zai)一(yi)定的(de)(de)局限(xian)性,例如(ru)在(zai)(zai)多(duo)模(mo)(mo)態(tai)理解方面,輸入(ru)分辨率限(xian)制為(wei)384 ×?384會影響其在(zai)(zai)細(xi)粒度任務(wu)(如(ru)OCR文本(ben)識別)中的(de)(de)性能。
對于文生(sheng)圖,低分辨(bian)率加上視覺tokenizer帶來(lai)的(de)重建損(sun)失(shi),導致圖像(xiang)雖然具有豐富的(de)語義內容,但仍(reng)然缺乏精細(xi)的(de)細(xi)節(jie)。例如,占(zhan)用有限圖像(xiang)空間(jian)的(de)小面部區(qu)域(yu)可(ke)能顯得不夠精細(xi)。技術報告指(zhi)出,提高(gao)圖像(xiang)分辨(bian)率可(ke)以緩(huan)解(jie)這些問(wen)題。