
智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 心緣
智東西3月4日消息,今天,大模型獨角獸智譜發布首個支持生成漢字的開源文生圖模型——CogView4。
該模型有60億參數,支持原生中文輸入和(he)中文文本(ben)到圖像生成。其主要更(geng)新(xin)在于(yu),CogView4可以理解中(zhong)英(ying)文(wen)雙語提示詞,且將中(zhong)英(ying)文(wen)字符融入(ru)圖像之中(zhong),并支持(chi)上百字復雜提示詞輸入(ru)。
與CogView3-Plus-3B相比,CogView4的提示詞長度上限從224 Tokens增加到了1024 Tokens。
CogView4在文生(sheng)圖基準測試DPG-Bench中綜合評(ping)分(fen)排名第(di)一。
目前,CogView4-6B-0304版本已經(jing)開源(yuan),將(jiang)于3月13日(ri)上線智譜清言(chatglm.cn)。
這也是是首個遵循(xun)Apache 2.0協議的(de)圖像生成模(mo)型,后續智譜(pu)會陸續增加(jia)ControlNet、ComfyUI等生態支持,并即將(jiang)推(tui)出(chu)全套的(de)微調工具包。
GitHub地址:
//github.com/THUDM/CogView4/blob/main/README_zh.md
一、中英文海報原圖直出,上百字提示詞精準理解
CogView4支(zhi)持(chi)中英(ying)雙語提示詞輸入,擅長理解(jie)和遵循(xun)中文(wen)提示詞,能(neng)根據用戶需求將中英(ying)文(wen)字符融入生成的圖像中。
如下圖所示的“無敵炒面”海報:
還能根據圖像風格變換字(zi)體:
英(ying)文和數字也可以(yi)與畫面(mian)內容(rong)自然融合:
CogView4可以為古(gu)詩(shi)詞制(zhi)作插(cha)圖(tu),根據(ju)詩(shi)句意(yi)境描繪出對應的畫面:
如下圖(tu)的(de)提(ti)示詞是:野徑云俱黑,江船火獨明。黑云、船、燈(deng)光、野徑,這些主要元素(su)都呈(cheng)現(xian)了出來。
此(ci)外,CogView4支持超(chao)長(chang)提(ti)示詞生成四格漫畫,或者超(chao)長(chang)且(qie)復雜的提(ti)示詞生成更為精細(xi)的畫面。
下方生(sheng)成的(de)四(si)(si)格(ge)漫畫其(qi)提(ti)示詞近700個字(zi),包(bao)含漫畫的(de)主要人物、四(si)(si)段劇情等(deng)。
如果用戶(hu)對(dui)畫面(mian)(mian)細節要(yao)求(qiu)高,也可(ke)以通過完整(zheng)的表(biao)述將畫面(mian)(mian)的每一個細節都概括到位,如:
一幅超現實微距攝影或3D數字藝術,畫面左邊是一半的蒲公英花冠。花冠的半邊超微距特寫占據了整個畫面,極致細節,種子上綴滿晶瑩剔透的水滴,如夢如幻。蒲公英的花梗細小,花冠的細絲纖細透明,每一根上都附著著微小的水珠,折射出周圍的光線,形成無數微小的光斑,營造出夢幻而精致的視覺體驗。景深效果,淡紫色背景并灰色漸變,使背景呈現出柔和的模糊漸變,增強畫面縱深感。帶有微微的冷色調光暈,使畫面更加寧靜而神秘。畫面光效極為細膩,每一顆水珠都像微型鏡頭一般,折射出世界的微觀景象,增強了精密與夢幻的氛圍。高動態范圍(HDR)光影效果,確保水滴的透明度、反射和折射層次豐富,極具視覺吸引力。
二、DPG-Bench基準測試排名第一,中文文字準確率評測超快手可圖
在文本到圖像生成的DPG-Bench基(ji)準測試(shi)中,CogView4綜合評分排名第一,在開源文生圖模型中達到SOTA。DPG-Bench主要關(guan)注(zhu)模型在復雜語義對齊和指令跟隨(sui)能(neng)力方面的表現。
在Geneval基準測(ce)試中(zhong),CogView4綜合評分為0.73,排(pai)名第(di)二。
在用于開放式世界組合式文本到圖(tu)像生(sheng)成的綜(zong)合基準T2I-CompBench中,CogView4綜(zong)合評分0.7786,排名第二。

中文文字準確率評測中,其結果顯示(shi),CogView4表現(xian)效果好于國產開源繪畫模型(xing)快手可圖。

三、擅長理解中文,支持任意分辨率
CogView4的技術優勢體現在(zai)兩個方(fang)面(mian):
首先,支持中英雙語提示詞輸入,擅長理解(jie)和(he)遵循中文提示詞(ci),是首個能夠在畫面中生成漢(han)字的開源文生圖(tu)模型。
CogView4將文本編(bian)碼(ma)器從純英文的T5 encoder換為具(ju)備雙語(yu)(yu)(yu)能(neng)力的GLM-4 encoder,并通過中英雙語(yu)(yu)(yu)圖文對(dui)進行(xing)訓練,使CogView4模型具(ju)備雙語(yu)(yu)(yu)提示(shi)詞輸入(ru)能(neng)力。
其次,該模型支持輸入任意長度提示詞,能生成范圍內任意分辨率圖像。CogView4模型(xing)實(shi)現了(le)任(ren)意長度(du)的文本(ben)描述(caption)和任(ren)意分辨率圖像的混合訓練范式(shi)。
圖像位置編碼CogView4采用二維旋轉位(wei)置(zhi)編碼(2D RoPE)來建模圖(tu)像(xiang)的位(wei)置(zhi)信息,并通過(guo)內插位(wei)置(zhi)編碼的方式(shi)支(zhi)持不同分辨(bian)率的圖(tu)像(xiang)生成任務。
擴(kuo)散(san)生成建模模型采用Flow-matching方案(an)進行擴(kuo)散(san)生(sheng)成建模,并結合參數(shu)化的線性動態噪(zao)聲(sheng)規(gui)劃(hua),以(yi)適應不同分辨率(lv)圖(tu)像的信噪(zao)比需求。
在DiT模型架構上,CogView4延續(xu)上一代的(de)(de)Share-param DiT架構,并(bing)為文本和圖像模態(tai)分別(bie)設(she)計(ji)獨(du)立(li)的(de)(de)自適應LayerNorm層(ceng),以實現模態(tai)間的(de)(de)高效適配。
CogView4采用多階段訓練(lian)策略,包(bao)括(kuo)基礎(chu)分辨率訓練、泛分辨率訓練、高(gao)(gao)質量數據微調以及(ji)人類(lei)偏好對齊訓練。這種分階(jie)段(duan)訓練方式不僅覆蓋了廣(guang)泛的圖像分布(bu),還確保生成的圖像具有高(gao)(gao)美感并符(fu)合人類(lei)偏好。
訓練框(kuang)架優化,從文本角度(du)(du)CogView4突破了傳(chuan)統固定Token長度(du)(du)的(de)限制,允許(xu)更高的(de)Token上限,并顯著減(jian)少(shao)了訓練(lian)過(guo)程中的(de)文本Token冗余。
當(dang)訓練caption的(de)平均長度(du)在(zai)200-300 Token時,與固定(ding)512 Tokens的(de)傳(chuan)統方案相比,CogView4減少了約50%的(de)Tokens冗余,并在(zai)模型遞(di)進訓練階段實(shi)現了5%-30%的(de)效率提升。
結語:智譜開源年啟動,全面擁抱AI普惠
此前,智譜預告2025年(nian)將是(shi)(shi)其開(kai)(kai)源年(nian),要陸續開(kai)(kai)源基礎模(mo)型(xing)、推(tui)理模(mo)型(xing)、多模(mo)態模(mo)型(xing)、Agent模(mo)型(xing)等,并將這些(xie)模(mo)型(xing)全部開(kai)(kai)放源代碼,CogView4正是(shi)(shi)這一系列的第一個開(kai)(kai)源模(mo)型(xing)。
這也是近日(ri)智(zhi)譜(pu)完成(cheng)一筆(bi)超10億元戰略融資(zi)以來(lai),其最新(xin)動向。智(zhi)譜(pu)GLM系列大模型(xing)已在金融、醫療、教育(yu)等多個行業得到廣泛應(ying)用(yong)。智(zhi)譜(pu)從2019年成(cheng)立就(jiu)定下(xia)了(le)實現AGI的愿景,并擁(yong)抱(bao)開源(yuan),致力于(yu)AI普(pu)惠。