
智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 漠影
農歷新年將至,各大(da)互聯網平臺紛紛上線了(le)春節(jie)營銷(xiao)活(huo)動(dong)。除了(le)集“五福(fu)”、集卡等經(jing)典玩(wan)法之外(wai),今年也(ye)有不少與AI結合的新玩(wan)法出(chu)現,百(bai)度搜(sou)索就推(tui)出(chu)了(le)“AI拜年”活(huo)動(dong)。
現在(zai),只需要在(zai)百(bai)度搜索“祝福語(yu)”,再點擊“做(zuo)賀卡”,按照自己(ji)的需求(qiu)調整文案后,選擇“創意照片”,就(jiu)能定制(zhi)各種腦洞大開、趣味十(shi)足的新年祝福卡片。
比如,你可以將自(zi)己的證件照(zhao)上傳,制(zhi)作成一張在天壇前的專屬的拜年海報(bao)。
在文心一言4.0中,你還可以將家里的寵物照上傳,生(sheng)成一張年味兒十足的“萌寵賀歲圖(tu)”。
可以看到,AI不僅理(li)解并準確呈現(xian)了文字(zi)提示詞中涉及的“福字(zi)”、“農家(jia)院”等文化元素,還將用戶(hu)上傳的寵物(wu)照(zhao)、人像(xiang)自然(ran)地融合(he)進生(sheng)成結果(guo),生(sheng)成效果(guo)與實際照(zhao)片(pian)的契合(he)度也很(hen)高。
這一生(sheng)(sheng)成(cheng)效果得益于百度研發的iRAG(檢(jian)索增強的文生(sheng)(sheng)圖(tu)技術(shu))。這項技術(shu)給大(da)模型裝上(shang)了一個(ge)億級的“視覺(jue)外掛知識庫(ku)”,在生(sheng)(sheng)成(cheng)圖(tu)片(pian)時根據提示詞等信息給大(da)模型查找(zhao)相(xiang)關圖(tu)片(pian)資源,作(zuo)為參考數據,進而提升圖(tu)像生(sheng)(sheng)成(cheng)的準確性(xing),還可降低制作(zuo)成(cheng)本(ben)。
接下來,就讓我們來看看,這一充滿節日(ri)氛圍的AI營銷(xiao)背后,究竟(jing)蘊(yun)藏著什么樣的技術實力?
一、大模型深入理解中華文化,精準生成名勝古跡與文化元素
在文心4.0中,我(wo)們(men)進(jin)一步(bu)體(ti)驗了(le)“AI拜年”背后強大的(de)生圖能(neng)力。讓(rang)人(ren)最眼前一亮的(de)是,它展現出了(le)對各種(zhong)文化(hua)要素的(de)精(jing)確理解。
例如,用戶可以(yi)(yi)讓文心4.0生成一幅“天壇雪(xue)景(jing)圖”,要求體現藍瓦屋頂和(he)精美木(mu)結構的建(jian)筑風格(ge),以(yi)(yi)及雪(xue)后靜謐的氛圍。
僅需(xu)等上幾秒,文心4.0就(jiu)完成了圖(tu)像的生成。圖(tu)像內容與天(tian)壇(tan)的實際(ji)形象基本符合,準確(que)度較高。
而當其它的(de)(de)生圖(tu)模型接到這一任務時(shi),卻出現了(le)較為(wei)明顯的(de)(de)幻覺問題。下圖(tu)左側(ce)的(de)(de)ideogram-v2將天壇(tan)的(de)(de)層數生成錯(cuo)了(le),而右側(ce)的(de)(de)imagen-3.0生成的(de)(de)天壇(tan)與(yu)周邊建筑和(he)景觀(guan)的(de)(de)比例不符合實際情(qing)況(kuang)。
同樣的,我們(men)還能讓文心4.0生成一幅“春(chun)節(jie)廟會(hui)”的場景,并指定其體現紅燈籠(long)、舞(wu)龍舞(wu)獅、糖畫等(deng)傳(chuan)統元素(su)。
對(dui)于中國傳(chuan)統的民俗藝術,文心(xin)4.0也能準確把握到(dao)其風格(ge)特點。這副剪紙畫從顏色(se)到(dao)風格(ge)上(shang),都符合中國傳(chuan)統審美(mei)。
相同的提示詞到了(le)其它生(sheng)圖模型上,生(sheng)成的風格完全不符(fu)合預期。左側(ce)(ce)的結(jie)果雖(sui)然嘗試還原傳統剪紙藝(yi)術(shu)(shu),但魚的線條(tiao)顯得生(sheng)硬,缺乏靈動感(gan)。而右側(ce)(ce)的畫(hua)面則過于現代,顏色選(xuan)擇也失去了(le)剪紙藝(yi)術(shu)(shu)的精髓。
除此之(zhi)外,AI拜年功能(neng)和(he)文心(xin)4.0都(dou)支(zhi)持圖(tu)生圖(tu)的定制化玩法,可(ke)玩性很強(qiang),用戶幾(ji)乎可(ke)以(yi)將(jiang)任(ren)意照片(pian)上傳,生成專屬的圖(tu)像。
將這只高冷(leng)的雪鸮交給文心4.0,它就能(neng)讓雪鸮穿(chuan)上年味十足的服飾。
用戶也(ye)能把自己(ji)隨手拍的白(bai)塔,搬到江南(nan)水鄉。文(wen)心的融合(he)結果毫無違和感(gan),白(bai)塔的細節全都得(de)到保留。
二、iRAG給大模型加裝知識庫,無縫銜接現實世界
上方案(an)例中,文心(xin)4.0在生圖任務(wu)中實現的高準(zhun)確性、幾乎無幻覺(jue)的表現,與背后百度自研的iRAG技術(shu)密不可分。
傳統文(wen)生(sheng)圖模型在生(sheng)成圖像時,往往依賴于模型自身的生(sheng)成能(neng)力和有限(xian)的訓(xun)練(lian)數據(ju),缺乏對特(te)定文(wen)化元素和現實細節的精準把握,很容易(yi)生(sheng)成不(bu)符合事實或邏輯的圖像,也無法覆蓋(gai)豐(feng)富的現實世界和多樣化的場景(jing)需(xu)求。
百度則將已經(jing)在(zai)文字生成(cheng)(cheng)領(ling)(ling)域經(jing)受住(zhu)可(ke)行性驗證(zheng)的RAG(檢(jian)索(suo)增強生成(cheng)(cheng))技(ji)術,引入圖(tu)像領(ling)(ling)域,發展出iRAG技(ji)術,顯(xian)著提升生成(cheng)(cheng)內(nei)容的可(ke)靠性和準確性。
iRAG技術就仿佛給大模型(xing)(xing)加裝了一個“視覺外掛(gua)知識庫(ku)”,讓大模型(xing)(xing)能更好地理(li)解(jie)用戶在指令(ling)中提(ti)及的“天壇”、“白(bai)塔”、“廟會(hui)”到底應該是一副怎(zen)樣的畫面。
百(bai)度搜索收錄了海量特(te)定事物的可信(xin)圖(tu)片資源(yuan),這些資源(yuan)通過iRAG技(ji)術,與文心4.0模型的能力結合,用豐(feng)富(fu)的參考(kao)數據(ju)確保生成圖(tu)像的真實可靠。
此外,這(zhe)種生(sheng)(sheng)成(cheng)與檢索結合的技術(shu)路徑,也(ye)能從(cong)多(duo)方面節省(sheng)成(cheng)本。iRAG讓模型不需(xu)要完全(quan)依靠(kao)自身(shen)知識生(sheng)(sheng)成(cheng)圖(tu)像(xiang),減少(shao)了(le)對(dui)大規模訓練數據的需(xu)求。同(tong)時,使用了(le)iRAG技術(shu)的圖(tu)像(xiang)生(sheng)(sheng)成(cheng)“命中率”更(geng)高(gao),從(cong)而(er)減少(shao)修(xiu)正和重新生(sheng)(sheng)成(cheng)的需(xu)求,提高(gao)了(le)整體效率。
同時,由(you)于(yu)外部(bu)的(de)數(shu)據庫可以實現更為及時的(de)更新,iRAG能讓大模型始終(zhong)保持對最(zui)新信息的(de)敏感性(xing)和準確(que)性(xing),進一步提升(sheng)成本效(xiao)益和用戶(hu)體驗。
這(zhe)種在準確性(xing)、成本效益方面(mian)實(shi)現的顯著進展(zhan),標(biao)志(zhi)著AI生圖從娛樂(le)工具向(xiang)實(shi)用工具的本質轉變。
三、iRAG技術潛力顯現,或將推動AI生圖廣泛落地
自(zi)(zi)生成(cheng)式AI浪潮興起后(hou),圖像生成(cheng)就一(yi)直是各大(da)AI玩家發力(li)的重(zhong)點方向。這一(yi)賽道中既(ji)有Stable Diffusion這樣的開源模(mo)(mo)型(xing),也有DALL·E、Imagen等來自(zi)(zi)巨頭的專有模(mo)(mo)型(xing)。這些模(mo)(mo)型(xing)憑借高度定制化的體驗和解放(fang)用戶視覺創(chuang)意表達的潛力(li),吸(xi)引了(le)不少個人與企業用戶的使用。
然而(er),在眾多生(sheng)圖模型落地具體生(sheng)產場景時,準確性是(shi)困擾用(yong)戶的(de)關鍵問題。不準確的(de)圖像(xiang)需(xu)要(yao)反復修改或(huo)重新生(sheng)成(cheng),不僅耗(hao)費時間和資源(yuan),還會降低(di)生(sheng)產效(xiao)率;AI生(sheng)成(cheng)的(de)錯誤產品圖片,還可(ke)能會影響客(ke)戶的(de)購買意愿;更嚴重的(de)是(shi),錯誤或(huo)不當的(de)圖像(xiang)可(ke)能損害企(qi)業品牌(pai)形(xing)象,甚至引發法律糾(jiu)紛,給(gei)企(qi)業帶(dai)來額外的(de)風險。
而iRAG在準確性(xing)、成本效益上的優(you)勢(shi),恰好回應(ying)了(le)專業用(yong)戶使用(yong)生圖模型(xing)時的種(zhong)種(zhong)痛點。這(zhe)意味著這(zhe)項(xiang)技術不(bu)僅能應(ying)用(yong)于“AI拜(bai)年(nian)”這(zhe)種(zhong)娛樂性(xing)較強的營銷場景中,還具備(bei)影視制作、廣告設計、電子商務等更(geng)為廣闊的想象空間(jian)。
在去年的(de)百(bai)度(du)世(shi)界大會上(shang),百(bai)度(du)創始人李(li)彥宏便展示了(le)一(yi)張大眾汽(qi)車飛躍長城(cheng)的(de)畫(hua)面(mian)。圖中(zhong)汽(qi)車的(de)細節與真車別無二致(zhi),甚至還生成了(le)汽(qi)車騰(teng)空(kong)而起(qi)時的(de)煙(yan)塵。
過去拍攝這樣一組汽車在(zai)特(te)定場景的(de)高(gao)質量宣傳海報,成本往往高(gao)達一二十萬甚(shen)至更(geng)多,而現在(zai)借助iRAG技術,創作成本幾乎可以忽略不計。
在(zai)電子商務場景中,iRAG可以用(yong)于提升產(chan)品展示(shi)的(de)效(xiao)果和(he)用(yong)戶體驗(yan)。通過生成(cheng)高質量、逼真的(de)產(chan)品圖像,iRAG能(neng)夠幫助商家快速創建吸引眼球(qiu)的(de)商品展示(shi)頁面。
例如,商家上傳一(yi)張(zhang)普通(tong)的(de)產品照片,便可利用iRAG生成(cheng)多場景的(de)產品展(zhan)示圖,甚(shen)至可以(yi)根據用戶需求添加節日元素或(huo)個性化(hua)背景。
iRAG讓商家無需實地拍(pai)攝,或是進行(xing)復雜的后(hou)期(qi)工作,也能獲取制作精良的宣傳物(wu)料。對中小商家來說,這項技術有望成為提高(gao)購買轉化率,帶來更高(gao)的流量(liang)和銷售(shou)額(e)的利器(qi)。
在漫畫作(zuo)品、連續畫本(ben)等(deng)視覺創意工(gong)(gong)作(zuo)中,iRAG在一致性上的優勢,也能將(jiang)創意人(ren)員從繁瑣(suo)的工(gong)(gong)作(zuo)中解放出來,不必再(zai)花費大(da)量(liang)時間在重復性的繪(hui)制和修改上,而是可(ke)以將(jiang)大(da)部分(fen)精力都投入到故事構思、角(jiao)色塑(su)造和藝術表(biao)達等(deng)更(geng)具創造性的核(he)心環節中。
結語:iRAG技術有望開啟視覺創作新時代
具(ju)備(bei)低成本、低門(men)檻(jian)、高(gao)準確(que)性等優勢的(de)iRAG生(sheng)圖技術,有望為各(ge)行各(ge)業的(de)視覺(jue)創作流(liu)程帶(dai)來重大變化。
想象一(yi)下,賣煎餅的老板也能輕松設計出高級感十(shi)足的菜單(dan),小型企業(ye)無(wu)需(xu)依(yi)賴專(zhuan)業(ye)設計師(shi)即(ji)可打造品牌形象,教育(yu)機構可以快速生成生動(dong)的教學(xue)素材(cai)……
iRAG技術的(de)潛力不僅限于提(ti)升(sheng)效率,更在于讓創意和設(she)計(ji)變(bian)得觸手可及,賦能每一個普通人和行業(ye)從業(ye)者。