
智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 漠影
就在(zai)兩天前的(de)除夕夜,一場科(ke)技(ji)感十足的(de)春(chun)晚(wan)拉開帷幕,從臺前到幕后,中國科(ke)技(ji)的(de)存在(zai)感讓(rang)人(ren)驚(jing)嘆不(bu)已,頻(pin)(pin)頻(pin)(pin)沖上(shang)熱搜。時(shi)隔七(qi)年再度(du)攜手央視春(chun)晚(wan)的(de)阿里,更是(shi)獻上(shang)了(le)從云轉播到AI特(te)效的(de)科(ke)技(ji)大(da)禮包。
甄(zhen)子(zi)丹領銜的《筆走龍蛇》節(jie)目,運(yun)用了巴黎奧運(yun)同款的通義大模型AI技術,呈現出電影般的“子(zi)彈時(shi)間”畫(hua)面,讓(rang)觀(guan)眾享(xiang)受到“空中環繞、時(shi)空凝結(jie)”等(deng)創新觀(guan)看體驗。
春(chun)晚每年的(de)保留節目(mu)《難忘今(jin)宵》也得到了通(tong)義萬(wan)相圖像編輯模型(xing)Wanx-ACE的(de)支持,舞臺背景中變身為絢麗花燈的(de)城市(shi)地(di)標(biao),便是(shi)由這(zhe)款模型(xing)自動生成(cheng)的(de)。
2025年1月初,通義(yi)萬(wan)相(xiang)模型迎來了重磅升(sheng)級,推出了全(quan)新的2.1版(ban)本(ben),視頻生成與圖像生成能力提升(sheng)明顯,今年春晚中不少(shao)驚艷的視覺效(xiao)果,也來自這款模型。
升級(ji)后的通義(yi)萬相不僅能(neng)(neng)處理復雜(za)人物(wu)運動(dong)、遵循真(zhen)實物(wu)理規律(lv)、匹配(pei)復雜(za)提(ti)示詞,還能(neng)(neng)生成(cheng)影視質感畫(hua)面,并首次實現了中文文字視頻(pin)生成(cheng)功能(neng)(neng)。
通義萬(wan)相2.1曾(ceng)一度躍居視頻(pin)生成權威評(ping)測框(kuang)架(jia)VBench榜首(shou),成為國內乃(nai)至全球視頻(pin)生成模型的領(ling)跑者(zhe)。
一、拿捏中國風,AI讓創意走進現實
通義萬相(xiang)2.1在本屆春晚中的(de)參與可謂是(shi)全(quan)方位、全(quan)流程的(de),涵蓋從預告片到現場舞(wu)美等多個環節。
這款模型能準確理解多樣的(de)藝術風格(ge),為(wei)創意工作(zuo)者提供(gong)了有力的(de)創作(zuo)工具,幫助他們將腦海中的(de)想(xiang)法變為(wei)現(xian)實。
對于中國風的內容,通義萬相(xiang)可謂是手拿把掐(qia)。
在央視春晚預告片中,通義萬相文(wen)生圖讓(rang)中國(guo)非遺蘇(su)繡(xiu)(xiu)煥發新生。萬相不僅成功捕捉了(le)蘇(su)繡(xiu)(xiu)的(de)整體藝術風格(ge),還將細(xi)節(jie)還原到(dao)每一根(gen)絲(si)線,而每一副畫面的(de)風格(ge)控制也較為穩定,最終給(gei)這項千年傳統(tong)技藝帶來了(le)別開生面的(de)呈現形式。
同款工具(ju)還在通義官網中上(shang)(shang)線(xian),點擊網站(zhan)上(shang)(shang)放的“非遺刺(ci)繡(xiu)”互動(dong)玩(wan)法,用(yong)戶就可(ke)以輸入文字,即刻(ke)生成(cheng)一張刺(ci)繡(xiu)圖。僅需(xu)等上(shang)(shang)幾秒鐘(zhong),便可(ke)生成(cheng)一只栩(xu)栩(xu)如生的刺(ci)繡(xiu)鳳凰。
春晚舞臺上的諸(zhu)多(duo)舞美效果也由通義萬相提(ti)供支(zhi)持。
例如,央視春晚節目《方的(de)(de)言》舞臺背景的(de)(de)毛(mao)(mao)氈(zhan)效果,便(bian)是由通義萬相的(de)(de)文生圖、圖生視頻等技術實(shi)現(xian)。圖中(zhong)的(de)(de)高樓、古建(jian)被轉化成了(le)溫暖、柔和、立(li)體的(de)(de)毛(mao)(mao)氈(zhan)畫,與歌曲的(de)(de)主旨相得益彰。
在莫文蔚(yu)與毛不(bu)易合唱(chang)的《歲月(yue)里(li)的花(hua)》節目中,阿里(li)通義萬相(xiang)利用圖(tu)像(xiang)風格化和首尾幀(zhen)視頻生成(cheng)技(ji)術,生成(cheng)了沉浸(jin)式的油畫風舞美效果。
二、央視春晚大放異彩,AI業內炙手可熱
除了(le)登上央視春(chun)(chun)晚,給全球華(hua)人提(ti)供精(jing)彩的(de)視覺效果外(wai)。大(da)年初一,在AI業內1000余名創作者參與的(de)AI春(chun)(chun)晚中(zhong),通義萬相(xiang)為(wei)三(san)分之一的(de)節目提(ti)供了(le)技(ji)術支持,升級后的(de)模(mo)型(xing)能更好(hao)地(di)理(li)解和(he)模(mo)擬物理(li)世界,最終為(wei)觀(guan)眾呈(cheng)現了(le)極佳的(de)觀(guan)影體驗。
其中(zhong),取材(cai)自南宋(song)畫家(jia)劉松年(nian)名畫《四景山水圖》的同名AI MV,一(yi)亮相(xiang)便(bian)引來眾多網友的稱(cheng)贊(zan)。
通義萬相顯著改善了困擾視頻(pin)生成(cheng)模型的(de)幻覺(jue)問題,尤其(qi)是在涉及(ji)復雜肢體動作的(de)畫(hua)(hua)面中。這類(lei)畫(hua)(hua)面可謂是視頻(pin)生成(cheng)模型的(de)試(shi)金石,早期的(de)視頻(pin)生成(cheng)模型可能會生成(cheng)各種“辣眼睛(jing)”的(de)結果,AI圈知名的(de)鬼(gui)畜畫(hua)(hua)面“威爾(er)·史(shi)密斯吃意面”便是一(yi)個典型的(de)失敗案例。
為處(chu)理此類(lei)動作,通義(yi)萬相團隊(dui)自研了高(gao)效(xiao)的VAE和DiT架構,增強了模型的時(shi)空上下文建模能力,讓復雜的肢體運動、大(da)幅度動作、鏡頭(tou)的移動都能穩定展現。
在AI MV《四景山(shan)水(shui)圖》中,通(tong)義萬相(xiang)2.1完美(mei)地呈現了“擁爐對酒,折(zhe)梅(mei)入(ru)(ru)瓶(ping)”的詩意畫面。畫面中人物的手型、持杯動作都十分(fen)自然,溫酒的熱氣蒸騰也得到不錯的還原。即便(bian)是處理折(zhe)梅(mei)入(ru)(ru)瓶(ping)這樣細致入(ru)(ru)微的動作時,通(tong)義萬相(xiang)2.1也沒有出(chu)現翻(fan)車(che)的情況。
在下方的畫(hua)面中(zhong),人(ren)物飲(yin)茶(cha)、放杯、合書、轉(zhuan)身(shen)的動作一氣呵成,運動軌(gui)跡流暢,人(ren)物與杯子、書本的互動也符合物理規律(lv)。
《四景山水(shui)圖》中的(de)水(shui)墨畫風格鮮明,人物、花鳥(niao)傳神,還精準把握到了(le)留白這一中國傳統藝術中的(de)獨(du)特(te)審美理念,給(gei)觀眾以無限的(de)想象(xiang)空間(jian)。
在聯合網易云音樂、W出(chu)品的《穿過大山》中,通義萬(wan)相(xiang)同(tong)樣在人物動作上實現了較高的逼真(zhen)度,外賣小哥整理頭盔的動作,手指和周邊物體也沒有出(chu)現重疊、變形等問(wen)題。
在涉(she)及(ji)復雜(za)運鏡效果時,通義萬相依舊穩(wen)定地生成高質(zhi)量(liang)畫面。下圖中雖然(ran)鏡頭持續旋轉,但人物的(de)五官都沒有出(chu)現明顯的(de)形(xing)變(bian)。
三、通義萬相新年多番王炸,邁出視頻生成模型落地重要一步
除了亮相央(yang)視春晚、AI春晚的(de)眾(zhong)多視頻、圖像(xiang)生(sheng)成技術之外,通義萬相新年還有多項其他領(ling)域(yu)的(de)重(zhong)磅升級。
通義萬相首次實(shi)現了中(zhong)文文字視頻生(sheng)成(cheng)功能,能在圖片與視頻中(zhong)準確呈現中(zhong)文內(nei)容,而不是像(xiang)大(da)多數(shu)模型那樣僅能生(sheng)成(cheng)大(da)致(zhi)的輪(lun)廓(kuo)。
此外,通義萬相(xiang)還(huan)支持藝術字一鍵(jian)生成,文字還(huan)可以加(jia)上(shang)視(shi)頻(pin)特(te)效(xiao)選(xuan)項,如過渡、粒子效(xiao)果、模擬等,視(shi)覺表現力超強。
文生(sheng)組圖(tu)能(neng)力(li)(li)這次也登(deng)陸通(tong)義萬相(xiang)(xiang),DiT架構增強(qiang)了(le)文生(sheng)圖(tu)的(de)上(shang)下文能(neng)力(li)(li),可對多張圖(tu)像進行拼接與聯合描(miao)述(shu),輕松實現關(guan)聯圖(tu)像間(jian)的(de)組合生(sheng)成,解鎖了(le)通(tong)義萬相(xiang)(xiang)生(sheng)成電影分鏡、四格漫畫(hua)(hua)、情侶頭像等高(gao)度關(guan)聯畫(hua)(hua)面的(de)能(neng)力(li)(li)。
Prompt:一只(zhi)小狗在抓蝴蝶,撞到(dao)了(le)一棵大(da)樹上,眼冒金星。
縱觀通義萬相的(de)全(quan)面(mian)能力升(sheng)級和多(duo)項(xiang)跨(kua)界合作,未來我們或(huo)許有(you)望看到這(zhe)款模型走進更多(duo)的(de)應用(yong)場景,憑借(jie)其迭代升(sheng)級的(de)視頻質量、真實(shi)性(xing),讓視頻生成由AI公司秀(xiu)肌肉的(de)“角斗場”真正轉變為能產生實(shi)際效(xiao)益的(de)生產力工具。
例(li)如,影(ying)視制作(zuo)團隊(dui)能用通義萬相快速生成多個備選方案,直觀展現視覺效果;也可以直接(jie)生成部分場景,極大地降(jiang)低影(ying)視后期(qi)特效的(de)成本。
電子商務(wu)場景里,增強的圖(tu)像(xiang)與視頻(pin)生成(cheng)能(neng)力或許能(neng)用于宣(xuan)傳品生成(cheng)、AI試衣等環節,在提升消費體驗的同(tong)時(shi)還(huan)能(neng)降低成(cheng)本。
而在(zai)藝(yi)(yi)術(shu)領域,通義(yi)萬相的(de)風格化能(neng)(neng)力(li)和復雜提示(shi)詞(ci)的(de)理解(jie)能(neng)(neng)力(li),能(neng)(neng)幫助用戶(hu)快(kuai)速(su)生成具有特定風格的(de)藝(yi)(yi)術(shu)作品(pin),或是對自己原創(chuang)的(de)藝(yi)(yi)術(shu)作品(pin)進(jin)行(xing)高效的(de)再創(chuang)造、再利用,節省(sheng)部分重(zhong)復性勞動(dong),讓創(chuang)作者(zhe)能(neng)(neng)專注于(yu)創(chuang)意(yi)本身(shen)。
此(ci)外,通(tong)義萬(wan)相(xiang)還具(ju)備簡潔直觀的(de)交互界面,這意(yi)味(wei)著即便(bian)是非專(zhuan)業人士也(ye)能享受到這項技(ji)術的(de)便(bian)利,顯著降低創作(zuo)門檻,使更多普(pu)通(tong)用戶能夠輕松創作(zuo)高質量的(de)視頻內容,滿足個性化需求。
例如,今年年初,通義萬相便聯(lian)合兩馬同(tong)春鬧元宵燈(deng)會,上(shang)線萬物變(bian)花(hua)(hua)燈(deng)功能(neng),用圖(tu)生(sheng)圖(tu)、文生(sheng)圖(tu)、文生(sheng)視頻、圖(tu)生(sheng)視頻等能(neng)力,將福州(zhou)各地的古建(jian)一鍵變(bian)化(hua)為精美(mei)的花(hua)(hua)燈(deng),吸引不少個(ge)人用戶的體驗。
結語:通義萬相躍居行業排頭兵,引領視頻生成賽道新趨勢
2023年春節(jie)期間,OpenAI憑(ping)借Sora在(zai)視頻(pin)(pin)生(sheng)成領域引發熱潮,讓視頻(pin)(pin)生(sheng)成成為(wei)各大AI廠(chang)商競相追逐的焦點。而(er)今(jin)年春節(jie),阿里(li)旗下的通(tong)義萬相在(zai)春晚這一(yi)全(quan)國(guo)矚目(mu)(mu)的舞臺上,展示了視頻(pin)(pin)生(sheng)成技術令(ling)人(ren)矚目(mu)(mu)的顯著進步(bu)。
通義萬相(xiang)憑借對真實物(wu)理規律的深度理解、復雜影視效果(guo)的完美(mei)呈(cheng)現以及穩定(ding)清晰的輸出能力,幾乎滿足了(le)人們對視頻生成模型理想(xiang)形態的全部期待(dai)。這款模型在落地(di)場景時的積極探索和應用嘗試,更為視頻生成賽道帶來了(le)廣闊的想(xiang)象空間,有(you)望引領該領域的新趨勢。