智東西(公眾號:zhidxcom)
編 |?王穎

導語:最近,迪士尼正在研究AI自動生成動畫,這次他們新開發的系統不需要進行大量數據訓練,能使藝術家工作更有效率。

近日,迪士尼研究(jiu)所和羅格(ge)斯大學的(de)科學家共同(tong)發(fa)表了關于AI文本生成動畫模型的(de)論文。

研究(jiu)人員表(biao)示,這種算法只要在輸入的文本(ben)中描述某些活動即可,不需(xu)要注釋數據和進行(xing)大量訓練就能(neng)產生動畫(hua)。

這(zhe)篇論文(wen)中,研究人員(yuan)進一(yi)步提(ti)出了端(duan)到(dao)端(duan)模型(xing),這(zhe)種模型(xing)可以創建一(yi)個粗略的(de)故(gu)事版和電(dian)影劇(ju)本的(de)視(shi)頻,用來描(miao)繪電(dian)影劇(ju)本中的(de)文(wen)字(zi)。此(ci)外(wai),這(zhe)個系統(tong)還(huan)可用于生成訓(xun)練端(duan)到(dao)端(duan)神(shen)經系統(tong)的(de)訓(xun)練數據。

僅學習996個劇本!迪士尼用AI自動生成動畫

▲迪士尼羅格(ge)斯大學關(guan)于AI文本生成動畫模型的(de)論文

迪士(shi)尼一(yi)直(zhi)十分關注AI領(ling)域的(de)進(jin)展(zhan),多(duo)年來一(yi)直(zhi)嘗試將(jiang)AI技術融(rong)入自己(ji)的(de)各(ge)項產(chan)業當(dang)中,也曾多(duo)次與大學或其他研究機構合(he)作(zuo),開(kai)發(fa)了一(yi)系列訓練模(mo)型(xing)。這次,迪士(shi)尼又(you)將(jiang)文本轉(zhuan)換視頻的(de)技術進(jin)一(yi)步加強,使(shi)模(mo)型(xing)自動生(sheng)成動畫。

一、更復雜的文本如何轉換成動畫?

僅學習996個劇本!迪士尼用AI自動生成動畫

▲迪士尼(ni)的文字轉換(huan)為動畫AI系統圖解

將(jiang)文(wen)本(ben)(ben)轉(zhuan)換(huan)為(wei)(wei)動(dong)畫并不是一項簡單的(de)(de)任務,大多數將(jiang)文(wen)本(ben)(ben)轉(zhuan)換(huan)為(wei)(wei)視頻的(de)(de)工具不能處理復(fu)雜句子,因為(wei)(wei)輸(shu)入的(de)(de)句子和輸(shu)出(chu)的(de)(de)動(dong)畫都(dou)沒有固定(ding)的(de)(de)結構。為(wei)(wei)了(le)克服這種問題,兩位論文(wen)作者共同構建了(le)一個(ge)包含多個(ge)組件模塊的(de)(de)神經(jing)網絡。

這個網絡由幾個部分組成: 一個可以自動將文本與劇本場景描述隔離開的腳本解析模塊、一個自然語言處理模塊(使用一套語言規則簡化復雜句子,并從簡化句子中提取信息,轉化為預定義的動作表示),以及一個將所述表示轉換為動畫序列的生成模型。僅學習996個劇本!迪士尼用AI自動生成動畫

▲迪士尼(ni)AI系統的(de)文(wen)本簡化階(jie)段(duan)

簡(jian)(jian)化(hua)后的(de)(de)(de)方法能更容易的(de)(de)(de)提取腳本中(zhong)的(de)(de)(de)關鍵信息,新(xin)研(yan)發的(de)(de)(de)系統能夠自主地將復(fu)雜句(ju)子拆分,并(bing)組裝成更簡(jian)(jian)單(dan)的(de)(de)(de)句(ju)子,對其進行(xing)遞(di)歸處理,直到不可(ke)能進一(yi)步簡(jian)(jian)化(hua)。

接下來,系統將(jiang)“協(xie)調(diao)”句(ju)法關(guan)系相同、功能相同的句(ju)子。最后(hou),詞匯簡化器將(jiang)簡化后(hou)句(ju)子中(zhong)的動作,與預定義(yi)庫(ku)中(zhong)的52個(ge)動畫匹配(通(tong)過同義(yi)詞詞典擴展到(dao)92個(ge))。

然(ran)后(hou),在一個(ge)名為Cardinal的(de)(de)管(guan)道中(zhong)將(jiang)動(dong)(dong)作輸入,并(bing)在一個(ge)流行的(de)(de)視頻游戲引擎(qing)Unreal中(zhong)創(chuang)建預可視化。利用預定義的(de)(de)動(dong)(dong)畫(hua)庫、預加載的(de)(de)對象以及(ji)可用于創(chuang)建角(jiao)色的(de)(de)模型(xing),最終,這個(ge)系統(tong)可以生成一個(ge)3D動(dong)(dong)畫(hua)視頻。

為了(le)(le)(le)訓練這個(ge)(ge)系統,研究(jiu)人(ren)員從IMSDb、SimplyScripts和ScriptORama5等可自由獲取資源的電影(ying)劇(ju)本(ben)數據(ju)庫(ku)中(zhong),搜集了(le)(le)(le)超過(guo)1000個(ge)(ge)劇(ju)本(ben),從中(zhong)選取了(le)(le)(le)996個(ge)(ge),編寫了(le)(le)(le)場景描(miao)述語(yu)料庫(ku)。 這個(ge)(ge)語(yu)料庫(ku)由525,708個(ge)(ge)描(miao)述組(zu)成,包含(han)1,402,864個(ge)(ge)句子,其中(zhong)920,817個(ge)(ge)(超過(guo)40%)至少有一(yi)個(ge)(ge)動作動詞。

二、動畫合理性達68%,研究人員將進一步優化系統

在一項定性測試中,22名參與(yu)者以5分制標(biao)準,來評估系(xi)統生(sheng)成(cheng)(cheng)的(de)20個動畫(例(li)如,如果(guo)所顯(xian)示(shi)的(de)視頻對文本來說是合(he)理(li)的(de)動畫,則視頻中描繪了多少(shao)文本信(xin)息,以及視頻中有多少(shao)信(xin)息存在于文本中),68%的(de)參與(yu)者認為系(xi)統通過輸入劇(ju)本生(sheng)成(cheng)(cheng)了“合(he)理(li)”的(de)動畫。

研究人員認(ren)為,除(chu)了系(xi)統本(ben)身的(de)(de)局限性之外(wai),生成動(dong)畫的(de)(de)“不合(he)理(li)”成分也與文本(ben)中關(guan)(guan)于行動(dong)的(de)(de)模糊(hu)性有關(guan)(guan)。他(ta)們承(cheng)認(ren)這個系(xi)統并不完美(mei),它的(de)(de)動(dong)作和對象列表(biao)并不是詳盡無遺的(de)(de)。有時候,詞匯簡(jian)化(hua)不能(neng)將動(dong)詞(如“watch”)映射到(dao)相似的(de)(de)動(dong)畫(“look”)中,或者(zhe)只能(neng)為原句中有很(hen)多主語的(de)(de)動(dong)詞創(chuang)建幾(ji)個簡(jian)化(hua)的(de)(de)句子。

內部評價和外部評價顯示了(le)該系(xi)統性能的合(he)理性。研(yan)究人(ren)員計劃在今后(hou)的工作中,重點關注(zhu)如何能使系(xi)統更充分(fen)的利用文(wen)本中描述的話語信(xin)息(xi),來(lai)解決文(wen)本中關于行動模糊性的問(wen)題。

三、迪士尼的AI研究歷程

從技術的(de)角度來看,迪士尼似乎很(hen)重視在(zai)AI方面的(de)研究,也有(you)過(guo)諸多(duo)嘗試。

2017年8月,迪士尼與(yu)蘇黎世(shi)聯邦理工學(xue)院合(he)作,開發(fa)了將(jiang)畫面與(yu)聲音連接起(qi)來(lai)的機器學(xue)習系統,這種系統可(ke)以將(jiang)語音與(yu)畫面結合(he)起(qi)來(lai),使視頻內容看起(qi)來(lai)更加(jia)連貫。

研究人(ren)員將一(yi)系列含(han)有雜(za)音和(he)背(bei)景音不純的(de)視頻輸入系統,用來(lai)訓練模型。訓練后的(de)系統能(neng)夠把(ba)畫面信(xin)息(xi)和(he)聲音信(xin)息(xi)做出關聯。比(bi)如(ru),隨著關門的(de)動作進(jin)行,人(ren)們(men)會“想象”特(te)定(ding)的(de)關門聲音。本質上,其實是人(ren)們(men)把(ba)關門相關的(de)視覺信(xin)息(xi)跟聲音信(xin)息(xi)做了(le)連接。

這(zhe)項(xiang)研究(jiu)想(xiang)要做的(de)(de),就(jiu)是培養AI系(xi)統(tong)的(de)(de)這(zhe)種(zhong)關聯性,他們訓練(lian)的(de)(de)AI系(xi)統(tong)成(cheng)功的(de)(de)將(jiang)關門、杯子(zi)碰撞(zhuang)和汽車在(zai)馬路上行駛(shi)畫面(mian)于(yu)聲音進行了(le)配(pei)對。這(zhe)也將(jiang)幫助視頻(pin)剪輯師更好地工作。

僅學習996個劇本!迪士尼用AI自動生成動畫

▲迪(di)士尼發布AR形象與實際物體互動(dong)圖片

2018年1月,迪士尼的(de)(de)研究(jiu)人員發布(bu)了一項(xiang)可(ke)以使動(dong)(dong)畫AR角色與實際的(de)(de)物體互動(dong)(dong)的(de)(de)黑科技(ji)。

比(bi)如,當一(yi)個3D卡通(tong)角色映射在家(jia)里的(de)客廳(ting)地板(ban)上時(shi)(shi),這個虛(xu)擬的(de)形象(xiang)會跳(tiao)過臺階(jie)或(huo)繞開障礙物行走,甚至當寵物狗沖過來的(de)時(shi)(shi)候還(huan)可能一(yi)下把它撞到。

這(zhe)項研究做到了(le)AR體(ti)驗(yan)與現實的互(hu)動(dong),給(gei)動(dong)畫(hua)帶(dai)來了(le)更多樂趣。說不定以后(hou)我們自(zi)己也可以和動(dong)畫(hua)里(li)的人物進(jin)行互(hu)動(dong)了(le)。

2018年9月,迪士尼(ni)(ni)AI研究中心(xin)還嘗試了讓機器人完成(cheng)像(xiang)超級英雄一(yi)樣的(de)特(te)技動作。迪士尼(ni)(ni)的(de)特(te)技實驗包括訓練機器人的(de)神經網絡來控制(zhi)機器人,以(yi)此(ci)完成(cheng)上天(tian)入(ru)地、爬(pa)行(xing)、劃船(chuan)等動作,人類能(neng)(neng)做的(de)它(ta)可以(yi),人類不能(neng)(neng)做的(de),它(ta)也可以(yi)。

四、文本轉換視頻技術早已應用

其實,從文本(ben)片(pian)段創建(jian)原始剪輯的(de)(de)AI并(bing)不是最新的(de)(de)研究(jiu)發現。

2016年(nian)4月,臺灣創企GliaCloud就利(li)用AI技(ji)術,將(jiang)文(wen)本(ben)信息的主要內容(rong)(rong)以視(shi)頻(pin)的形式展示了出來(lai)(lai)。這(zhe)家(jia)AI視(shi)頻(pin)制作公司在(zai)(zai)(zai)2015年(nian),由全(quan)球48位Google云技(ji)術專(zhuan)家(jia)之(zhi)一(yi)David Chen和在(zai)(zai)(zai)廣告領域有(you)(you)著20年(nian)業務拓展經歷的Dominique Tu在(zai)(zai)(zai)臺灣共同創建。GliaStudio對指(zhi)定文(wen)本(ben)的內容(rong)(rong)進行分析和總結之(zhi)后,根據所(suo)提取的內容(rong)(rong)從自有(you)(you)資料庫或是公共資源中(zhong)尋(xun)找相關(guan)的照片、視(shi)頻(pin)片段甚至畫(hua)外(wai)音來(lai)(lai)生成影片。

去(qu)年,也有研究人員詳(xiang)細介紹了一(yi)(yi)(yi)(yi)個利(li)用(yong)神經網(wang)絡(luo)模(mo)仿生(sheng)物神經元的(de)系(xi)統,這種系(xi)統能夠生(sheng)成32幀(zhen)長、6464像素的(de)視頻。研究人員表(biao)示,這種系(xi)統生(sheng)成視頻分兩個階(jie)段(duan)進行,第一(yi)(yi)(yi)(yi)階(jie)段(duan)使用(yong)文(wen)(wen)(wen)本(ben)創建視頻的(de)要(yao)點(dian),一(yi)(yi)(yi)(yi)般是背景顏色和對(dui)象布局的(de)模(mo)糊(hu)圖像。第二階(jie)段(duan)同時考慮到要(yao)點(dian)和文(wen)(wen)(wen)本(ben)的(de)其(qi)他內容,然后要(yao)點(dian)與文(wen)(wen)(wen)本(ben)內容結(jie)合,生(sheng)成一(yi)(yi)(yi)(yi)段(duan)視頻。

僅學習996個劇本!迪士尼用AI自動生成動畫

比如(ru),將“在(zai)草(cao)地(di)上打高爾夫球(qiu)”這句話,生成一個人們(men)在(zai)草(cao)地(di)上打高爾夫球(qiu)的視頻。

從自(zi)然語(yu)言文本自(zi)動(dong)生(sheng)成動(dong)畫在很多領域都有應用,比如電影腳(jiao)本編寫、教學視頻和公(gong)共(gong)安全等內容。

這些AI算(suan)法系統,可以為內(nei)容創作者提供更快(kuai)的迭代(dai)、原(yuan)型設計和概念驗證,有助于提高劇本編寫效(xiao)率。

結語:AI生成動畫或有更廣闊的市場

研究人員(yuan)表(biao)示,迪(di)士尼(ni)進行AI自(zi)動生成動畫的(de)(de)研究不是(shi)為了取代編劇和藝(yi)術家(jia)的(de)(de)工作,而(er)是(shi)為了提高繁瑣工作程序(xu)的(de)(de)效率。

雖然(ran)目前研究結果還不(bu)完善,生成(cheng)動畫(hua)的系統(tong)還不(bu)能百分之百將文(wen)本(ben)內容轉換成(cheng)動畫(hua),但是這項研究對于文(wen)本(ben)轉換視頻(pin)技術也是一(yi)次有意義的嘗試。

迪(di)士尼動(dong)畫(hua)在全世界都(dou)有十分(fen)廣泛的(de)影(ying)(ying)(ying)響,塑造了一(yi)個(ge)(ge)又一(yi)個(ge)(ge)經典的(de)動(dong)畫(hua)形(xing)象。如今(jin),他們(men)在AI自動(dong)生成(cheng)動(dong)畫(hua)方(fang)面的(de)研究也(ye)很(hen)可能影(ying)(ying)(ying)響整個(ge)(ge)動(dong)畫(hua)電(dian)影(ying)(ying)(ying)制作(zuo)市場,AI生成(cheng)的(de)方(fang)式也(ye)許(xu)將成(cheng)為未來動(dong)畫(hua)電(dian)影(ying)(ying)(ying)制作(zuo)的(de)新方(fang)向。

論文鏈接:

原文來(lai)自:VentureBeat