智東西(公眾號:zhidxcom)
編譯 |? 徐豫
編輯 |? 漠影

智東西8月22日(ri)消息,據VentureBeat 8月20日(ri)報道(dao),AI初(chu)創公司Hotshot的同名文生視頻模型“Hotshot”開放公測,用戶(hu)可以(yi)訪問(wen)Hotshot.co官網使(shi)用該模型,現階段每人(ren)每天(tian)有兩次免費創作機會。

Hotshot模(mo)型由(you)4人(ren)小(xiao)團(tuan)隊用數千塊GPU訓(xun)練(lian)而(er)成,可以生成10秒以內不(bu)同主題的視(shi)(shi)頻(pin),耗時(shi)(shi)短、清晰度高(gao)、操作界面簡潔。與主流的AI文生視(shi)(shi)頻(pin)模(mo)型相比,Hotshot公測版兼(jian)顧視(shi)(shi)頻(pin)生成效(xiao)率(lv)和穩定(ding)性(xing)的同時(shi)(shi),視(shi)(shi)頻(pin)風(feng)格更(geng)豐(feng)富(fu),生態(tai)也更(geng)加開放,可生成無水(shui)印視(shi)(shi)頻(pin)。

AI視頻生成狂卷!4人小團隊造出Sora競品,耗費數千塊GPU,已開放公測

▲可用Hotshot生(sheng)成風格多樣的視頻(pin)(圖(tu)源:Hotshot)

Hotshot成立于2023年,聯(lian)合(he)創始人為Aakash Sastry、John Mullan和Duncan Crawbuck。這三位公司創始人已(yi)有11年的消費級應用開發經驗,并(bing)從Lachy Groom、Alexis Ohanian、SV Angel等(deng)人那里獲得(de)了資金支持(chi)。

體驗地址://hotshot.co/

一、最長10秒,清晰度720p,可定制動漫效果

Hotshot文(wen)生(sheng)視頻模(mo)型是一款Transformer擴散模(mo)型,其最新版本可根(gen)據文(wen)字(zi)描述生(sheng)成(cheng)一段最長10秒、清晰度為(wei)720p的視頻。

例(li)如,在(zai)Hotshot中(zhong)輸入“柯(ke)(ke)基(ji)坐在(zai)學校教(jiao)室里”,我們(men)可(ke)以得到,兩(liang)只毛發分明順(shun)滑的(de)(de)柯(ke)(ke)基(ji),身穿不同(tong)花色、樣式(shi)的(de)(de)衣服,坐在(zai)木色椅子上東(dong)張西望,柯(ke)(ke)基(ji)身后(hou)是寫(xie)有粉筆字的(de)(de)黑(hei)板,而黑(hei)板旁有一(yi)個(ge)陳列地球儀等(deng)教(jiao)具的(de)(de)展示柜,整體拍攝視(shi)(shi)角不斷推進的(de)(de)一(yi)段視(shi)(shi)頻。

AI視頻生成狂卷!4人小團隊造出Sora競品,耗費數千塊GPU,已開放公測

▲Hotshot根據文(wen)本“柯(ke)基坐在學校教(jiao)室里”AI生成的視(shi)頻(圖源:Hotshot)

除(chu)了模(mo)擬(ni)真(zhen)實的人物、場(chang)景、風(feng)景,用(yong)戶還可以用(yong)Hotshot制作動漫、逐幀(zhen)動畫、特效等風(feng)格化視頻。

Hotshot生成的(de)一段視(shi)頻(pin)中,一位金發(fa)年(nian)(nian)輕男子(zi),身穿藍色襯衫和深色褲子(zi),坐在客廳的(de)黃色沙發(fa)上,玩著手持電(dian)子(zi)游戲,客廳布置了(le)綠植、掛畫(hua)。視(shi)頻(pin)畫(hua)面配(pei)色鮮艷、筆觸粗獷,呈現出50年(nian)(nian)代(dai)的(de)復古漫畫(hua)風(feng)格。

AI視頻生成狂卷!4人小團隊造出Sora競品,耗費數千塊GPU,已開放公測

▲Hotshot可(ke)以風格化處理視(shi)頻(圖源:Hotshot)

二、4個人耗時4個月,投入6億段素材,花費幾千塊GPU

這樣一個“類Sora”的(de)文生視頻模型,Hotshot僅(jin)靠(kao)團隊4人,耗時4個月,便(bian)完成了該模型的(de)訓(xun)練(lian)工作。

據Hotshot介紹(shao),最新(xin)版的文生(sheng)視頻模型(xing)(xing)在訓練(lian)中投入了6億(yi)段視頻及音頻素材、幾千塊GPU,高強度的模型(xing)(xing)訓練(lian)常常導致(zhi)NVIDIA H100 GPU出現(xian)故障,“機房差點著火”。為了讓(rang)模型(xing)(xing)不偏(pian)離預期方向,團隊成員一個月都沒有休息,輪流(liu)監(jian)控訓練(lian)結果。

3位創始(shi)人和(he)新成(cheng)員Chaitu Aluru還開發了一個新的自動編碼器,在“空間”和(he)“時間”上壓縮視頻內(nei)容,而非(fei)折(zhe)損視頻質量和(he)相關數據,從(cong)而更高效地訓練(lian)長序列(lie)視頻。

三、過去一年多,Hotshot模型3次升級換代

Hotshot曾推出過AI文生(sheng)圖(tu)應用和(he)兩代(dai)AI文生(sheng)視頻模型,可(ke)惜未能激起(qi)較(jiao)大的水花。

去(qu)年,Hotshot上線了同名消費(fei)級AI文生(sheng)圖應用(yong),用(yong)戶可(ke)以免(mian)費(fei)用(yong)Hotshot生(sheng)成和(he)修改照片,但該(gai)應用(yong)可(ke)能已被下架。

后續Hotshot推出了(le)AI文生視(shi)頻模(mo)型(xing)Hotshot-XL,并開源(yuan)。該模(mo)型(xing)可(ke)以生成時(shi)(shi)長(chang)1秒(miao),幀率8fps的視(shi)頻。當時(shi)(shi),Hotshot-XL的月活用戶超2萬人(ren)次(ci)。Hotshot Act-One則是Hotshot-XL的升級版,拓展了(le)AI視(shi)頻生成的時(shi)(shi)長(chang)上(shang)限。Hotshot Act-One模(mo)型(xing)可(ke)制作時(shi)(shi)長(chang)3秒(miao),幀率同為(wei)8fps的視(shi)頻。

Hotshot聯(lian)合創始人Sastry在社交媒體(ti)X的帖(tie)子中寫道,Hotshot是“目(mu)前(qian)最(zui)先(xian)進(jin)的公開(kai)模型”,十多年以來,我們首次能夠(gou)為用戶提供“強大(da)且(qie)新穎的”AI文生視(shi)頻功能,而這(zhe)僅(jin)僅(jin)是一(yi)個開(kai)始。

結語:AI文生視頻模型很卷,但還沒有絕對的贏家

在Sastry看(kan)來,未來一年內,YouTube將被多模(mo)態(tai)生成(cheng)式(shi)AI作品“刷屏”,AI文生圖、文生視(shi)頻(pin)、文生音頻(pin)、圖生視(shi)頻(pin)等創(chuang)作方(fang)式(shi),將成(cheng)為數字媒(mei)體上的常態(tai)。

市(shi)面上AI視(shi)頻(pin)生(sheng)成模型(xing)和(he)應用的(de)(de)競爭(zheng)也愈(yu)發激烈。AI視(shi)頻(pin)創(chuang)(chuang)企(qi)(qi)Runway ML的(de)(de)Gen-3 Alpha Turbo、AI大模型(xing)獨角(jiao)獸OpenAI尚未公(gong)開的(de)(de)Sora、3D建(jian)模與(yu)視(shi)覺AI公(gong)司Luma的(de)(de)Dream Machine等(deng)AI視(shi)頻(pin)生(sheng)成模型(xing),以及AI視(shi)頻(pin)創(chuang)(chuang)企(qi)(qi)Pika Labs的(de)(de)Pika AI視(shi)頻(pin)生(sheng)成應用,都(dou)有著(zhu)較高的(de)(de)關注度。

與(yu)競爭對手(shou)相比(bi),Hotshot雖然(ran)文本還原度較(jiao)高、視頻生成速(su)度較(jiao)快,但(dan)現(xian)階段的視頻生成效果,在(zai)質量、細節和分(fen)辨率上都差強人意(yi)。網友用Hotshot模型制作(zuo)的視頻,不少存(cun)在(zai)手(shou)部(bu)、腿部(bu)重影,物品懸空、動(dong)作(zuo)邏輯錯誤(wu)、說話神態、口型單一等較(jiao)為明(ming)顯的漏(lou)洞。

AI視頻生成狂卷!4人小團隊造出Sora競品,耗費數千塊GPU,已開放公測

▲馬腿出現(xian)重影(圖源:VentureBeat)

來源(yuan):VentureBeat、Hotshot X官方賬號