智東西(公眾號:zhidxcom)
作者 | ZeR0 程茜
編輯 | 漠影

掀起視頻大模型風暴的Sora,終于(yu)正式(shi)發(fa)布!

智東西12月10日報道,今日凌晨,OpenAI推出文生視頻模型Sora的新版本Sora Turbo,稱其比2月預覽的(de)Sora模型快得(de)多。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

Sora可生成最高1080p分辨率、最長20秒16:9 / 1:1 / 9:16 畫(hua)面比例的視頻,支持用戶輸入文字或上傳圖像(xiang),并上線全新(xin)UI界面,以便對(dui)生成(cheng)視頻進行修改(gai)、創(chuang)建、擴展、循環(huan)、混(hun)合,或用文本生成(cheng)全新(xin)的內容。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

OpenAI在Sora.com上發布一個獨立產品,免(mian)費提供給(gei)ChatGPT Plus和Pro用(yong)戶(hu)。

Plus用戶每月最多可以生成50個480p分辨率視頻,或更少的720p分辨率、5秒視(shi)頻(pin),對應(ying)月費20美元(yuan)(折合(he)人民(min)幣145元(yuan))。

Pro訂閱者則最多可生成500個視頻,并支持20秒時長、1080p分辨率,可下載無(wu)水印版視(shi)頻,對(dui)應月費200美(mei)元(yuan)(折合人民幣1450元(yuan))。

平攤下來生成(cheng)一個視(shi)頻花2.9元。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

ChatGPT Plus和Pro每月分(fen)(fen)別為用(yong)(yong)戶提供1000和10000積分(fen)(fen)。其中480p視(shi)(shi)頻需要20-150個(ge)積分(fen)(fen),720p視(shi)(shi)頻需要30-540個(ge)積分(fen)(fen),1080p視(shi)(shi)頻需要100-2000個(ge)積分(fen)(fen)。Pro用(yong)(yong)戶則享受無限量(liang)的relaxed視(shi)(shi)頻。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

OpenAI正在為(wei)不同(tong)類型(xing)的(de)用戶制定不同(tong)定價,計劃于明年初推出。

Sora一(yi)發布,ChatGPT氪(ke)金黨們立即瘋玩起(qi)來(lai),紛(fen)紛(fen)在(zai)社交平臺上曬出自己的第一(yi)個Sora生(sheng)成視頻(pin)大作。

例如下面這個新聞播報視頻,雖然最終生成的視頻中有一堆亂碼文本,但視頻畫面切換的節(jie)點、文字滾(gun)動(dong)條、新聞風格鏡(jing)頭……這些都(dou)是(shi)Sora自(zi)主(zhu)完成(cheng)的,并且新聞主(zhu)播(bo)的形(xing)象也十分逼真。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

還有此前體驗許久的藝術家,直接用Sora生成了一個1分38秒的MV

不過有網友發現,同為付費用戶,ChatGPT Plus并不能生成帶有人物的視頻,只有ChatGPT Pro才可以

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

服務器很快就火爆到進不(bu)去了。

OpenAI聯合創始人兼(jian)CEO Sam Altman轉(zhuan)發了Sora團隊技術人員(yuan)關于注冊(ce)被(bei)禁(jin)用的(de)帖子(zi):“需(xu)求高于預期(qi),注冊(ce)將(jiang)被(bei)禁(jin)用,生成將(jiang)在一(yi)段時(shi)間內變(bian)慢。盡力而為。”

他還抽空(kong)發(fa)文恭喜谷(gu)歌剛剛發(fa)布的量子計算芯(xin)片(pian)Willow。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺▲阿爾特(te)曼(man)回應Sora注冊被暫時(shi)禁用(yong)

一、Sora專屬頁面上線:預設風格、多種選項、社區分享

OpenAI開發了新(xin)的界面,以(yi)便更輕松地使用文本(ben)、圖(tu)像和視頻提(ti)示Sora。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

頁面(mian)下方有(you)輸入(ru)框,可以(yi)輸入(ru)想(xiang)要生成視頻的文字描述(shu),并(bing)提供(gong)“預設”、“屏幕比例”、“分辨率”、“時長”、“變(bian)體”等選(xuan)項。如果鼠(shu)標移到“?”圖標,會顯示生成視頻所(suo)需消耗的積(ji)分值。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

畫面比(bi)例可選16:9、1:1、9:16。分辨率可選1080p(慢(man)8倍(bei))、720p(慢(man)4倍(bei))、480p(最快)。時長可選20秒、15秒、10秒、5秒。一次(ci)可生成1個、2個或4個視頻變體。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

預設有6個選項。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

點擊“Create”即可創建視頻(pin)。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

打開每個(ge)視(shi)頻,底(di)部還能進一步編輯(ji)提示(shi)詞、觀看(kan)故(gu)事、Re-cut(重剪輯(ji))、Remix(基于(yu)此修改(gai)或創建新(xin)視(shi)頻)、Blend(兩個(ge)視(shi)頻無(wu)(wu)縫過渡(du))和(he)Loop(無(wu)(wu)縫循環(huan)播放)。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

頁(ye)面右上角有“喜歡”、“分享”、“下載”等選項。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

OpenAI還(huan)提(ti)供(gong)精選(xuan)和(he)最新(xin)動態(tai),不斷更新(xin)社區的(de)創作。點(dian)擊頁面左側Featured,可看到分享的(de)作品。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

點擊頁面右上(shang)方賬(zhang)戶(hu),可(ke)以(yi)看(kan)到(dao)視頻教程。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

二、畫面元素絲滑替換,逐幀分鏡頭講故事超便捷

具(ju)體來看(kan)看(kan)Sora不同功能(neng)的效果。

1、Remix:替換、刪除或重構視頻中的元素

你可以輸入指令,要求Sora生成的視頻反復修改畫面元素。有“強”、“中”、“微”、“定制”四種Remix強度選項。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

比(bi)如把視頻畫(hua)面中的“猛犸象換成(cheng)機器人”:

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

再比如生成“打開通往圖書館(guan)的大門”的視(shi)頻:

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

然后“把門換成(cheng)法式門”:

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

“把圖書館變成一艘(sou)宇宙飛船”:

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

“移除宇宙飛船,添加(jia)叢(cong)林”:

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

“把叢林換成月球(qiu)景觀”:

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

2、Re-cut:找到你最滿意的視頻片段,將它截取出來,向任一方向延展以完成場景

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

3、Storyboard工具:在時間軸上組織和編輯視頻的獨特序列,精確指定每一幀的輸入

使用故事板(Storyboard),視頻畫面(mian)能被控制得非常精細(xi)。用戶可通過輸入文字提示、上傳圖(tu)片或基于已有視頻,在頁面(mian)添加(jia)多(duo)個分鏡頭。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

比(bi)如指定(ding)第(di)一幀是“一只美麗的黃尾白鶴站在小溪里”,第(di)二(er)幀畫面是“鶴把(ba)頭伸進水里,撈(lao)出一條魚”。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

系統會自動擴寫(xie)提示詞。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

有了這個工具,你就可以制作多鏡頭視頻大片了。

例如生成一個“一(yi)片廣闊的(de)紅色景觀,遠處有一(yi)艘停靠的(de)宇宙飛船”的(de)視頻:

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

將(jiang)下(xia)一(yi)個鏡頭(tou)指定(ding)為(wei)“從宇宙飛船內(nei)部向外看,一(yi)位太空牛仔站在(zai)畫面中央(yang)”:

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

然后來個(ge)“針織布(bu)面罩框住宇(yu)航員的眼(yan)睛的詳細(xi)特寫視圖”:

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

視頻就有(you)了(le)清晰的故事線(xian)。

4、Loop:使用循環剪輯并創建無縫重復的視頻

Loop有(you)“短”(2秒)、“中”(4秒)、“長”(完整版)三(san)種循環選項。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

示(shi)例(li)1:花

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

示例2:樓梯

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

5、Blend:將兩個視頻合成為一個無縫剪輯

Blend曲線有過渡(Transition)、混合(Mix)、采樣(Sample)、定制(Custom)四(si)個選項。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

可將兩個視(shi)頻畫面無縫融(rong)合:

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

6、Style presets(樣式預設):使用預設創建和分享激發想象力的風格

右(you)下(xia)角是兩個猛犸象在步行的視頻,你可以將(jiang)風格切(qie)換成“硬(ying)紙板和(he)紙質工藝品(pin)”(左上(shang))、“復古電影”(右(you)上(shang))、“懷舊檔案”(左下(xia))。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

三、網友玩出Sora各種bug:搞錯性別、文字亂碼、鏡頭變化不聽指令

Sora公開上(shang)線后,首批(pi)ChatGPT試(shi)用者們積極在社交平臺(tai)曬作品。許多視頻乍一看都非常逼真,其(qi)中(zhong)也(ye)不乏一些令(ling)人啼(ti)笑皆非的畫面細節。

這個用戶的提示詞是“一只鵜鶘沿著俯瞰港口的沿海小徑騎自行車”,不過最后生成的視頻中,鵜鶘在中途莫名其妙地變為向相反的方向騎行

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

還有用戶的生成視頻中,Sora直接把人物性別搞反了。網友的提示詞是“一個30多歲的男人,黑頭發,戴著眼鏡,和一位黑發女人一起走在尼斯的長廊上。天氣很好,有幾個人在海灘上曬日光浴”。但視頻中出現了兩位女士

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

再來看下面的用戶體驗視頻,網友稱這條視頻Sora花費了大約30s,不(bu)過其并(bing)沒有(you)公開提示詞(ci)。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

還有用戶立即對比了Sora、Runway、快手可靈、MiniMax海螺的效果。提示詞是“維京演員的情感表演。當演員皺眉時,鏡頭推到臉上”。

從結果來看,Sora的視頻鏡頭多變,且頗有大片風范,但沒有實現“當演員皺眉時,鏡頭推到臉上”

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

快手可靈的生成效果是最契合提示詞的,人物有細微的皺眉動作,且鏡頭聚焦到了人物臉上

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

MiniMax的海螺生成的視頻則是拉遠了鏡頭

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

Runway的人物表情相比其他三家在皺眉的同時帶動了臉部其他位置的變化。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

四、公開、專用、人類三類數據來源,數百名創意人士已體驗10個月

OpenAI還(huan)發布了Sora System Card來分享(xiang)其安全和監控方法的詳細信息。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

Sora構建于DALL·E和GPT模型的基礎之上,是一種采用Transformer架構的擴散模型,從一個看起來像靜態噪聲的基礎視頻開始生成視頻,然后通過多個步驟消除噪聲,逐漸對其進行轉換。通過讓模型一次預測多個幀,Sora生成的視頻可以確保主體即使暫時消失在視野之外也能保持不變

該模型使用了DALL·E 3中的重新標注技術(Recaptioning Technique)。該技術可(ke)以為視覺訓練數據生(sheng)成(cheng)(cheng)高(gao)度描述性(xing)的字(zi)幕,使模型能夠(gou)更(geng)忠實地遵循(xun)生(sheng)成(cheng)(cheng)的視頻中用戶(hu)的文本指(zhi)令。

除了能(neng)(neng)夠僅根據文本(ben)指令生成(cheng)視頻(pin)外(wai),該模(mo)型還(huan)能(neng)(neng)夠利(li)用現有的靜態圖像生成(cheng)視頻(pin)或者利(li)用現有視頻(pin)進行擴展或填(tian)充缺(que)失的幀。OpenAI相(xiang)信這一能(neng)(neng)力將是實(shi)現通(tong)用人工智能(neng)(neng)(AGI)的重要里程碑。

1、訓練數據來源:公開可用、企業專有數據、人類數據

與語言模型擁有文本token不同,Sora擁有視覺塊(visual?patches),這已被證明(ming)是視(shi)覺數(shu)據模型的(de)有效(xiao)表示。

基于此,OpenAI的(de)研究人員發現視覺塊是一種高度可(ke)擴展且(qie)有效的(de)表(biao)示形式(shi),可(ke)用于在各種類型的(de)視頻和圖像上訓練生成(cheng)模型。在高層次(ci)上,他們首先將視頻壓(ya)縮成(cheng)一個低(di)維(wei)的(de)潛在空(kong)間,然后將表(biao)示分解成(cheng)時(shi)空(kong)視覺塊。

此外,Sora接受了各種數據集的訓練,包括公開可用的數據、通過合作伙伴關系訪問的專有數據以及內部開發的自定義數據集。這些包括:主要從行業標準的機器學習數據集和Web爬蟲中收集到的公開可(ke)用數據;OpenAI建立合作伙伴關系以訪問非公開可用(yong)的專有(you)數據,并合作調試和創建適合其需求的數據集;來自AI培訓(xun)師、紅隊(dui)成員(yuan)和員(yuan)工的反饋。

2、四項輸出前安全措施,數百名專業人士已測試10個月

Sora的(de)(de)能(neng)力(li)可(ke)能(neng)帶來新的(de)(de)風(feng)險,例如(ru)濫用(yong)相似(si)或(huo)(huo)產生誤導性或(huo)(huo)露骨視頻內容的(de)(de)可(ke)能(neng)性。

在安全方面,自2024年2月發布Sora以來,OpenAI與來自60多個國家/地區的數百名視覺藝術家(jia)、設計(ji)師和電影制作人合作,以(yi)獲(huo)得(de)有關如何推進該模(mo)型以(yi)對創意專業人士最有幫助的反饋。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺▲動畫(hua)師(shi)上傳微縮模(mo)型圖(tu)片后生(sheng)成(cheng)的視(shi)頻

OpenAI采(cai)用了以下(xia)形式,作為(wei)Sora向用戶顯示其請求輸出之前采(cai)取的安全緩解措施(shi):

通過多模(mo)態審核(he)分類器進行文(wen)本和圖像審核(he)自定義大語言模(mo)型(xing)篩選(xuan)(定制GPT,利用視頻生成的時間窗口,對某些特定主題高精度審核)、圖(tu)像輸出分(fen)類(lei)器、?黑名單(提前設置文本阻止列表(biao))。

當前OpenAI屏蔽了一些特別有(you)害的(de)形式,如兒(er)童虐待、深(shen)度性偽造等。這些題材(cai)上(shang)傳會被限制。

Sora上線擠爆服務器!1個視頻3塊錢,網友已玩瘋,實測對比可靈海螺

OpenAI稱其分類器(qi)非常準(zhun)確(que),但偶爾可能(neng)會(hui)錯誤(wu)地標注成人或非現實的兒童圖(tu)像。他(ta)們也承(cheng)認研究和(he)現有文獻強調了年齡預測模型存(cun)在種族偏見(jian)的可能(neng)性。

接(jie)下來幾(ji)個(ge)月里(li),OpenAI團隊將致力于(yu)提高分類器的性能,最大限度地減少誤(wu)報,并(bing)加深其對(dui)潛在偏(pian)差的理解。

為了(le)確保Sora技術被負責(ze)任的使用(yong),所有(you)Sora生成視頻均附(fu)帶C2PA元數據。它將(jiang)識別視頻是否來(lai)自(zi)Sora,以提供(gong)透明度,并可用(yong)于驗(yan)證來(lai)源(yuan)。OpenAI默認添(tian)加了(le)可見水印等保(bao)護措施,并構建了(le)一個(ge)內部搜索工具(ju),該工具(ju)使用第二代(dai)的技(ji)術屬(shu)性來幫(bang)助驗證(zheng)內容是否來自Sora。

結語:Sora仍有很多局限性

正(zheng)在(zai)部署的Sora版(ban)本有很多限制,通常會產生不現實的物理效果,同時(shi)長(chang)時(shi)間復雜動作仍(reng)具(ju)挑戰性(xing)。

OpenAI仍(reng)在努力(li)使每個(ge)人(ren)都負(fu)擔(dan)得(de)起這項技(ji)術(shu)。該團隊希(xi)望Sora早(zao)期(qi)版本能讓世(shi)界各地的(de)人(ren)們探(tan)索新的(de)創意(yi)形式,講述自己的(de)故(gu)事,并突破視頻(pin)講故(gu)事的(de)可能性。

對(dui)于視(shi)頻創(chuang)作者來說,Sora的到(dao)來無疑是最頂的圣(sheng)誕節(jie)禮物之一。很期待看到(dao)世界將用Sora創(chuang)造(zao)出什么。