
智東西(公眾號:zhidxcom)
作者 | 李水青
編輯 | 心緣
智東西9月4日報道,9月3日,快手開源最新多模態大模型Keye-VL-1.5。該模型擁有80億個參數,支持128k tokens擴展上下文,在視頻理解、圖像理解和推理方面能力出色。
▲Keye-VL-1.5開源(yuan)地址截圖
在Video-MME、Video-MMMU、TempCompass等一系列權威的公共視頻基準測試中,Keye-VL-1.5在同等規模模型中取得了SOTA(最佳表現),趕超阿里Qwen2.5-VL 8B、小米MiMo-VL 7B-RL等同等規模優秀模型;在WeMath、MathVerse等需要復雜邏輯推理和數學問題解決的評估(gu)集上,Keye-VL-1.5-8B也展現出較(jiao)強性(xing)能。
▲Keye-VL-1.5測評情況一覽
據悉,相比于只會識別標簽和片段的傳統模型,Keye-VL-1.5能捕捉視頻中的細節與時間邏輯,實現對長視頻與復雜語義的深度理解。這一模型可用于視頻推薦、創作、互動以及內容審核和商業化全鏈條。
這意味(wei)著,從自動(dong)(dong)生成吸睛標題,到(dao)智能(neng)剪輯精彩片段,再到(dao)實時互動(dong)(dong)解說,Keye-VL-1.5或(huo)許(xu)能(neng)為(wei)短視頻生態注入了前所未有的可能(neng)性(xing)。
智東西對這一模型進行一手體驗后發現,Keye-VL-1.5在圖像理解和邏輯推理上效果較好,且速度較快,10秒左右可完成針對數分鐘視頻內容的處理。值得一提的是,在近日廣受關注的AI生成內容的識別上,Keye-VL-1.5表現出了較高的準確率。
同時,在體驗中,Keye-VL-1.5暫時無法完成音頻理解、圖像/視頻創作等任務,且在數學及推理、語言生成的精妙性方面仍有進步空間。
▲Keye-VL-1.5技(ji)術報告截圖
技術報告地址:
//arxiv.org/pdf/2509.01563
Hugging Face地址:
//huggingface.co/Kwai-Keye/Keye-VL-1_5-8B
體驗地址:
//huggingface.co/spaces/Kwai-Keye/Keye-VL-1_5-8B
一、能看懂視頻,懂邏輯推理,勝任AI生成內容識別
首先,智東(dong)西用近日廣(guang)受關(guan)注的AI生成內(nei)容識別(bie)任(ren)務來(lai)測試Keye-VL-1.5。隨(sui)著《人工智能(neng)生成合成內(nei)容標識辦法》,AI生成合成內(nei)容的審核管理工作量隨(sui)之(zhi)變(bian)大。
當智東西上傳了一個實拍的熊貓視頻,輸入提示詞:“這個視頻是AI生成的嗎?”。如下圖所示,Keye-VL-1.5采用非思考模型,在幾秒見即給出“不是”的正確答案。
我們增加難度,上傳一個男士拿著貓罐頭的視頻,輸入提示詞:“這個視頻是AI生成的嗎?有沒有廣告推銷?”如下圖所示,這次Keye-VL-1.5自己選擇了深度思考模式,經過近10秒鐘的思考后,輸出了正確答案:“是,該視頻可能是AI生成的,并且有廣告推銷(貓糧)。”
接下來,我們上傳了一個荷花池的風景視頻,要求Keye-VL-1.5“根據視頻創作一首七言絕句”,如下圖所示,這對Keye-VL-1.5幾乎沒有難度,生成詩句:“夏日池塘荷葉綠,粉苞初放映晴天。蜻蜓點水驚飛蝶,清香浮動入詩篇。”詩句全面覆蓋了視頻中的景物,并且創作了了“蜻蜓點水驚飛蝶”全新意象,還聯想到了“清香浮動”嗅覺感受,可見其兼具圖像理解和邏輯推理能力,但在語言生成的精妙性方面仍有進步空間。
我們上傳了關于兩只貓相處的視頻,要求Keye-VL-1.5“對這個視頻進行剪輯,剪去兩只貓停頓部分,保留動態部分,7秒左右”。但Keye-VL-1.5目前無法執行視頻剪輯和生成的動作,而是給(gei)出了應該刪去和保留哪些(xie)視(shi)頻幀。
當我們上傳了一個男孩和女孩走在校園跑道上的照片,輸入提示詞:“視頻中出現了幾個人?他們可能多大歲數,是什么關系?”,Keye-VL-1.5很快給出準確答案:“2個人,年齡約16-22歲,可能是情侶、好友或同學關系。”可見Keye-VL-1.5在邏(luo)輯推(tui)理(li)上有一定的能力。
我們上傳了一個關于女性宣言合集視頻,問Keye-VL-1.5:“視頻中出現了幾個女孩?她們在談論什么話題,有什么意義?”這次Keye-VL-1.5誤把前兩個黑色頭發女孩識別為了同一個,且沒有識別出音頻,所以無(wu)法總結出話題(ti)主(zhu)題(ti)。從思(si)考過(guo)程可知,Keye-VL-1.5差一點成功確(que)認視頻(pin)中出現了(le)三(san)個女(nv)孩,但最終(zhong)卻(que)因誤以為第一、二個女(nv)孩為同一人,而沒有(you)得(de)到正確(que)答案(an)。
根據Keye-VL-1.5自己的官方回復:“目前,我作為基于文本的AI模型,無法直接處理視頻中的聲音內容。我的能力主要集中在文本分析、圖像描述和邏輯推理上。”
二、拿下同規模通用視覺-語言測試SOTA,能理解視頻、看懂邏輯
看(kan)完實測,再來看(kan)看(kan)Keye-VL-1.5的(de)(de)基準測試情況。通(tong)過(guo)在(zai)公開基準上的(de)(de)評估和內(nei)部人工評估,Keye-VL-1.5相較(jiao)于現(xian)有模型表現(xian)出(chu)顯著的(de)(de)改(gai)進,尤其在(zai)視頻理解任務(wu)中表現(xian)出(chu)色,同時在(zai)通(tong)用(yong)視覺-語言(yan)任務(wu)上也(ye)保(bao)持(chi)了較(jiao)好性能。
在通用視覺-語言任務上,Keye-VL-1.5在大多(duo)數基準測試中展現出(chu)具有競爭力的(de)性能(neng),常常取得(de)最先(xian)進(SOTA)或接近(jin)最先(xian)進的(de)結(jie)果,總體(ti)上(shang)優于(yu)其(qi)他模型。
在大規模通用基準測試OpenCompass、MMMU-val、AI2D等測試中,Keye-VL-1.5分別獲得79.5%、71.4%和86.7%的分數,超過了所有其他模型。
在MMBench和MMStar上,Keye-VL-1.5也取得了最佳性能。在數學推理任務中,Keye-VL-1.5顯著優于Qwen2.5-VL 8B和InternVL3-8B,其(qi)結果與小(xiao)米(mi)的MiMo-VL 7B-RL相當(dang)。
在以視頻為中心的場景中,對視頻內容的準確(que)理解是Keye-VL-1.5的核(he)心優勢。在公(gong)開的視頻基準測試中,Keye-VL-1.5顯著優于(yu)其他模型(xing),尤其是在Video-MMMU上,絕(jue)對提升了6.5%。
▲Keye-VL-1.5(思考模(mo)式)與Keye-VL-Preview及其他模(mo)型在多(duo)視覺-語言基準測試中的比較
由(you)于公開基準(zhun)任務(wu)覆蓋有限(xian)、存在過于簡單的問題形(xing)式、潛在數據污染(ran)風險(xian)等問題,快手還對Keye-VL-1.5進行(xing)了內部(bu)基準(zhun)測(ce)試。
如下表所示,Keye-VL-1.5-8B以3.53的整體綜合得分大幅領先,較Keye-VL-Preview顯著提升了0.51。該模型在提供準確且全面的響應方面能力的增強,且響應與用戶查詢的匹配度有所改善。與MiMoVL-7B-RL-2508對比,Keye-VL-1.5-8B在綜合性能上確立了0.13的優勢,且在準確性方面表現尤為突出(+0.19)。雖然快手的模型在事實準確性上更勝一籌,但在語言生成的精妙性方面仍面臨挑戰。
▲Keye-VL-1.5-8B以3.53的(de)整體綜合得(de)分大幅領先(xian)
詳細的能力分析揭示了特定領域的優勢和優化重點:下表中的細粒度評估顯示,Keye-VL-1.5-8B在推理能力(3.81)、時間信息理解(3.36)和穩健性(4.29)方面具有顯著優勢;在視覺元素識別(3.49)和創造能力(3.66)上(shang)與MiMoVL-7B-RL-2508相當(dang)。
▲Keye-VL-1.5-8B詳細的能(neng)力(li)分(fen)析
三、三項關鍵創新,破解視頻理解挑戰
近年來,多模態大語言模型加速發展(zhan),然而由于視頻(pin)具有(you)動態性(xing)和(he)信(xin)息密集性(xing)的特(te)點,視頻(pin)理解仍然是(shi)一個具有(you)挑戰性(xing)的領域。
現(xian)有模(mo)型在(zai)(zai)處理視頻內容時(shi),難以在(zai)(zai)空(kong)間分(fen)辨率和(he)時(shi)間覆(fu)蓋范圍之間取得平衡。現(xian)有方法通常(chang)在(zai)(zai)固定分(fen)辨率約束下采用(yong)均勻幀(zhen)采樣(yang),這在(zai)(zai)內容理解需(xu)要(yao)細粒(li)度視覺(jue)細節(jie)和(he)時(shi)間一致性時(shi),會導致性能欠佳(jia)。
為了解決這些局限性,快手推出了擁有80億參數的多模態基礎模型Keye-VL-1.5,它通過三項關鍵創新解決了視頻理解中的基本挑戰:
1、高效多模態處理的架構創新:慢-快視頻編碼策略,解決時空權衡問題
首(shou)先,快手引入了一(yi)種(zhong)新穎的(de)慢(man)-快視頻(pin)編(bian)碼策(ce)略,該策(ce)略基于幀間相(xiang)似度動態分配計算資源(yuan),對具有(you)顯著視覺變化的(de)關鍵幀采用更(geng)高(gao)分辨(bian)率處理(慢(man)速路徑),而(er)對相(xiang)對靜態的(de)幀則以更(geng)低(di)分辨(bian)率增(zeng)加時間覆(fu)蓋范圍(wei)(快速路徑)。
這種由基于補(bu)丁的(de)相似(si)度函(han)數引導的(de)自適應方法,有(you)效地解決了(le)空間細節(jie)和時間廣度之間的(de)權衡(heng)問題。
▲Keye-VL-1.5的慢-快視(shi)頻編碼策略演示
2、漸進式預訓練策略:四個精心設計階段,確保訓練穩定性
其次,快(kuai)手實(shi)施了一種漸進式的四階(jie)段預訓練方法,逐步構建多模態能(neng)力(li)。
從跨(kua)模態對齊和多任務學習開始(shi),在退(tui)火階段(duan),我們系統地將(jiang)模型(xing)的上下文長度從8K擴展到(dao)128K tokens,使其能夠處(chu)理更長的視(shi)頻和更復雜的視(shi)覺內容。
這種(zhong)漸進式(shi)方法確保(bao)了訓(xun)練的穩(wen)定性,同時(shi)最大限度地利用(yong)擴(kuo)展(zhan)的上(shang)下文窗口(kou)來增強視頻(pin)理(li)解能(neng)力(li)。最后的模(mo)型(xing)融(rong)合(he)(he)階段(duan)將使用(yong)不(bu)同數據混合(he)(he)訓(xun)練的模(mo)型(xing)結合(he)(he)起(qi)來,以提高穩(wen)健性并減(jian)少(shao)偏差。
▲Keye-VL-1.5的四層漸進式預訓練流程
3、全面的訓練后方法:三個組件,推理增強和人類偏好對齊
第三(san),他們開發了(le)(le)一個(ge)全面的訓練后pipeline,專注于推理增(zeng)強和人類偏好對(dui)齊。他們開發了(le)(le)一個(ge)包含三(san)個(ge)關(guan)鍵(jian)組(zu)件的綜合(he)流程。
首先,他們設計了一(yi)個五(wu)步思維鏈推理數據(ju)構建流程,以(yi)生(sheng)成高質量的冷(leng)啟動數據(ju);其次(ci),采用GSPO算法進行(xing)可驗證(zheng)的基于獎勵的強化(hua)學習訓練(lian)。這包括漸進式(shi)提示(shi)采樣(yang)(yang),以(yi)處理困難(nan)樣(yang)(yang)本;最后,進行(xing)對(dui)齊(qi)強化(hua)學習訓練(lian),以(yi)增強指令遵循(xun)、響應格(ge)式(shi)和偏(pian)好(hao)對(dui)齊(qi)能力(li)。
這種系統(tong)化方法(fa)確(que)保Keye-VL-1.5在基準測試中(zhong)取得優(you)異性能,同時提供符合人類期望和偏好的響應。
四、基于谷歌、阿里開源模型訓練,克服基礎設施三大挑戰
快手Keye-VL-1.5模(mo)(mo)型架構基于Qwen3-8B語(yu)(yu)言模(mo)(mo)型,遵循經典(dian)的多(duo)模(mo)(mo)態大語(yu)(yu)言模(mo)(mo)型架構,包含(han)三個關鍵組件:視覺(jue)Transformer(ViT)、多(duo)層(ceng)感知機(MLP)投(tou)影器(qi)和語(yu)(yu)言解(jie)碼器(qi)。
▲Keye-VL-1.5的模(mo)型(xing)架構
在ViT組件方面,快手采用谷歌開源的SigLIP-400M-384-14作為視覺編碼器來提取視覺信息。在大語言模型(LLM)組件方面,他們使用阿里的Qwen3-8B作為語(yu)言解碼器(qi),以提供通用的世界語(yu)義知識理解能力。對(dui)于投影器(qi),他們隨機初始化其參數,并在第(di)一階段對(dui)其進(jin)行充分的預訓練。
在模型(xing)預訓(xun)練階段,快手(shou)團隊在數據構建流程中,組建了一個多樣化、高質量(liang)的語料庫,包含超(chao)過1萬億(yi)個標記(ji),用(yong)于支持模型(xing)訓(xun)練,其來源(yuan)既(ji)有公共數據集,也有內部專有數據。
訓練數(shu)(shu)(shu)據涵(han)蓋六(liu)大主要類(lei)別:圖像描述(shu)、光學(xue)字符識別與視覺問答、目(mu)標定位(wei)與計數(shu)(shu)(shu)、交錯數(shu)(shu)(shu)據、視頻理解以及(ji)純文本數(shu)(shu)(shu)據。團隊針(zhen)對每個數(shu)(shu)(shu)據類(lei)別的特點設(she)計了定制化的過(guo)濾機制,以確保整(zheng)體(ti)數(shu)(shu)(shu)據質量(liang)。
為(wei)了高效訓練多模態大語言模型,快手(shou)團隊進行(xing)了深入(ru)的基礎設(she)施優(you)化,以(yi)解(jie)決三大主(zhu)要挑戰(zhan):架(jia)構異構性、負載不均(jun)衡和輸入(ru)/輸出瓶頸。
1、異構混合并行策略:對于計算模(mo)式相對固定的(de)(de)(de)ViT組件,僅采(cai)用(yong)數(shu)據(ju)并(bing)(bing)行(xing)(DP)以(yi)最大(da)化吞(tun)吐量;而對于參(can)數(shu)和內存消(xiao)耗極(ji)大(da)的(de)(de)(de)LLM,則采(cai)用(yong)結合(he)流水線并(bing)(bing)行(xing)(PP)、張(zhang)量并(bing)(bing)行(xing)(TP)和數(shu)據(ju)并(bing)(bing)行(xing)(DP)的(de)(de)(de)混合(he)并(bing)(bing)行(xing)策略。這(zhe)種精(jing)細化策略是實現(xian)Keye-VL-1.5的(de)(de)(de)128K超(chao)長序列訓練的(de)(de)(de)關鍵技術前提。
2、動態負載均衡機制:預先估計(ji)每個樣(yang)本(ben)的時間(jian)復雜(za)度,然(ran)后使(shi)用貪(tan)心算(suan)法在不同GPU之間(jian)分配樣(yang)本(ben),從(cong)而平衡(heng)所(suo)有GPU的總步驟時長(chang),提(ti)高(gao)整體硬件利用率。
3、靈活且可擴展的數據加載器:設(she)計了(le)一種靈活且可擴展的(de)數據加載器(qi),它(ta)能(neng)深度感知并行訓練(lian)的(de)拓撲(pu)結構;實施了(le)一種I/O服(fu)務(wu)器(qi)架(jia)構,將視頻(pin)解碼等CPU密集型任(ren)務(wu)從訓練(lian)節(jie)點(dian)卸載出去,有(you)效解決了(le)復(fu)雜(za)媒體(ti)處理帶來的(de)CPU瓶頸問(wen)題;實現(xian)了(le)實例級(ji)的(de)完美恢復(fu)機制(zhi),確保任(ren)務(wu)在中(zhong)斷后能(neng)夠從最(zui)后一個(ge)成功處理的(de)樣本無縫恢復(fu),顯著提高(gao)了(le)大規(gui)模訓練(lian)的(de)穩定性和(he)效率。
結語:AI加速讀懂視頻,或重塑視頻行業交互與商業化
在本研究中,快(kuai)手提出的Keye-VL-1.5顯(xian)著提升了視(shi)頻理解(jie)和(he)視(shi)覺-語(yu)言任務(wu)的性能(neng)(neng)。該模(mo)型高效地平衡了時(shi)間覆蓋范圍和(he)空間分辨(bian)率,且能(neng)(neng)夠處理更(geng)長的視(shi)頻和(he)復雜(za)的視(shi)覺內容,且提升了指(zhi)令(ling)遵循能(neng)(neng)力(li)和(he)推理能(neng)(neng)力(li)。
當(dang)AI能夠真正理解(jie)視(shi)頻的(de)細節與語(yu)義,視(shi)頻行業(ye)(ye)的(de)推(tui)薦、創作、互動和商業(ye)(ye)化都將被重塑。Keye-VL-1.5仍處于初步階段,在音頻理解(jie)、多模(mo)(mo)態內容生成、邏輯(ji)推(tui)理等(deng)方面仍存在一些不足。但基于短視(shi)頻平(ping)臺的(de)海量(liang)數據儲備(bei),該(gai)模(mo)(mo)型(xing)有望在之(zhi)后快速迭代。