
1、Meta開源(yuan)實時翻譯系列(lie)模型Seamless
2、Meta推出音頻(pin)生成(cheng)模型Audiobox
3、Meta發布多模態數據集Ego-Exo4D
4、阿里云(yun)通義(yi)千問開源720億(yi)參數大模型
5、阿里(li)云舉辦首(shou)屆(jie)通義千(qian)問(wen)AI挑(tiao)戰賽
6、阿里(li)國際發(fa)布3款(kuan)AI設計生態工具
7、阿里推出AI動(dong)(dong)畫(hua)生成(cheng)框(kuang)架 從靜態圖像生成(cheng)動(dong)(dong)畫(hua)
8、昆(kun)侖萬維發布Agent開發平臺天工SkyAgents
9、出門問問奇妙(miao)元推出奇妙(miao)助手功能
10、騰(teng)訊牽頭制定全球首個金融風控大模型國際標準(zhun)
11、山東:瞄準(zhun)AI等七大未來產業 大力推進AI+
12、Adobe等(deng)推出DMD方(fang)法 生圖(tu)速度提升30倍
13、Stable Audio新增支(zhi)持上(shang)傳(chuan)音(yin)頻生成音(yin)樂
14、基于大(da)學知識的多模態(tai)LLM測評基準MMMU發(fa)布
15、微(wei)軟未來三(san)年向英國AI基礎設(she)施投資225億元
1、Meta開源實時翻譯系列模型Seamless
今日,Meta推(tui)出(chu)實(shi)時(shi)翻(fan)(fan)(fan)譯系統Seamless。為了(le)構建(jian)Seamless,Meta開(kai)發(fa)(fa)了(le)一(yi)(yi)種(zhong)用于(yu)保留語(yu)(yu)音(yin)(yin)到(dao)(dao)語(yu)(yu)音(yin)(yin)翻(fan)(fan)(fan)譯中(zhong)表(biao)達能力的(de)模(mo)(mo)型(xing)SeamlessExpressive,以(yi)(yi)及(ji)一(yi)(yi)個(ge)流式翻(fan)(fan)(fan)譯模(mo)(mo)型(xing)SeamlessStreaming,可(ke)以(yi)(yi)以(yi)(yi)幾乎不到(dao)(dao)兩(liang)秒的(de)延遲提(ti)供最先(xian)進(jin)的(de)結果(guo)。所有(you)模(mo)(mo)型(xing)均基于(yu)Meta在8月發(fa)(fa)布的(de)基礎(chu)模(mo)(mo)型(xing)SeamlessM4T v2構建(jian)。據(ju)介(jie)紹,與之前在表(biao)達性語(yu)(yu)音(yin)(yin)研(yan)究方面的(de)努力相比,SeamlessExpressive解決(jue)了(le)韻律中(zhong)某些尚未開(kai)發(fa)(fa)的(de)方面,例如語(yu)(yu)速和節奏停頓,同時(shi)還保留了(le)情感和風格。該模(mo)(mo)型(xing)目前在英(ying)語(yu)(yu)、西班牙語(yu)(yu)、德語(yu)(yu)、法語(yu)(yu)、意大利語(yu)(yu)和中(zhong)文之間(jian)的(de)語(yu)(yu)音(yin)(yin)到(dao)(dao)語(yu)(yu)音(yin)(yin)翻(fan)(fan)(fan)譯中(zhong)保留了(le)這些元素。SeamlessStreaming支(zhi)持近100種(zhong)輸(shu)入和輸(shu)出(chu)語(yu)(yu)言(yan)的(de)自動語(yu)(yu)音(yin)(yin)識(shi)別和語(yu)(yu)音(yin)(yin)到(dao)(dao)文本翻(fan)(fan)(fan)譯,以(yi)(yi)及(ji)近100種(zhong)輸(shu)入語(yu)(yu)言(yan)和36種(zhong)輸(shu)出(chu)語(yu)(yu)言(yan)的(de)語(yu)(yu)音(yin)(yin)到(dao)(dao)語(yu)(yu)音(yin)(yin)翻(fan)(fan)(fan)譯。Meta開(kai)源了(le)全部四種(zhong)模(mo)(mo)型(xing),以(yi)(yi)便研(yan)究人(ren)員在此基礎(chu)上進(jin)一(yi)(yi)步研(yan)究。
開源地址:
github.com/facebookresearch/seamless_communication
Demo地址:
seamless.metademolab.com/expressive
2、Meta推出音頻生成模型Audiobox
今(jin)日,Meta推(tui)出音(yin)(yin)(yin)頻(pin)生(sheng)成模型(xing)Audiobox,該模型(xing)可以結合使(shi)用(yong)(yong)語(yu)音(yin)(yin)(yin)輸(shu)入和自(zi)然語(yu)言文(wen)本(ben)提示(shi)來生(sheng)成語(yu)音(yin)(yin)(yin)和音(yin)(yin)(yin)效,從而(er)可以輕(qing)松(song)地為各(ge)種用(yong)(yong)例創(chuang)建自(zi)定(ding)義音(yin)(yin)(yin)頻(pin)。Meta稱,據(ju)其(qi)所知(zhi),Audiobox是(shi)第一個(ge)支持(chi)語(yu)音(yin)(yin)(yin)和文(wen)本(ben)雙輸(shu)入以進(jin)行自(zi)由語(yu)音(yin)(yin)(yin)重新設(she)計的模型(xing)。Meta將在接下來的幾周內開放基于Audiobox的應用(yong)(yong)程序(xu),以及展示(shi)Audiobox功能的交互式演示(shi)。
3、Meta發布多模態數據集Ego-Exo4D
今日,Meta推出一(yi)個基礎數(shu)據集(ji)和(he)(he)基準(zhun)套件Ego-Exo4D,用(yong)于支(zhi)持視(shi)頻學(xue)習和(he)(he)多模態感知的(de)(de)(de)(de)研究(jiu)。據介紹(shao),Ego-Exo4D是(shi)Meta的(de)(de)(de)(de)FAIR(基礎人工智能(neng)研究(jiu))、Aria項目和(he)(he)15所(suo)大學(xue)合(he)作伙伴(ban)歷時兩年(nian)的(de)(de)(de)(de)研究(jiu)成果(guo)。Ego-Exo4D的(de)(de)(de)(de)核心是(shi)同時捕捉參(can)與者(zhe)佩戴攝像頭的(de)(de)(de)(de)第(di)一(yi)人稱(cheng)(自(zi)(zi)我(wo)中(zhong)心)視(shi)角(jiao)(jiao)和(he)(he)周圍攝像頭的(de)(de)(de)(de)多個第(di)三人稱(cheng)(非自(zi)(zi)我(wo)中(zhong)心)視(shi)角(jiao)(jiao)。兩個視(shi)角(jiao)(jiao)相互補充,自(zi)(zi)我(wo)中(zhong)心的(de)(de)(de)(de)視(shi)角(jiao)(jiao)揭示了參(can)與者(zhe)的(de)(de)(de)(de)視(shi)聽(ting)感知,而非自(zi)(zi)我(wo)中(zhong)心的(de)(de)(de)(de)視(shi)角(jiao)(jiao)則揭示了周圍場景和(he)(he)上下文。研究(jiu)者(zhe)將在本月開源數(shu)據(包括超過1400小(xiao)時的(de)(de)(de)(de)視(shi)頻)和(he)(he)用(yong)于新(xin)基準(zhun)測(ce)試任務(wu)的(de)(de)(de)(de)注釋。
論文地址:
ego-exo4d-data.org/paper/ego-exo4d.pdf
項目主頁:
ego-exo4d-data.org
4、阿里云通義千問開源720億參數大模型
今日,阿(a)里(li)云(yun)在(zai)京(jing)舉辦(ban)通義(yi)千(qian)問(wen)發布會,開源(yuan)通義(yi)千(qian)問(wen)720億參數模(mo)(mo)(mo)型(xing)(xing)Qwen-72B。據介紹,Qwen-72B在(zai)10個權威基準測評創下(xia)開源(yuan)模(mo)(mo)(mo)型(xing)(xing)最優成(cheng)績,性能超(chao)越開源(yuan)標桿(gan)Llama 2-70B和(he)大部分商用閉(bi)源(yuan)模(mo)(mo)(mo)型(xing)(xing),可適配(pei)企(qi)業(ye)級、科研級的高性能應用。通義(yi)千(qian)問(wen)當天(tian)還(huan)開源(yuan)了(le)18億參數模(mo)(mo)(mo)型(xing)(xing)Qwen-1.8B和(he)音頻大模(mo)(mo)(mo)型(xing)(xing)Qwen-Audio,在(zai)業(ye)界率先實現“全尺寸、全模(mo)(mo)(mo)態”開源(yuan)。
5、阿里云舉辦首屆通義千問AI挑戰賽
今日(ri),在通義(yi)千問(wen)發(fa)(fa)布(bu)會上(shang)(shang),阿里云宣布(bu)首屆(jie)“通義(yi)千問(wen)AI挑戰(zhan)賽(sai)”開(kai)賽(sai),參賽(sai)者(zhe)可免費使用通義(yi)開(kai)源(yuan)模(mo)(mo)型(xing)(xing)(xing)家族,包(bao)括剛(gang)剛(gang)發(fa)(fa)布(bu)的720億參數(shu)模(mo)(mo)型(xing)(xing)(xing)Qwen-72B。賽(sai)事分為(wei)算法和(he)Agent兩大(da)(da)賽(sai)道,前者(zhe)針(zhen)對通義(yi)千問(wen)大(da)(da)模(mo)(mo)型(xing)(xing)(xing)的微(wei)調(diao)訓練(lian),希望通過(guo)高質(zhi)量的數(shu)據探(tan)索開(kai)源(yuan)模(mo)(mo)型(xing)(xing)(xing)的代(dai)碼能力上(shang)(shang)限;后(hou)者(zhe)針(zhen)對基于通義(yi)千問(wen)大(da)(da)模(mo)(mo)型(xing)(xing)(xing)和(he)魔(mo)搭社區的Agent-Builder框架開(kai)發(fa)(fa)新(xin)一代(dai)AI應(ying)用,促進大(da)(da)模(mo)(mo)型(xing)(xing)(xing)在各(ge)行各(ge)業的落地應(ying)用。即日(ri)起,開(kai)發(fa)(fa)者(zhe)可通過(guo)天池(chi)平(ping)臺報名(ming)參賽(sai),主(zhu)辦方將為(wei)參賽(sai)者(zhe)提(ti)供價值50萬(wan)元的免費云上(shang)(shang)算力和(he)獎金。
6、阿里國際發布3款AI設計生態工具
據環球網報道,今(jin)日,在第六屆中國(guo)(guo)(guo)國(guo)(guo)(guo)際工(gong)業(ye)設(she)(she)計(ji)博覽(lan)會上,阿里(li)國(guo)(guo)(guo)際數(shu)字商業(ye)集團(tuan)發布了3款(kuan)(kuan)設(she)(she)計(ji)生(sheng)態工(gong)具(ju):堆友、Pic Copilot、鹿班AI,覆(fu)蓋(gai)AI繪畫、AI模型創作、AI圖像和視頻處理(li)等功能。據悉,這(zhe)3款(kuan)(kuan)產品目前已經服務數(shu)十萬商家、覆(fu)蓋(gai)50萬設(she)(she)計(ji)師。此(ci)外,工(gong)信部國(guo)(guo)(guo)際經濟(ji)技術合作中心還與(yu)阿里(li)國(guo)(guo)(guo)際設(she)(she)計(ji)簽署了框架協議,共(gong)同促進數(shu)智設(she)(she)計(ji)的發展。
7、阿里推出AI動畫生成框架 從靜態圖像生成動畫
11月(yue)29日,來(lai)自(zi)阿里的(de)(de)(de)(de)研究團隊(dui)發(fa)布論文(wen),利用擴散模型的(de)(de)(de)(de)能力(li),提出了(le)一(yi)個專門針對角色動(dong)畫的(de)(de)(de)(de)新框架Animate Anyone,可(ke)(ke)從(cong)(cong)靜(jing)態圖像AI生成動(dong)態視頻,從(cong)(cong)而將任意角色動(dong)畫化(hua)。為(wei)了(le)保(bao)持(chi)參考圖像中(zhong)復雜外(wai)觀特征(zheng)的(de)(de)(de)(de)一(yi)致性(xing),作(zuo)者改進了(le)ReferenceNet算法,通過空間注(zhu)意力(li)融合詳細特征(zheng)。為(wei)了(le)確保(bao)可(ke)(ke)控(kong)性(xing)和連(lian)貫性(xing),作(zuo)者引入了(le)一(yi)個高效的(de)(de)(de)(de)姿(zi)勢指導器來(lai)指導角色的(de)(de)(de)(de)動(dong)作(zuo),并采用了(le)一(yi)種有效的(de)(de)(de)(de)時間建模方法,確保(bao)視頻幀之(zhi)間的(de)(de)(de)(de)平滑過渡(du)。
論文地址:
arxiv.org/pdf/2311.17117
8、昆侖萬維發布Agent開發平臺天工SkyAgents
據(ju)昆侖萬(wan)維(wei)集團微(wei)信(xin)公眾(zhong)號發文,今(jin)日,昆侖萬(wan)維(wei)正式發布天工(gong)SkyAgents平臺。據(ju)介紹,天工(gong)SkyAgents是國內(nei)領(ling)先的AI Agent開發平臺,基(ji)于昆侖萬(wan)維(wei)天工(gong)大(da)模(mo)型(xing)打造,具備(bei)從感知到決策(ce),從決策(ce)到執行的自(zi)(zi)(zi)主學習和獨立思考能(neng)力。用戶可以(yi)通過自(zi)(zi)(zi)然(ran)語(yu)言構(gou)建自(zi)(zi)(zi)己(ji)的單個(ge)或多(duo)個(ge)“私人助理”,并將不同(tong)任務模(mo)塊化,通過操作(zuo)系(xi)統模(mo)塊的方式,實(shi)現(xian)執行包(bao)括(kuo)問(wen)題預(yu)設、指定回復、知識庫(ku)創(chuang)建與檢索、意圖識別、文本提取、http請求等任務。對(dui)于企(qi)業用戶而言,天工(gong)SkyAgents則可以(yi)按需拼裝成企(qi)業IT、智能(neng)客服、企(qi)業培訓、HR、法律顧問(wen)等眾(zhong)多(duo)個(ge)性化的應用,并支(zhi)持(chi)一鍵服務部署(shu),確(que)保(bao)其在不同(tong)業務系(xi)統中的無縫接(jie)入。
內測申(shen)請(qing)地址(zhi):agentspro.cn
9、出門問問奇妙元推出奇妙助手功能
據(ju)出(chu)(chu)門問(wen)問(wen)微信(xin)公(gong)眾號發文,昨(zuo)日(ri),出(chu)(chu)門問(wen)問(wen)旗下AI數字人視(shi)頻(pin)創作平臺奇妙(miao)元全面升級,推出(chu)(chu)奇妙(miao)助手功能(neng)。據(ju)介紹,奇妙(miao)助手能(neng)快速(su)生(sheng)成制(zhi)作視(shi)頻(pin)所需要的素材(cai),為短視(shi)頻(pin)生(sheng)成高質(zhi)量(liang)(liang)圖片,內置(zhi)8種風格、3種尺(chi)寸(cun)比例(li);基于大模型能(neng)力智(zhi)能(neng)生(sheng)成文本,內置(zhi)中英雙語和(he)多(duo)種語言情(qing)緒;上傳PPT一(yi)(yi)鍵生(sheng)成講解視(shi)頻(pin),搭(da)載(zai)智(zhi)能(neng)解析,重點(dian)提煉;一(yi)(yi)站式生(sheng)成數字人視(shi)頻(pin),提供海(hai)量(liang)(liang)模板素材(cai);一(yi)(yi)鍵提取視(shi)頻(pin)臺詞,支持在線(xian)視(shi)頻(pin)鏈接和(he)本地(di)視(shi)頻(pin)上傳,準確(que)率(lv)達99%;數字人商店(dian)上新(xin)33+形象,模板商店(dian)上新(xin)海(hai)量(liang)(liang)剪(jian)輯模板素材(cai)。
10、騰訊牽頭制定全球首個金融風控大模型國際標準
據騰(teng)(teng)訊云智能微信公眾號發(fa)文(wen),昨日,IEEE金(jin)(jin)融(rong)風(feng)控大模型標準啟動(dong)會(hui)在深圳召開。該標準由騰(teng)(teng)訊主(zhu)導發(fa)起,是(shi)全球范圍(wei)內首個金(jin)(jin)融(rong)風(feng)險控制(zhi)領域的大模型國際標準,旨在為金(jin)(jin)融(rong)機構(gou)風(feng)控建模環節中應用(yong)AI大模型技術提供參(can)考(kao)和(he)指引,使金(jin)(jin)融(rong)機構(gou)能夠在日益復雜和(he)數據驅動(dong)的金(jin)(jin)融(rong)環境中高效預測、衡量和(he)管(guan)理業務風(feng)險。該標準適(shi)用(yong)于金(jin)(jin)融(rong)零(ling)售信貸場(chang)(chang)景的風(feng)險控制(zhi)管(guan)理,幫助金(jin)(jin)融(rong)機構(gou)在運用(yong)AI技術生(sheng)成金(jin)(jin)融(rong)風(feng)控大模型的過(guo)程(cheng)中提供參(can)考(kao),包括應用(yong)場(chang)(chang)景、基本(ben)條件、模型創(chuang)建以及迭代等環節。啟動(dong)會(hui)現場(chang)(chang)明(ming)確了標準的研(yan)制(zhi)方案,并(bing)計(ji)劃于明(ming)年9月正式發(fa)布。
11、山東:瞄準AI等七大未來產業 大力推進AI+
據(ju)工信微(wei)報報道,昨日上午,山東(dong)省新型工業(ye)化(hua)(hua)(hua)推進大(da)(da)會在(zai)濟南召開。山東(dong)省委書記林武強調,要扎實做好(hao)新型工業(ye)化(hua)(hua)(hua)各項工作(zuo),全面加快新型工業(ye)化(hua)(hua)(hua)進程。聚焦(jiao)(jiao)高端化(hua)(hua)(hua)發展,在(zai)布(bu)局(ju)未來(lai)產業(ye)上持續加力,重點瞄準元宇宙、人(ren)(ren)工智能(AI)、生命科學、未來(lai)網絡、量子科技、人(ren)(ren)形機器人(ren)(ren)、深海空天七大(da)(da)未來(lai)產業(ye),加強前瞻性研究布(bu)局(ju),建好(hao)未來(lai)產業(ye)先導區。聚焦(jiao)(jiao)智能化(hua)(hua)(hua)發展,著力推進數實深度(du)融合。要更大(da)(da)力度(du)促進AI應用,統籌布(bu)局(ju)通用大(da)(da)模型和垂直大(da)(da)模型,豐富算力資源,培育(yu)一批高水平智能技術(shu)和產品,大(da)(da)力推進“AI+”。
12、Adobe等推出DMD方法 生圖速度提升30倍
今日(ri),Adobe和麻省理工學院的(de)(de)研究人(ren)員(yuan)共同發布論(lun)(lun)文(wen),介紹一種分布匹配(pei)蒸餾(Distribution Matching Distillation,DMD)方(fang)法,可(ke)在速度提升30倍的(de)(de)情況下生(sheng)成(cheng)與Stable Diffusion v1.5相當的(de)(de)圖像質量(liang)。論(lun)(lun)文(wen)的(de)(de)核心思(si)想是訓練兩(liang)個擴(kuo)散模(mo)型(xing),不僅(jin)估計目(mu)標真(zhen)實(shi)分布的(de)(de)評(ping)(ping)分函數,還(huan)估計偽造分布的(de)(de)評(ping)(ping)分函數。方(fang)法類(lei)似于生(sheng)成(cheng)對(dui)抗網絡(GANs),即通過同時(shi)訓練評(ping)(ping)論(lun)(lun)家(jia)(jia)和生(sheng)成(cheng)器來最小(xiao)化(hua)真(zhen)實(shi)分布和偽造分布之(zhi)間的(de)(de)差異(yi),但(dan)不同之(zhi)處(chu)在于訓練不涉及可(ke)能導(dao)致不穩定的(de)(de)對(dui)抗博(bo)弈,并且評(ping)(ping)論(lun)(lun)家(jia)(jia)模(mo)型(xing)可(ke)以(yi)充(chong)分利用預(yu)訓練擴(kuo)散模(mo)型(xing)的(de)(de)權(quan)重(zhong)。
項目地址:
tianweiy.github.io/dmd
論文地址:
tianweiy.github.io/dmd/dmd_highres.pdf
13、Stable Audio新增支持上傳音頻生成音樂
今日,AI獨(du)角獸Stability AI旗下的音(yin)(yin)樂生成(cheng)產(chan)品Stable Audio宣布推出一系(xi)列新(xin)功能,包括(kuo)支持(chi)輸入音(yin)(yin)頻來指導(dao)生成(cheng)音(yin)(yin)樂,增加更多參數來提升創作體驗,新(xin)增鏈接分享、視(shi)頻下載功能,內(nei)置風格提示庫等。
14、基于大學知識的多模態LLM測評基準MMMU發布
11月29日,據(ju)論(lun)(lun)文(wen)作(zuo)者、美(mei)國俄亥俄州立(li)大學(xue)(xue)(xue)(OSU)博士(shi)岳翔于社(she)交平臺X發(fa)文(wen),其與來自7個機構的(de)(de)20多名研究人(ren)員共同發(fa)表(biao)論(lun)(lun)文(wen),推出(chu)了MMMU基準測(ce)試。該測(ce)試收集(ji)了11.5K來自大學(xue)(xue)(xue)考試、測(ce)驗和(he)教科書的(de)(de)多模(mo)(mo)態問題(ti),橫跨藝術設(she)計、商業(ye)、科學(xue)(xue)(xue)、健康(kang)與醫(yi)學(xue)(xue)(xue)、人(ren)文(wen)社(she)科、技術與工(gong)程(cheng)等30個科目和(he)183個子領(ling)域,覆蓋圖(tu)(tu)表(biao)、圖(tu)(tu)表(biao)、地(di)圖(tu)(tu)、表(biao)格、樂(le)譜和(he)化學(xue)(xue)(xue)結構等30種異(yi)構圖(tu)(tu)像類型,專注(zhu)于利用特(te)定領(ling)域知識進(jin)(jin)行高(gao)級(ji)感知和(he)推理。論(lun)(lun)文(wen)測(ce)試了14個開源(yuan)大模(mo)(mo)型以及GPT-4V,測(ce)評顯示,即(ji)使(shi)是先(xian)進(jin)(jin)的(de)(de)GPT-4V也(ye)只能達(da)到56%的(de)(de)準確率。論(lun)(lun)文(wen)對GPT-4V的(de)(de)150個錯誤案例進(jin)(jin)行的(de)(de)錯誤分(fen)析表(biao)明,35%的(de)(de)錯誤是感性的(de)(de),29%是由(you)于缺乏(fa)知識,26%是由(you)于推理過程(cheng)中的(de)(de)缺陷(xian)。
論文地址:
arxiv.org/abs/2311.16502
項目主頁:
mmmu-benchmark.github.io
15、微軟未來三年向英國AI基礎設施投資225億元
據路(lu)透社今(jin)日報道(dao),微(wei)(wei)軟計劃在未(wei)來三年內向英國投(tou)資(zi)25億英鎊(約合人民幣225億元),以(yi)支持AI的(de)增長,這是(shi)該公司迄(qi)今(jin)在英國的(de)最大(da)單(dan)筆投(tou)資(zi)。投(tou)資(zi)將用于使微(wei)(wei)軟在英國的(de)數據中心(xin)面積增加一(yi)倍以(yi)上,為新的(de)AI模(mo)型提供關鍵的(de)基礎設施。