通义千问720亿参数大模型开源；Meta发布多模态感知数据集；昆仑万维发布Agent开发平台丨AIGC大事日报

1、Meta開源(yuan)實時翻譯系列(lie)模型Seamless

2、Meta推出音頻(pin)生成(cheng)模型Audiobox

3、Meta發布多模態數據集Ego-Exo4D

4、阿里云(yun)通義(yi)千問開源720億(yi)參數大模型

5、阿里(li)云舉辦首(shou)屆(jie)通義千(qian)問(wen)AI挑(tiao)戰賽

6、阿里(li)國際發(fa)布3款(kuan)AI設計生態工具

7、阿里推出AI動(dong)(dong)畫(hua)生成(cheng)框(kuang)架從靜態圖像生成(cheng)動(dong)(dong)畫(hua)

8、昆(kun)侖萬維發布Agent開發平臺天工SkyAgents

9、出門問問奇妙(miao)元推出奇妙(miao)助手功能

10、騰(teng)訊牽頭制定全球首個金融風控大模型國際標準(zhun)

11、山東：瞄準(zhun)AI等七大未來產業大力推進AI+

12、Adobe等(deng)推出DMD方(fang)法生圖(tu)速度提升30倍

13、Stable Audio新增支(zhi)持上(shang)傳(chuan)音(yin)頻生成音(yin)樂

14、基于大(da)學知識的多模態(tai)LLM測評基準MMMU發(fa)布

15、微(wei)軟未來三(san)年向英國AI基礎設(she)施投資225億元

1、Meta開源實時翻譯系列模型Seamless

今日，Meta推(tui)出(chu)實(shi)時(shi)翻(fan)(fan)(fan)譯系統Seamless。為了(le)構建(jian)Seamless，Meta開(kai)發(fa)(fa)了(le)一(yi)(yi)種(zhong)用于(yu)保留語(yu)(yu)音(yin)(yin)到(dao)(dao)語(yu)(yu)音(yin)(yin)翻(fan)(fan)(fan)譯中(zhong)表(biao)達能力的(de)模(mo)(mo)型(xing)SeamlessExpressive，以(yi)(yi)及(ji)一(yi)(yi)個(ge)流式翻(fan)(fan)(fan)譯模(mo)(mo)型(xing)SeamlessStreaming，可(ke)以(yi)(yi)以(yi)(yi)幾乎不到(dao)(dao)兩(liang)秒的(de)延遲提(ti)供最先(xian)進(jin)的(de)結果(guo)。所有(you)模(mo)(mo)型(xing)均基于(yu)Meta在8月發(fa)(fa)布的(de)基礎(chu)模(mo)(mo)型(xing)SeamlessM4T v2構建(jian)。據(ju)介(jie)紹，與之前在表(biao)達性語(yu)(yu)音(yin)(yin)研(yan)究方面的(de)努力相比，SeamlessExpressive解決(jue)了(le)韻律中(zhong)某些尚未開(kai)發(fa)(fa)的(de)方面，例如語(yu)(yu)速和節奏停頓，同時(shi)還保留了(le)情感和風格。該模(mo)(mo)型(xing)目前在英(ying)語(yu)(yu)、西班牙語(yu)(yu)、德語(yu)(yu)、法語(yu)(yu)、意大利語(yu)(yu)和中(zhong)文之間(jian)的(de)語(yu)(yu)音(yin)(yin)到(dao)(dao)語(yu)(yu)音(yin)(yin)翻(fan)(fan)(fan)譯中(zhong)保留了(le)這些元素。SeamlessStreaming支(zhi)持近100種(zhong)輸(shu)入和輸(shu)出(chu)語(yu)(yu)言(yan)的(de)自動語(yu)(yu)音(yin)(yin)識(shi)別和語(yu)(yu)音(yin)(yin)到(dao)(dao)文本翻(fan)(fan)(fan)譯，以(yi)(yi)及(ji)近100種(zhong)輸(shu)入語(yu)(yu)言(yan)和36種(zhong)輸(shu)出(chu)語(yu)(yu)言(yan)的(de)語(yu)(yu)音(yin)(yin)到(dao)(dao)語(yu)(yu)音(yin)(yin)翻(fan)(fan)(fan)譯。Meta開(kai)源了(le)全部四種(zhong)模(mo)(mo)型(xing)，以(yi)(yi)便研(yan)究人(ren)員在此基礎(chu)上進(jin)一(yi)(yi)步研(yan)究。

開源地址：

github.com/facebookresearch/seamless_communication

Demo地址：

seamless.metademolab.com/expressive

2、Meta推出音頻生成模型Audiobox

今(jin)日，Meta推(tui)出音(yin)(yin)(yin)頻(pin)生(sheng)成模型(xing)Audiobox，該模型(xing)可以結合使(shi)用(yong)(yong)語(yu)音(yin)(yin)(yin)輸(shu)入和自(zi)然語(yu)言文(wen)本(ben)提示(shi)來生(sheng)成語(yu)音(yin)(yin)(yin)和音(yin)(yin)(yin)效，從而(er)可以輕(qing)松(song)地為各(ge)種用(yong)(yong)例創(chuang)建自(zi)定(ding)義音(yin)(yin)(yin)頻(pin)。Meta稱，據(ju)其(qi)所知(zhi)，Audiobox是(shi)第一個(ge)支持(chi)語(yu)音(yin)(yin)(yin)和文(wen)本(ben)雙輸(shu)入以進(jin)行自(zi)由語(yu)音(yin)(yin)(yin)重新設(she)計的模型(xing)。Meta將在接下來的幾周內開放基于Audiobox的應用(yong)(yong)程序(xu)，以及展示(shi)Audiobox功能的交互式演示(shi)。

3、Meta發布多模態數據集Ego-Exo4D

今日，Meta推出一(yi)個基礎數(shu)據集(ji)和(he)(he)基準(zhun)套件Ego-Exo4D，用(yong)于支(zhi)持視(shi)頻學(xue)習和(he)(he)多模態感知的(de)(de)(de)(de)研究(jiu)。據介紹(shao)，Ego-Exo4D是(shi)Meta的(de)(de)(de)(de)FAIR（基礎人工智能(neng)研究(jiu)）、Aria項目和(he)(he)15所(suo)大學(xue)合(he)作伙伴(ban)歷時兩年(nian)的(de)(de)(de)(de)研究(jiu)成果(guo)。Ego-Exo4D的(de)(de)(de)(de)核心是(shi)同時捕捉參(can)與者(zhe)佩戴攝像頭的(de)(de)(de)(de)第(di)一(yi)人稱(cheng)（自(zi)(zi)我(wo)中(zhong)心）視(shi)角(jiao)(jiao)和(he)(he)周圍攝像頭的(de)(de)(de)(de)多個第(di)三人稱(cheng)（非自(zi)(zi)我(wo)中(zhong)心）視(shi)角(jiao)(jiao)。兩個視(shi)角(jiao)(jiao)相互補充，自(zi)(zi)我(wo)中(zhong)心的(de)(de)(de)(de)視(shi)角(jiao)(jiao)揭示了參(can)與者(zhe)的(de)(de)(de)(de)視(shi)聽(ting)感知，而非自(zi)(zi)我(wo)中(zhong)心的(de)(de)(de)(de)視(shi)角(jiao)(jiao)則揭示了周圍場景和(he)(he)上下文。研究(jiu)者(zhe)將在本月開源數(shu)據（包括超過1400小(xiao)時的(de)(de)(de)(de)視(shi)頻）和(he)(he)用(yong)于新(xin)基準(zhun)測(ce)試任務(wu)的(de)(de)(de)(de)注釋。

論文地址：

ego-exo4d-data.org/paper/ego-exo4d.pdf

項目主頁：

ego-exo4d-data.org

4、阿里云通義千問開源720億參數大模型

今日，阿(a)里(li)云(yun)在(zai)京(jing)舉辦(ban)通義(yi)千(qian)問(wen)發布會，開源(yuan)通義(yi)千(qian)問(wen)720億參數模(mo)(mo)(mo)型(xing)(xing)Qwen-72B。據介紹，Qwen-72B在(zai)10個權威基準測評創下(xia)開源(yuan)模(mo)(mo)(mo)型(xing)(xing)最優成(cheng)績，性能超(chao)越開源(yuan)標桿(gan)Llama 2-70B和(he)大部分商用閉(bi)源(yuan)模(mo)(mo)(mo)型(xing)(xing)，可適配(pei)企(qi)業(ye)級、科研級的高性能應用。通義(yi)千(qian)問(wen)當天(tian)還(huan)開源(yuan)了(le)18億參數模(mo)(mo)(mo)型(xing)(xing)Qwen-1.8B和(he)音頻大模(mo)(mo)(mo)型(xing)(xing)Qwen-Audio，在(zai)業(ye)界率先實現“全尺寸、全模(mo)(mo)(mo)態”開源(yuan)。

5、阿里云舉辦首屆通義千問AI挑戰賽

今日(ri)，在通義(yi)千問(wen)發(fa)(fa)布(bu)會上(shang)(shang)，阿里云宣布(bu)首屆(jie)“通義(yi)千問(wen)AI挑戰(zhan)賽(sai)”開(kai)賽(sai)，參賽(sai)者(zhe)可免費使用通義(yi)開(kai)源(yuan)模(mo)(mo)型(xing)(xing)(xing)家族，包(bao)括剛(gang)剛(gang)發(fa)(fa)布(bu)的720億參數(shu)模(mo)(mo)型(xing)(xing)(xing)Qwen-72B。賽(sai)事分為(wei)算法和(he)Agent兩大(da)(da)賽(sai)道，前者(zhe)針(zhen)對通義(yi)千問(wen)大(da)(da)模(mo)(mo)型(xing)(xing)(xing)的微(wei)調(diao)訓練(lian)，希望通過(guo)高質(zhi)量的數(shu)據探(tan)索開(kai)源(yuan)模(mo)(mo)型(xing)(xing)(xing)的代(dai)碼能力上(shang)(shang)限；后(hou)者(zhe)針(zhen)對基于通義(yi)千問(wen)大(da)(da)模(mo)(mo)型(xing)(xing)(xing)和(he)魔(mo)搭社區的Agent-Builder框架開(kai)發(fa)(fa)新(xin)一代(dai)AI應(ying)用，促進大(da)(da)模(mo)(mo)型(xing)(xing)(xing)在各(ge)行各(ge)業的落地應(ying)用。即日(ri)起，開(kai)發(fa)(fa)者(zhe)可通過(guo)天池(chi)平(ping)臺報名(ming)參賽(sai)，主(zhu)辦方將為(wei)參賽(sai)者(zhe)提(ti)供價值50萬(wan)元的免費云上(shang)(shang)算力和(he)獎金。

6、阿里國際發布3款AI設計生態工具

據環球網報道，今(jin)日，在第六屆中國(guo)(guo)(guo)國(guo)(guo)(guo)際工(gong)業(ye)設(she)(she)計(ji)博覽(lan)會上，阿里(li)國(guo)(guo)(guo)際數(shu)字商業(ye)集團(tuan)發布了3款(kuan)(kuan)設(she)(she)計(ji)生(sheng)態工(gong)具(ju)：堆友、Pic Copilot、鹿班AI，覆(fu)蓋(gai)AI繪畫、AI模型創作、AI圖像和視頻處理(li)等功能。據悉，這(zhe)3款(kuan)(kuan)產品目前已經服務數(shu)十萬商家、覆(fu)蓋(gai)50萬設(she)(she)計(ji)師。此(ci)外，工(gong)信部國(guo)(guo)(guo)際經濟(ji)技術合作中心還與(yu)阿里(li)國(guo)(guo)(guo)際設(she)(she)計(ji)簽署了框架協議，共(gong)同促進數(shu)智設(she)(she)計(ji)的發展。

7、阿里推出AI動畫生成框架從靜態圖像生成動畫

11月(yue)29日，來(lai)自(zi)阿里的(de)(de)(de)(de)研究團隊(dui)發(fa)布論文(wen)，利用擴散模型的(de)(de)(de)(de)能力(li)，提出了(le)一(yi)個專門針對角色動(dong)畫的(de)(de)(de)(de)新框架Animate Anyone，可(ke)(ke)從(cong)(cong)靜(jing)態圖像AI生成動(dong)態視頻，從(cong)(cong)而將任意角色動(dong)畫化(hua)。為(wei)了(le)保(bao)持(chi)參考圖像中(zhong)復雜外(wai)觀特征(zheng)的(de)(de)(de)(de)一(yi)致性(xing)，作(zuo)者改進了(le)ReferenceNet算法，通過空間注(zhu)意力(li)融合詳細特征(zheng)。為(wei)了(le)確保(bao)可(ke)(ke)控(kong)性(xing)和連(lian)貫性(xing)，作(zuo)者引入了(le)一(yi)個高效的(de)(de)(de)(de)姿(zi)勢指導器來(lai)指導角色的(de)(de)(de)(de)動(dong)作(zuo)，并采用了(le)一(yi)種有效的(de)(de)(de)(de)時間建模方法，確保(bao)視頻幀之(zhi)間的(de)(de)(de)(de)平滑過渡(du)。

論文地址：

arxiv.org/pdf/2311.17117

8、昆侖萬維發布Agent開發平臺天工SkyAgents

據(ju)昆侖萬(wan)維(wei)集團微(wei)信(xin)公眾(zhong)號發文，今(jin)日，昆侖萬(wan)維(wei)正式發布天工(gong)SkyAgents平臺。據(ju)介紹，天工(gong)SkyAgents是國內(nei)領(ling)先的AI Agent開發平臺，基(ji)于昆侖萬(wan)維(wei)天工(gong)大(da)模(mo)型(xing)打造，具備(bei)從感知到決策(ce)，從決策(ce)到執行的自(zi)(zi)(zi)主學習和獨立思考能(neng)力。用戶可以(yi)通過自(zi)(zi)(zi)然(ran)語(yu)言構(gou)建自(zi)(zi)(zi)己(ji)的單個(ge)或多(duo)個(ge)“私人助理”，并將不同(tong)任務模(mo)塊化，通過操作(zuo)系(xi)統模(mo)塊的方式，實(shi)現(xian)執行包(bao)括(kuo)問(wen)題預(yu)設、指定回復、知識庫(ku)創(chuang)建與檢索、意圖識別、文本提取、http請求等任務。對(dui)于企(qi)業用戶而言，天工(gong)SkyAgents則可以(yi)按需拼裝成企(qi)業IT、智能(neng)客服、企(qi)業培訓、HR、法律顧問(wen)等眾(zhong)多(duo)個(ge)性化的應用，并支(zhi)持(chi)一鍵服務部署(shu)，確(que)保(bao)其在不同(tong)業務系(xi)統中的無縫接(jie)入。

內測申(shen)請(qing)地址(zhi)：agentspro.cn

9、出門問問奇妙元推出奇妙助手功能

據(ju)出(chu)(chu)門問(wen)問(wen)微信(xin)公(gong)眾號發文，昨(zuo)日(ri)，出(chu)(chu)門問(wen)問(wen)旗下AI數字人視(shi)頻(pin)創作平臺奇妙(miao)元全面升級，推出(chu)(chu)奇妙(miao)助手功能(neng)。據(ju)介紹，奇妙(miao)助手能(neng)快速(su)生(sheng)成制(zhi)作視(shi)頻(pin)所需要的素材(cai)，為短視(shi)頻(pin)生(sheng)成高質(zhi)量(liang)(liang)圖片，內置(zhi)8種風格、3種尺(chi)寸(cun)比例(li)；基于大模型能(neng)力智(zhi)能(neng)生(sheng)成文本，內置(zhi)中英雙語和(he)多(duo)種語言情(qing)緒；上傳PPT一(yi)(yi)鍵生(sheng)成講解視(shi)頻(pin)，搭(da)載(zai)智(zhi)能(neng)解析，重點(dian)提煉；一(yi)(yi)站式生(sheng)成數字人視(shi)頻(pin)，提供海(hai)量(liang)(liang)模板素材(cai)；一(yi)(yi)鍵提取視(shi)頻(pin)臺詞，支持在線(xian)視(shi)頻(pin)鏈接和(he)本地(di)視(shi)頻(pin)上傳，準確(que)率(lv)達99%；數字人商店(dian)上新(xin)33+形象，模板商店(dian)上新(xin)海(hai)量(liang)(liang)剪(jian)輯模板素材(cai)。

10、騰訊牽頭制定全球首個金融風控大模型國際標準

據騰(teng)(teng)訊云智能微信公眾號發(fa)文(wen)，昨日，IEEE金(jin)(jin)融(rong)風(feng)控大模型標準啟動(dong)會(hui)在深圳召開。該標準由騰(teng)(teng)訊主(zhu)導發(fa)起，是(shi)全球范圍(wei)內首個金(jin)(jin)融(rong)風(feng)險控制(zhi)領域的大模型國際標準，旨在為金(jin)(jin)融(rong)機構(gou)風(feng)控建模環節中應用(yong)AI大模型技術提供參(can)考(kao)和(he)指引，使金(jin)(jin)融(rong)機構(gou)能夠在日益復雜和(he)數據驅動(dong)的金(jin)(jin)融(rong)環境中高效預測、衡量和(he)管(guan)理業務風(feng)險。該標準適(shi)用(yong)于金(jin)(jin)融(rong)零(ling)售信貸場(chang)(chang)景的風(feng)險控制(zhi)管(guan)理，幫助金(jin)(jin)融(rong)機構(gou)在運用(yong)AI技術生(sheng)成金(jin)(jin)融(rong)風(feng)控大模型的過(guo)程(cheng)中提供參(can)考(kao)，包括應用(yong)場(chang)(chang)景、基本(ben)條件、模型創(chuang)建以及迭代等環節。啟動(dong)會(hui)現場(chang)(chang)明(ming)確了標準的研(yan)制(zhi)方案，并(bing)計(ji)劃于明(ming)年9月正式發(fa)布。

11、山東：瞄準AI等七大未來產業大力推進AI+

據(ju)工信微(wei)報報道，昨日上午，山東(dong)省新型工業(ye)化(hua)(hua)(hua)推進大(da)(da)會在(zai)濟南召開。山東(dong)省委書記林武強調，要扎實做好(hao)新型工業(ye)化(hua)(hua)(hua)各項工作(zuo)，全面加快新型工業(ye)化(hua)(hua)(hua)進程。聚焦(jiao)(jiao)高端化(hua)(hua)(hua)發展，在(zai)布(bu)局(ju)未來(lai)產業(ye)上持續加力，重點瞄準元宇宙、人(ren)(ren)工智能（AI）、生命科學、未來(lai)網絡、量子科技、人(ren)(ren)形機器人(ren)(ren)、深海空天七大(da)(da)未來(lai)產業(ye)，加強前瞻性研究布(bu)局(ju)，建好(hao)未來(lai)產業(ye)先導區。聚焦(jiao)(jiao)智能化(hua)(hua)(hua)發展，著力推進數實深度(du)融合。要更大(da)(da)力度(du)促進AI應用，統籌布(bu)局(ju)通用大(da)(da)模型和垂直大(da)(da)模型，豐富算力資源，培育(yu)一批高水平智能技術(shu)和產品，大(da)(da)力推進“AI+”。

12、Adobe等推出DMD方法生圖速度提升30倍

今日(ri)，Adobe和麻省理工學院的(de)(de)研究人(ren)員(yuan)共同發布論(lun)(lun)文(wen)，介紹一種分布匹配(pei)蒸餾（Distribution Matching Distillation，DMD）方(fang)法，可(ke)在速度提升30倍的(de)(de)情況下生(sheng)成(cheng)與Stable Diffusion v1.5相當的(de)(de)圖像質量(liang)。論(lun)(lun)文(wen)的(de)(de)核心思(si)想是訓練兩(liang)個擴(kuo)散模(mo)型(xing)，不僅(jin)估計目(mu)標真(zhen)實(shi)分布的(de)(de)評(ping)(ping)分函數，還(huan)估計偽造分布的(de)(de)評(ping)(ping)分函數。方(fang)法類(lei)似于生(sheng)成(cheng)對(dui)抗網絡（GANs），即通過同時(shi)訓練評(ping)(ping)論(lun)(lun)家(jia)(jia)和生(sheng)成(cheng)器來最小(xiao)化(hua)真(zhen)實(shi)分布和偽造分布之(zhi)間的(de)(de)差異(yi)，但(dan)不同之(zhi)處(chu)在于訓練不涉及可(ke)能導(dao)致不穩定的(de)(de)對(dui)抗博(bo)弈，并且評(ping)(ping)論(lun)(lun)家(jia)(jia)模(mo)型(xing)可(ke)以(yi)充(chong)分利用預(yu)訓練擴(kuo)散模(mo)型(xing)的(de)(de)權(quan)重(zhong)。

項目地址：

tianweiy.github.io/dmd

論文地址：

tianweiy.github.io/dmd/dmd_highres.pdf

13、Stable Audio新增支持上傳音頻生成音樂

今日，AI獨(du)角獸Stability AI旗下的音(yin)(yin)樂生成(cheng)產(chan)品Stable Audio宣布推出一系(xi)列新(xin)功能，包括(kuo)支持(chi)輸入音(yin)(yin)頻來指導(dao)生成(cheng)音(yin)(yin)樂，增加更多參數來提升創作體驗，新(xin)增鏈接分享、視(shi)頻下載功能，內(nei)置風格提示庫等。

14、基于大學知識的多模態LLM測評基準MMMU發布

11月29日，據(ju)論(lun)(lun)文(wen)作(zuo)者、美(mei)國俄亥俄州立(li)大學(xue)(xue)(xue)（OSU）博士(shi)岳翔于社(she)交平臺X發(fa)文(wen)，其與來自7個機構的(de)(de)20多名研究人(ren)員共同發(fa)表(biao)論(lun)(lun)文(wen)，推出(chu)了MMMU基準測(ce)試。該測(ce)試收集(ji)了11.5K來自大學(xue)(xue)(xue)考試、測(ce)驗和(he)教科書的(de)(de)多模(mo)(mo)態問題(ti)，橫跨藝術設(she)計、商業(ye)、科學(xue)(xue)(xue)、健康(kang)與醫(yi)學(xue)(xue)(xue)、人(ren)文(wen)社(she)科、技術與工(gong)程(cheng)等30個科目和(he)183個子領(ling)域，覆蓋圖(tu)(tu)表(biao)、圖(tu)(tu)表(biao)、地(di)圖(tu)(tu)、表(biao)格、樂(le)譜和(he)化學(xue)(xue)(xue)結構等30種異(yi)構圖(tu)(tu)像類型，專注(zhu)于利用特(te)定領(ling)域知識進(jin)(jin)行高(gao)級(ji)感知和(he)推理。論(lun)(lun)文(wen)測(ce)試了14個開源(yuan)大模(mo)(mo)型以及GPT-4V，測(ce)評顯示，即(ji)使(shi)是先(xian)進(jin)(jin)的(de)(de)GPT-4V也(ye)只能達(da)到56%的(de)(de)準確率。論(lun)(lun)文(wen)對GPT-4V的(de)(de)150個錯誤案例進(jin)(jin)行的(de)(de)錯誤分(fen)析表(biao)明，35%的(de)(de)錯誤是感性的(de)(de)，29%是由(you)于缺乏(fa)知識，26%是由(you)于推理過程(cheng)中的(de)(de)缺陷(xian)。

論文地址：

arxiv.org/abs/2311.16502

項目主頁：

mmmu-benchmark.github.io

15、微軟未來三年向英國AI基礎設施投資225億元

據路(lu)透社今(jin)日報道(dao)，微(wei)(wei)軟計劃在未(wei)來三年內向英國投(tou)資(zi)25億英鎊（約合人民幣225億元），以(yi)支持AI的(de)增長，這是(shi)該公司迄(qi)今(jin)在英國的(de)最大(da)單(dan)筆投(tou)資(zi)。投(tou)資(zi)將用于使微(wei)(wei)軟在英國的(de)數據中心(xin)面積增加一(yi)倍以(yi)上，為新的(de)AI模(mo)型提供關鍵的(de)基礎設施。

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

相關推薦