
隨著數據和模型(xing)(xing)規模的(de)大(da)幅擴展(zhan),大(da)型(xing)(xing)語言(yan)模型(xing)(xing)(LLMs)的(de)基礎模型(xing)(xing)已經取(qu)得了顯著的(de)成功。很多模型(xing)(xing)通過(guo)零/少樣本學習,而無(wu)需大(da)量的(de)任務特定數據或模型(xing)(xing)參數更新,就(jiu)能擁有先進的(de)能力(li),包括語言(yan)理解(jie)、生(sheng)成、推理和與代碼(ma)相關(guan)的(de)任務。
視覺(jue)任(ren)務(wu)不同(tong)于(yu)語言(yan)任(ren)務(wu),很難(nan)找到(dao)一種封(feng)閉(bi)定義(yi)去囊(nang)括所有的(de)任(ren)務(wu)形(xing)式。那么(me),視覺(jue)任(ren)務(wu)的(de)終局是什么(me)?有沒有可能做(zuo)到(dao)像現在(zai)(zai)語言(yan)任(ren)務(wu)的(de)大一統?同(tong)時,在(zai)(zai)這個(ge)大模(mo)型、多模(mo)態等(deng)前沿領域快速更新迭代(dai)的(de)時代(dai),研(yan)究(jiu)者們(men)又該如何在(zai)(zai)緊跟日新月異(yi)的(de)技術發展潮流(liu)的(de)同(tong)時,做(zuo)出有自己(ji)特色的(de)研(yan)究(jiu)呢(ni)?
8月30日晚7點,智東西公(gong)開(kai)(kai)課推出「大規模(mo)視(shi)覺基礎模(mo)型(xing)在線研討會」。研討會由南(nan)開(kai)(kai)大學(xue)(xue)副教授李(li)翔(xiang)博(bo)士參(can)與出品。李(li)翔(xiang)博(bo)士入選(xuan)(xuan)了(le)南(nan)開(kai)(kai)大學(xue)(xue)百青計(ji)劃、博(bo)士后創(chuang)新人(ren)才支(zhi)持(chi)計(ji)劃,在 CVPR、NeurIPS 及(ji)權威期刊 TPAMI 等上(shang)發表40余(yu)篇學(xue)(xue)術論文,谷歌學(xue)(xue)術總(zong)引用達7400余(yu)次,合作提(ti)出的 PVT 模(mo)型(xing)入選(xuan)(xuan) ICCV21 Top-10 最具影響力工(gong)作(排名第二,第一名為馬(ma)爾獎Swin Transformer)。
本(ben)次研(yan)討會,香港中文大(da)學博士后(hou)王文海、微軟亞(ya)洲研(yan)究院研(yan)究員(yuan)宋愷濤和(he)南京理工大(da)學在讀博士楊凌風三(san)位青年學者將(jiang)參與主(zhu)講。他們(men)將(jiang)分(fen)別(bie)圍繞主(zhu)題(ti)《“大(da)規模(mo)視(shi)(shi)(shi)覺基礎模(mo)型(xing) + LLM”在開放世(shi)界任(ren)務中的(de)應用初探(tan)》、《基于 ChatGPT + Hugging Face 解決復雜人工智(zhi)能任(ren)務》和(he)《大(da)型(xing)視(shi)(shi)(shi)覺語言模(mo)型(xing)的(de)細粒度視(shi)(shi)(shi)覺提示(shi)及局部(bu)定(ding)位識(shi)別(bie)》進行深度講解。
出品人
李(li)翔(xiang)博士,南開(kai)大學(xue)(xue)計算機學(xue)(xue)院副教授;入(ru)選南開(kai)大學(xue)(xue)百青計劃、博士后創新(xin)人才支持(chi)計劃,主(zhu)(zhu)持(chi)國家自(zi)然科學(xue)(xue)青年基金,獲江蘇省人工(gong)智能學(xue)(xue)會(hui)優(you)秀(xiu)博士論文(wen)獎,CCF優(you)秀(xiu)博士論文(wen)提名(ming)獎;在(zai)CCF A 類會(hui)議CVPR、NeurIPS及權威期刊TPAMI等上發表40余(yu)(yu)篇學(xue)(xue)術(shu)論文(wen),包括(kuo)第一作者(zhe)和通(tong)訊作者(zhe)20余(yu)(yu)篇;谷歌(ge)學(xue)(xue)術(shu)總引用達7400余(yu)(yu)次,一作代表工(gong)作SKNet(CVPR19)引用1700余(yu)(yu)次;長期擔(dan)任國際人工(gong)智能頂級會(hui)議AAAI、CVPR及權威期刊TPAMI、TIP、TMM審稿人,擔(dan)任PRCV23領域(yu)主(zhu)(zhu)席,Image and Vision Computing期刊副主(zhu)(zhu)編。
主題介紹
香港中文大學博士后王文海:“大規模視覺基礎模型 + LLM”在開放世界任務中的應用初探
近年來,以ChatGPT為代表(biao)的(de)(de)(de)大規(gui)模語言(yan)(yan)模型已在(zai)自然語言(yan)(yan)處理開放(fang)世界任(ren)(ren)務中獲得了(le)極大的(de)(de)(de)成功。然而(er),由于其受(shou)到模態的(de)(de)(de)限制,這些模型在(zai)計算(suan)機(ji)視覺和視覺語言(yan)(yan)任(ren)(ren)務中的(de)(de)(de)應用仍然受(shou)到限制。
在本次分享,我們(men)將從(cong)大(da)規(gui)模(mo)(mo)視(shi)(shi)(shi)覺基(ji)礎模(mo)(mo)型(xing)開(kai)始(shi),探討(tao)視(shi)(shi)(shi)覺基(ji)礎模(mo)(mo)型(xing)與大(da)規(gui)模(mo)(mo)語(yu)(yu)(yu)言模(mo)(mo)型(xing)在以視(shi)(shi)(shi)覺為中(zhong)(zhong)心的(de)開(kai)放(fang)(fang)世界任(ren)務中(zhong)(zhong)的(de)應用(yong)。包括:(1)大(da)規(gui)模(mo)(mo)視(shi)(shi)(shi)覺基(ji)礎模(mo)(mo)型(xing)的(de)構建和(he)訓練;(2)視(shi)(shi)(shi)覺基(ji)礎模(mo)(mo)型(xing)和(he)大(da)規(gui)模(mo)(mo)語(yu)(yu)(yu)言模(mo)(mo)型(xing)在開(kai)放(fang)(fang)世界視(shi)(shi)(shi)覺交(jiao)互系統(tong)中(zhong)(zhong)協同(tong)應用(yong);(3)更靈活的(de)大(da)規(gui)模(mo)(mo)語(yu)(yu)(yu)言模(mo)(mo)型(xing)在開(kai)放(fang)(fang)世界視(shi)(shi)(shi)覺和(he)視(shi)(shi)(shi)覺語(yu)(yu)(yu)言任(ren)務中(zhong)(zhong)的(de)使用(yong)方法(fa)。
微軟亞洲研究院研究員宋愷濤:基于 ChatGPT + Hugging Face 解決復雜人工智能任務
利(li)用(yong)(yong)不同(tong)領域和(he)(he)模(mo)態的(de)(de)復雜(za)(za)人(ren)工(gong)智(zhi)能(neng)(neng)任(ren)務是邁(mai)向(xiang)先進人(ren)工(gong)智(zhi)能(neng)(neng)的(de)(de)關鍵一步。雖然針對不同(tong)領域和(he)(he)模(mo)態存(cun)在大(da)量的(de)(de)人(ren)工(gong)智(zhi)能(neng)(neng)模(mo)型,但(dan)它們無法(fa)處理復雜(za)(za)的(de)(de)人(ren)工(gong)智(zhi)能(neng)(neng)任(ren)務。考慮到(dao)大(da)型語言(yan)模(mo)型(LLMs)在語言(yan)理解(jie)(jie)、生成、交(jiao)互和(he)(he)推理方面表現(xian)出(chu)色(se)的(de)(de)能(neng)(neng)力,我們認為(wei) LLMs 可(ke)以充(chong)當(dang)控(kong)制(zhi)器(qi),管理現(xian)有(you)的(de)(de)人(ren)工(gong)智(zhi)能(neng)(neng)模(mo)型來(lai)解(jie)(jie)決復雜(za)(za)的(de)(de)人(ren)工(gong)智(zhi)能(neng)(neng)任(ren)務,而語言(yan)可(ke)以作為(wei)通用(yong)(yong)接口來(lai)實現(xian)這一點。基于這一理念,我們提出(chu)了一個框架,利(li)用(yong)(yong) LLMs(例如(ru)ChatGPT)來(lai)連(lian)接機器(qi)學習社區中的(de)(de)各(ge)種人(ren)工(gong)智(zhi)能(neng)(neng)模(mo)型(例如(ru)Hugging Face)來(lai)解(jie)(jie)決人(ren)工(gong)智(zhi)能(neng)(neng)任(ren)務。
具體而言,我(wo)們使(shi)用(yong)(yong) ChatGPT 在接收用(yong)(yong)戶請求時進行(xing)任(ren)(ren)務規劃(hua),根據(ju) Hugging Face 中可用(yong)(yong)的模(mo)型(xing)功能(neng)(neng)描述來選擇模(mo)型(xing),使(shi)用(yong)(yong)所選的人(ren)工智(zhi)(zhi)能(neng)(neng)模(mo)型(xing)執(zhi)行(xing)每個子(zi)任(ren)(ren)務,并根據(ju)執(zhi)行(xing)結果總結回(hui)應。通過充分利用(yong)(yong) ChatGPT 的強大語(yu)言能(neng)(neng)力(li)和 Hugging Face 中豐富的人(ren)工智(zhi)(zhi)能(neng)(neng)模(mo)型(xing),我(wo)們的系統(tong)(即HuggingGPT)能(neng)(neng)夠涵蓋許多不同(tong)模(mo)態和領(ling)域的復(fu)雜人(ren)工智(zhi)(zhi)能(neng)(neng)任(ren)(ren)務,并在語(yu)言、視(shi)覺、語(yu)音和其他具有挑(tiao)戰(zhan)性的任(ren)(ren)務方面取(qu)得令(ling)人(ren)印象深刻(ke)的結果,為(wei)邁向人(ren)工通用(yong)(yong)智(zhi)(zhi)能(neng)(neng)開辟(pi)了新的道路。
南京理工大學在讀博士楊凌風:大型視覺語言模型的細粒度視覺提示及局部定位識別
大型視(shi)覺(jue)語言(yan)模型在多個圖像層級的任(ren)務上取得優秀表現,但是(shi)(shi)其(qi)潛在的知(zhi)識(shi)難以被應(ying)用(yong)于局部定(ding)位識(shi)別任(ren)務。現有的零樣(yang)本遷移(yi)方法使用(yong)了視(shi)覺(jue)提(ti)示的策略,但是(shi)(shi)其(qi)提(ti)示設(she)計存在不準確、引入噪(zao)聲等問題。
我們通過流程圖以及實(shi)例可視(shi)(shi)化展示了(le)(le)我們的解決方法,并在展示了(le)(le)在多個(ge)數據(ju)集(ji)上的實(shi)驗結(jie)果。最后,我們對(dui)各個(ge)方法進行了(le)(le)有(you)效性分析(xi),并進行了(le)(le)視(shi)(shi)覺提示的結(jie)果可視(shi)(shi)化。