香港中文大学在读博士陈玉康：高效的大型语言模型长文本训练方法 LongLoRA｜AI新青年讲座

今年9月起，智東西公開課品牌全新升級為智猩猩。智猩猩定位硬科技講解與服務平臺，提供公開課、在線研討會、講座、峰會等線上線下產品。
「AI新青年講座」由智猩猩出品，致力于邀請青年學者，主講他們在生成式AI、LLM、計算機視覺、機器學習等人工智能領域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的視頻講解和直播答疑，將可以幫助大家增進對人工智能前沿研究的理解，相應領域的專業知識也能夠得以積累加深。同時，通過與AI新青年的直接交流，大家在AI學習和應用AI的過程中遇到的問題，也能夠盡快解決。
有興趣分享學術成果的朋友，可以與智猩猩教研產品團隊進行郵件（class@sanyasheying.cn）聯系。
目(mu)前，大多(duo)數大語言(yan)模型都(dou)僅(jin)支持(chi)(chi)短文本輸入，而實際應用(yong)中，很(hen)多(duo)任務都(dou)需(xu)要長文本輸入能力，如(ru)長文檔的總(zong)結、提問等(deng)。傳統方法為了進行長度拓展通常需(xu)要使用(yong)超過100塊以上的A100 GPUs或TPUs，這(zhe)樣的計算資源消耗對大多(duo)數研(yan)究而言(yan)都(dou)是難(nan)以持(chi)(chi)續(xu)的。

香港中文大學在讀博士陳玉康：高效的大型語言模型長文本訓練方法 LongLoRA｜AI新青年講座

為了解決這樣的問題，麻省理工學院韓松團隊和香港中文大學賈佳亞團隊聯合提出了基于 LoRA 的全新大模型微調方法：LongLoRA ，僅用一臺8卡機器就能將 Llama2 模型從原本的4k tokens 處理長度拓展到 32k，甚至是 100k。
此(ci)外，為(wei)了提升(sheng)模型(xing)的長(chang)文本對話(hua)能力(li)，團(tuan)隊還構建(jian)了高(gao)質量(liang)長(chang)文本對話(hua)數據(ju)集 LongAlpaca-12k，并開源了首個 70B 參數量(liang)的長(chang)文本大語言模型(xing) LongAlpaca-70B。該(gai)工(gong)作(zuo)的代(dai)碼、數據(ju)集、模型(xing)和 demos 已經全部開源在//github.com/dvlab-research/LongLoRA。

香港中文大學在讀博士陳玉康：高效的大型語言模型長文本訓練方法 LongLoRA｜AI新青年講座

11月27日晚7點(dian)，「AI新青年講(jiang)座」第230講(jiang)邀請到 LongLoRA 一作(zuo)、香港中文大學在讀博士陳玉康(kang)參與，主講(jiang)《高效的大型(xing)語言模型(xing)長文本訓練方法 LongLoRA》。

講者
陳(chen)玉(yu)康，香港(gang)中文(wen)(wen)大(da)學在讀博士；研究方(fang)向包括大(da)語言模(mo)型(xing)、AutoML、3D 視覺等(deng)，曾在 CVPR、NeurIPS、T-PAMI 等(deng)頂(ding)級會議期(qi)刊上發(fa)表論文(wen)(wen)20篇，Google Scholar Citation 1300+。

第230講

主題
《高效的大型(xing)語言模型(xing)長文本訓練方(fang)法(fa) LongLoRA》

提綱
1、大語言模型長文本對話的難點
2、基于 LongLoRA 的長文本模型微調方法
3、長文本對話數據集 LongAlpaca-12k
4、開源的(de)長文本大語言模(mo)型 LongAlpaca-70B

直播信息
直播時間：11月27日19:00
直播地點：智東西公開(kai)課知識(shi)店鋪

成果
論文標題：《LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models》
論文地址：//arxiv.org/abs/2309.12307
開源代碼：//github.com/dvlab-research/LongLoRA

久久婷婷五月综合97色直播,日本日本熟妇中文在线视频,精品国精品自拍自在线,7777精品伊人久久久大香线蕉,男人用嘴添女人下身免费视频

相關推薦