智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西(xi)6月(yue)9日報道(dao),全球領先的(de)開(kai)源解決(jue)方(fang)案提供商(shang)紅帽公司于5月(yue)19日-22日在美國波士頓舉行紅帽全球峰會,宣布啟動(dong)全新開(kai)源項(xiang)目llm-d,以滿足生成式(shi)AI大(da)規模(mo)推理需求。

峰會期間,紅(hong)帽(mao)(mao)總(zong)(zong)(zong)裁(cai)(cai)兼(jian)(jian)首(shou)席(xi)執行(xing)官(guan)(guan)Matt Hicks、紅(hong)帽(mao)(mao)高級副(fu)(fu)(fu)總(zong)(zong)(zong)裁(cai)(cai)兼(jian)(jian)首(shou)席(xi)營收官(guan)(guan)Andrew Brown、紅(hong)帽(mao)(mao)高級副(fu)(fu)(fu)總(zong)(zong)(zong)裁(cai)(cai)兼(jian)(jian)首(shou)席(xi)產品官(guan)(guan)Ashesh Badani、紅(hong)帽(mao)(mao)首(shou)席(xi)技(ji)術官(guan)(guan)兼(jian)(jian)全球工程高級副(fu)(fu)(fu)總(zong)(zong)(zong)裁(cai)(cai)Chris Wright、紅(hong)帽(mao)(mao)合作伙伴(ban)生態系(xi)統成功(gong)高級副(fu)(fu)(fu)總(zong)(zong)(zong)裁(cai)(cai)Stefanie Chiras等多位紅(hong)帽(mao)(mao)高管,與智東西等亞(ya)太區媒體進(jin)行(xing)了深(shen)入交流。

Matt Hicks談道,紅(hong)帽(mao)的使命(ming)是為(wei)客戶(hu)提供(gong)真正的選擇和靈活性,無論是Linux、容器還是自動化,其交付的每(mei)一層都保持(chi)開放(fang)且(qie)值得(de)信賴,讓用戶(hu)能放(fang)心(xin)運(yun)行、調(diao)整并持(chi)續創新。這種開放(fang)性催生了vLLM、Kubernetes、OpenShift等項(xiang)目(mu)中(zhong)的大(da)規模協作與(yu)共(gong)享標準生態。

Ashesh Badani補充說(shuo),開(kai)源(yuan)只是一個許可證,離不開(kai)背后社區的支持,新發(fa)布(bu)的llm-d正印證這一點。紅(hong)帽與(yu)谷歌云(yun)、AMD、NVIDIA等(deng)眾(zhong)多伙(huo)伴(ban)共同宣布(bu)這一項目(mu),只有在共同創建(jian)并持續維(wei)護的前提下,開(kai)放才(cai)真正有意義。

Andrew Brown稱,紅帽支(zhi)持(chi)任(ren)何云(yun)、任(ren)何連接器、任(ren)何模型,沒有(you)鎖(suo)定,客戶(hu)因(yin)此(ci)能(neng)快速(su)遷移并擴展。這一切都建立在開源之上,進一步加深了客戶(hu)的信任(ren)。

一、紅帽推出llm-d社區,助力大規模分布式生成式AI推理

全(quan)新開源項目llm-d旨在讓生(sheng)產(chan)型生(sheng)成式AI像Linux一樣無處不在,由紅帽(mao)與(yu)創始貢獻者CoreWeave、谷歌云、IBM Research、NVIDIA合作(zuo)打造,聯手AMD、思科、Hugging Face、英(ying)特爾、Lambda和Mistral AI,并獲得了來自加州大(da)學伯克利分校Sky Computing Lab(vLLM的(de)發起(qi)者)和芝加哥大(da)學LMCache Lab(LMCache的(de)發起(qi)者)的(de)支(zhi)持。

llm-d采用(yong)原生(sheng)(sheng)Kubernetes架構、基(ji)于(yu)vLLM的分布式推理(li)(li)和智能AI感(gan)知(zhi)網絡路由,利(li)用(yong)大規模生(sheng)(sheng)成式AI推理(li)(li)技術,能增強vLLM的能力,使得大語言模型(LLM)推理(li)(li)云能夠滿(man)足苛刻(ke)的生(sheng)(sheng)產服務級目標(biao)(SLO),為(wei)AI推理(li)(li)解(jie)鎖(suo)大規模生(sheng)(sheng)產。

根據(ju)(ju)知名市場調研機構Gartner的數據(ju)(ju),到(dao)2028年,隨著市場的成熟,80%以上(shang)的數據(ju)(ju)中心工作負(fu)載加速器將專門(men)部署用于推(tui)理,而不是(shi)訓練用途。

隨(sui)著推理模(mo)型(xing)日益復雜和(he)規模(mo)不斷擴大,其(qi)對(dui)資源(yuan)需求的持續攀(pan)升限(xian)制(zhi)了集中(zhong)式(shi)推理的可行性,并(bing)有(you)可能因成本過(guo)高和(he)延遲過(guo)長,而使(shi)AI創新(xin)陷入瓶頸。紅帽(mao)及其(qi)行業合作伙伴正通過(guo)llm-d應對(dui)這一挑戰。

llm-d項目(mu)提(ti)供了多項創新,包括:

  • vLLM已迅速成為開源領域的事實標準推理服務器,為新興的前沿模型提供Day 0模型支持,并支持各種加速器(現已包括谷歌云TPU)。
  • 預填充和解碼分離將AI的輸入上下文和token生成階段分離成離散操作,然后將它們分布到多個服務器上。
  • 鍵值緩存卸載,基于LMCache,將鍵值緩存的內存負擔從GPU內存轉移到更具成本效益且容量更大的標準存儲,如CPU內存或網絡存儲。
  • 由Kubernetes驅動的集群和控制器可在工作負載需求波動時更高效地調度計算和存儲資源,同時確保性能和較低的延遲。
  • AI感知網絡路由,用于將傳入請求調度到最有可能擁有過去推理計算熱緩存的服務器和加速器。
  • 高性能通信API可實現服務器之間更快、更高效的數據傳輸,支持NVIDIA推理傳輸庫(NIXL)。

使用Kubernetes久經考驗的編排能(neng)(neng)力,llm-d將(jiang)先進的推理能(neng)(neng)力集成到(dao)現有企(qi)業(ye)(ye)IT基(ji)礎設施中。該統一平臺使IT團隊能(neng)(neng)夠滿足關鍵業(ye)(ye)務(wu)工作負(fu)載的各(ge)種服務(wu)需求,同時部署創新技術以最大(da)限度地提高效率(lv),并顯著降低與高性能(neng)(neng)AI加速器相(xiang)關的總擁有成本(ben)(TCO)。

紅帽認識到,在快速(su)發(fa)展的(de)生成式(shi)AI推(tui)(tui)理領域,充滿活力且易于訪(fang)問的(de)社區至關重要(yao)。該公司計(ji)劃積極推(tui)(tui)動(dong)llm-d社區的(de)發(fa)展,為新成員營造一個包容的(de)環境,并促進其持續發(fa)展。

二、聚生態之力支撐企業級AI,兩條路原生支持AI Agent?

Stefanie Chiras談道(dao),生態(tai)合(he)作寫(xie)在(zai)紅帽(mao)的基因(yin)里。紅帽(mao)從上游社區做起,把(ba)成果延伸(shen)到ISV、系(xi)統集成商以(yi)及云(yun)服務商,現在(zai)RHEL與(yu)OpenShift已能(neng)在(zai)AWS、微軟Azure、谷歌云(yun)、IBM云(yun)直(zhi)接訂購;Ansible Automation Platform則通(tong)過紅帽(mao)與(yu)IBM渠道(dao)銷售。AI時代讓這種合(he)作更加緊密。

在(zai)Ashesh Badani看(kan)來,AI可能(neng)是(shi)(shi)過去20年(nian)來最深刻的(de)IT變革,甚至可能(neng)超過云計(ji)算,因為(wei)它對日常工作(zuo)的(de)影響立竿見影。他談道,從實(shi)時版RHEL到AI推理,紅(hong)帽公布(bu)的(de)每一(yi)層都是(shi)(shi)聚合(he)了生(sheng)態合(he)作(zuo)伙伴(ban)之力(li),將社區創新轉化(hua)為(wei)企(qi)業級方案。

Stefanie Chiras具體分享了三(san)大亮點:

1、RHEL:實時內核與鏡像現已(yi)同(tong)步(bu)上架AWS、Azure、谷(gu)歌云(yun)和Oracle Cloud。同(tong)時推出的 RHEL Partner Validation計(ji)劃(hua)允許(xu)ISV自(zi)助完成兼(jian)容性測試并貼上“Validated on RHEL” 標簽,上市周期大幅縮短。

2、OpenShift Virtualization:已通過AWS、微軟(ruan)Azure、谷歌云(yun)、IBM Cloud、Oracle Cloud Infrastructure認證。正(zheng)在評(ping)估本(ben)地虛擬化替代(dai)方案的客戶,可獲得一(yi)套隨工作負載遷移(yi)而跨云(yun)一(yi)致的現代(dai)平臺,并配備即(ji)插(cha)即(ji)用(yong)的存(cun)儲、備份/災備、網絡與(yu)監控集成(cheng)。

復星汽車、阿聯酋航空(kong)等客戶反饋,遷移(yi)到運行(xing)在(zai)AMD EPYC處理器(qi)上的OpenShift Virtualization后(hou),TCO最高降低77%。

3、AI推理:全新的Red Hat AI Inference Server(內置 vLLM) 首發即支持谷(gu)歌云TPU,以及 Intel、AMD、Arm、Power、IBM Z的CPU/GPU。對硬件伙伴而(er)(er)言(yan),只需針對一個推理引擎做優化(hua);對客(ke)戶(hu)而(er)(er)言(yan),可在開放與專(zhuan)有模型之(zhi)間自由組(zu)合(he)。

Chris Wright透露說,紅(hong)帽將通過兩(liang)條(tiao)路徑原生支持AI Agent:

1、運行無憂:確(que)保Agent運行時在OpenShift與RHEL上都能高效工(gong)作,無論(lun)是在數據中心的(de) GPU,還(huan)是邊緣節(jie)點的(de)CPU。

2、能力內嵌:把Agent能力融入自(zi)家產(chan)品(pin)組合,在Lightspeed旗(qi)艦下統(tong)一(yi)呈現(xian)。今天有Ansible Lightspeed,未來還(huan)會有面向RHEL與OpenShift的Lightspeed功能。這(zhe)些服務會暴(bao)露API,供Agent調用(yong),實現(xian)自(zi)動化(hua)和日常運(yun)維優化(hua)。

運行VM(虛擬機)的同一套(tao)OpenShift平臺,也承載(zai)紅帽的AI堆棧。“今(jin)天把(ba)VM現代化,就(jiu)是為(wei)明天的生成式AI打地基。”Ashesh Badani說。

Andrew Brown認為AI的(de)(de)普及(ji)速(su)度堪比早期電子(zi)商務,橫跨所有行業(ye)(ye),這(zhe)是真正的(de)(de)勢能,而(er)非炒作。在他看(kan)來,缺乏(fa)AI技能的(de)(de)新畢業(ye)(ye)生(sheng)很快就會被(bei)邊緣(yuan)化,而(er)忽視生(sheng)成式AI的(de)(de)企業(ye)(ye)則會損失數月的(de)(de)生(sheng)產(chan)力。

據他(ta)分享,IDC等(deng)市研機構(gou)預(yu)測,全(quan)球約35%的(de)新增AI價值將來自亞(ya)太(tai)地區。客戶選(xuan)擇紅帽的(de)原因很(hen)簡單:平臺自由——從(cong)小規模起步,快速擴展,并且隨時在本地滿足需求。

紅帽最近發布的OpenShift Virtualization、RHEL鏡像模式(shi)以及實時(shi)特性,讓(rang)部署更容易,即使身處遠離大型科技中心的地區,也能獲得一(yi)致、安全、可靠的平(ping)臺體驗(yan)。

在(zai)亞太地區,紅帽憑借Red Hat AI Inference Server拿下了不少“新(xin)Logo”。這套平臺“任何模(mo)型(xing)、任何連接器、任何云”都(dou)能跑,即(ji)便只有兩(liang)名工程師(shi),也能在(zai)本地小型(xing)集(ji)群上迅速搭起生成式AI。

同時,紅帽(mao)的(de)老客(ke)戶也在借助Project AI把大語言模型以容器(qi)式工件封(feng)裝(zhuang),在多云之間自由(you)遷移。

其打(da)法很簡單:先(xian)幫客戶壓低AI成本(ben),再(zai)提供一個(ge)高韌性、高安全的(de)平臺(tai)來補強(而非替換(huan))現(xian)有環境。這套(tao)理念(nian)在(zai)亞太地區非常受認可,系統集(ji)成商和ISV已經排隊啟動試點,有六七個(ge)概念(nian)驗證(PoC)將在(zai)本(ben)季(ji)度落地。

Stefanie Chiras提到印度(du)、中國和東南亞正出現AI井噴,為此(ci)紅帽(mao)成(cheng)立了面(mian)向亞太的(de)共(gong)創團(tuan)隊,讓他們(men)的(de)工程師與紅帽(mao)專家并肩開發,再交(jiao)由系統集成(cheng)商交(jiao)付給(gei)最終用(yong)戶(hu)。

新推出的RHEL Partner Validation計(ji)劃(hua),為伙伴打通(tong)了快速上市通(tong)道,同時(shi)也向客戶保證(zheng)(zheng)“它能(neng)在RHEL上運(yun)行”,紅帽會全程背書。該(gai)計(ji)劃(hua)讓ISV可自行在RHEL上完(wan)成(cheng)驗證(zheng)(zheng),承諾第三方(fang)支(zhi)持,之后再決(jue)定是否申請完(wan)整認(ren)證(zheng)(zheng)。

AWS的(de)Distributor Seller of Record(DSOR)計劃支持分(fen)銷商(shang)把不同伙伴的(de)產品(pin)打包上架。紅帽已(yi)在(zai)澳大利(li)亞把紅帽解決方案與本地ISV的(de)AI增值服務捆綁銷售,未來RHEL AI和OpenShift AI上市(shi)后(hou)也(ye)會復制這一做(zuo)法。

無論(lun)云(yun)廠商(shang)推出的是(shi)開(kai)放還是(shi)專有的AI工(gong)具,紅帽都會(hui)“就地對接”,確保工(gong)作負載在混合(he)云(yun)之間可自由遷(qian)移。紅帽承諾將客戶的選(xuan)擇(ze)權(quan)放在核心位置,并與每(mei)一家超(chao)大規模云(yun)廠商(shang)(hyperscalers)實(shi)現(xian)無縫集成。

隨(sui)著AI加速落(luo)地(di),Matt Hicks認(ren)為混合云(yun)(yun)的(de)格局已(yi)經翻轉。五(wu)年前(qian),主旋律還是“全部上公有云(yun)(yun)”;兩年前(qian),大(da)家開始承認(ren),很多工作負載會繼(ji)續留在(zai)本地(di),同時工廠、門店、車輛等邊緣場(chang)景迅速崛起。AI進一步放大(da)了這一趨(qu)勢:為了降低延遲、保證數據就地(di)處(chu)理,推理往往必須貼近數據產生點執(zhi)行(xing)。

Matt Hicks說(shuo),如今(jin)混合云(yun)不(bu)再是可(ke)選項,而是默認架構。在AI時(shi)代,一致性、安(an)全、運(yun)維管理(li)這些老問題(ti)變(bian)得不(bu)可(ke)回避,誰(shui)能從核心到邊緣把算(suan)力和數據統籌起來(lai),誰(shui)就(jiu)能釋放巨大的價(jia)值。

三、vLLM已成開源推理標準,開放將帶來更優質的AI安全改進

正如紅帽(mao)通過(guo)將Linux轉變(bian)為現代IT的基石,開創了(le)開源企(qi)業先(xian)河,如今紅帽(mao)正推動構(gou)建AI推理。紅帽(mao)的愿(yuan)景非常清晰:無論采(cai)用何種AI模(mo)型、底層(ceng)加速器(qi)或部(bu)署(shu)環(huan)境,vLLM都能(neng)成為新型跨混合云環(huan)境推理的開放(fang)標準(zhun)權威。

從GitHub Star、下載量或貢(gong)獻者增速來看,vLLM已成事實上的開源推理標準。

Matt Hicks認為(wei),現(xian)在有兩股動力把大家拉向vLLM:一是(shi)越來越多廠商(shang)把模型(xing)checkpoint預先調優到vLLM,縮(suo)短(duan)上市時間,也把維(wei)護成本攤(tan)給社區;二(er)是(shi)英特爾、AMD、NVIDIA以及各大云廠商(shang)的自研芯片團隊(dui),都(dou)在上游提交優化補(bu)丁,讓(rang)自家硬件(jian)“開箱即用”。

在他看來(lai),當(dang)模型層和芯片層都在同一個項目(mu)里投資源,開放標準(zhun)就會扎(zha)根。

Chris Wright補充分享(xiang)說,谷歌云TPU、AWS Inferentia等云端芯(xin)片都直接往vLLM倉庫(ku)提PR,連主推Triton的NVIDIA也為vLLM做(zuo)適(shi)配,因(yin)為大多數新模型(xing)首(shou)先(xian)登(deng)陸vLLM。用戶只需pip install vllm、加載模型(xing),就能直接獲(huo)得收益。

他談道,在AI領域,“開放”這一概念仍在成形。模型基于海量(liang)數據(ju)訓練后,以工(gong)件(artifact)形式發(fa)布,常用OSI兼(jian)容許可(ke)證(zheng),允許用戶微調、修改權重(zhong)并(bing)再次分發(fa)。

早(zao)期開源曾被(bei)質疑穩健性(xing)與安全性(xing),但透明度(du)最終扭(niu)轉了局面,任何(he)人(ren)都能審計代碼并(bing)修復漏洞,這也是為什么今天大多數加密標準都是開放的。

無論許可(ke)證開放還(huan)是專有(you),AI的(de)核心安全議題都是一致的(de):防止(zhi)輸出(chu)敏感或(huo)有(you)害內容、阻斷(duan)越獄(yu)(jailbreak)提示、抵御對抗(kang)樣本與數據投毒。

學術界和社(she)區對這些問題的(de)(de)研(yan)究(jiu)非常(chang)活躍,而開放能加速解決方(fang)案的(de)(de)演進(jin)。紅帽團隊相信開放將繼續(xu)帶來更快速、更優質的(de)(de)安全改進(jin)。

結語:未來AI不應受到基礎設施孤島的限制

從IBM收購紅帽的(de)(de)第一天起,雙(shuang)方就統一在(zai)三大支(zhi)柱RHEL、OpenShift、Ansible之上(shang)。IBM Cloud Paks很快就成為(wei)在(zai)OpenShift上(shang)構建和運行軟件(jian)的(de)(de)參(can)考架(jia)構,這種一致性變得(de)更為(wei)牢固(gu)。同樣的(de)(de)模(mo)式也延伸到虛擬化和AI。IBM的(de)(de)中間件(jian)與(yu)應用底層(ceng)統一采用紅帽平臺(tai)。紅帽“RHEL + OpenShift核心(xin)組合(he)”如今已支(zhi)撐越來越多的(de)(de)IBM產品,進一步鞏(gong)固(gu)了整個產品線的(de)(de)整合(he)。

AI的未來不應受到基礎設施孤(gu)島(dao)的限制。紅帽(mao)團(tuan)隊認為,未來企(qi)業可以(yi)在任(ren)意云環(huan)境中的任(ren)意加速(su)器上部署任(ren)意模型,提(ti)供出色(se)且更(geng)加一致(zhi)的用(yong)戶體(ti)驗(yan),并且無需(xu)高昂的成本(ben)。為了釋放生成式(shi)AI投資的潛力,企(qi)業需(xu)要一個通用(yong)推(tui)理平臺——一個用(yong)以(yi)推(tui)動未來數年中,更(geng)加無縫(feng)、更(geng)高性能AI創新(xin)的標(biao)準(zhun)。