
智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影
智東西11月29日拉斯維加斯報道,北京時間(jian)11月30日,在年度“云計算春晚”AWS re:Invent大(da)會舉行的(de)第(di)三天,AWS數據與AI副總裁Swami Sivasubramanian發(fa)表(biao)主題演講,公布AWS幫助客戶構建生成式AI應用的(de)一(yi)系列工具與技術。
除了在Amazon Bedrock平臺發布更多(duo)第三方和(he)自(zi)研基礎模(mo)(mo)型、語言(yan)模(mo)(mo)型外,Sivasubramanian還分享(xiang)了AWS幫助(zhu)客戶負責任(ren)且更加輕(qing)松地構建、訓(xun)練和(he)部(bu)署生成式AI模(mo)(mo)型的多(duo)項(xiang)創新措施(shi)。
一、提供更多第三方大模型,自研多模態基礎模型上新
Sivasubramanian說,構建生成式AI應用離不開4個要素:基礎模型、利用數據的隱私環境、易用的工具、特制的機器學習基礎設施。
他將Amazon Bedrock平臺稱(cheng)作是“在基礎模(mo)(mo)型和大(da)語言模(mo)(mo)型上構建和擴展生成式AI應用的(de)最簡單(dan)方式”,提供包(bao)括第三方模(mo)(mo)型和自(zi)研模(mo)(mo)型在內的(de)廣泛模(mo)(mo)型選擇。超過10000個客戶(hu)正在使用Amazon Bedrock。
1、提供更多第三方大模型
在上述基礎上,AWS宣布明星AI安全獨角獸企業Anthropic的Claude 2.1、科技巨頭Meta的Llama 2 70B等大語言模型均已在Amazon Bedrock上推(tui)出。
2、推出Amazon Titan多模態嵌入
向(xiang)量是(shi)定制生(sheng)成式AI應用的(de)(de)關鍵。下圖是(shi)不使用與(yu)使用向(xiang)量嵌入的(de)(de)搜索結果對(dui)比,向(xiang)量嵌入有助于提高搜索結果準確性。
多種模(mo)型(xing)混合增加(jia)了搜索方式的復雜(za)性,會影(ying)響客(ke)戶體驗。為(wei)此(ci),AWS推(tui)(tui)出(chu)Amazon Titan多模(mo)態嵌入,幫助客(ke)戶為(wei)最終用戶提供更準確且與上(shang)下文相關(guan)的搜索和推(tui)(tui)薦體驗。
“多模(mo)(mo)態”是指(zhi)模(mo)(mo)型可以為(wei)圖(tu)(tu)像和文(wen)本生成嵌入,并(bing)將(jiang)其存(cun)儲(chu)在客戶的矢(shi)量數據庫中,最終用(yong)(yong)戶可以使用(yong)(yong)文(wen)本、圖(tu)(tu)像或圖(tu)(tu)文(wen)混合提交搜索查詢。
該模型將多達128個標記的圖(tu)像和(he)短英(ying)文文本轉換為(wei)嵌入,從而捕獲數據之間的語義和(he)關(guan)系;默認情況下會(hui)生成1024維的向量。
3、Amazon Titan文本嵌入上新
Amazon Titan文本(ben)嵌(qian)入(ru)可將文本(ben)翻(fan)譯成數值表示,支(zhi)持(chi)語義搜索、文本(ben)注釋和(he)聚類(lei),支(zhi)持(chi)超過25種(zhong)語言。
Amazon Titan Text Lite和Amazon Titan Text Express兩(liang)款大語言模型均(jun)已(yi)可用,支持總結、翻(fan)譯、對話、代(dai)碼生成等(deng)豐富的文本相關(guan)任務,能(neng)夠(gou)幫助(zhu)優(you)化(hua)準確性、性能(neng)與(yu)成本。
其中Lite高度(du)可(ke)定制,性價比(bi)高,最(zui)大上下(xia)文長度(du)為(wei)4096個token,非常適合(he)英語任務(wu),可(ke)以對(dui)文章總(zong)結(jie)、寫(xie)文案等任務(wu)進行微調(diao)。
Express使(shi)用范圍(wei)更廣(guang)泛,最大上下(xia)文長度為8192個token,適合開放式(shi)文本(ben)生成、對話聊天(tian)等(deng)任(ren)務,并支持(chi)檢索增強(qiang)生成(RAG)工作(zuo)流。
4、推出Amazon Titan圖像生成模型預覽版
在圖(tu)(tu)像(xiang)生成方(fang)向(xiang),AWS推(tui)出Amazon Titan圖(tu)(tu)像(xiang)生成模型預覽(lan)版。用戶(hu)輸入文字,就(jiu)能實現擴(kuo)展或(huo)更換背景、調整主體方(fang)向(xiang)、改(gai)變圖(tu)(tu)像(xiang)尺寸等圖(tu)(tu)像(xiang)編輯要求。
該模型由(you)高質量、多(duo)樣化的(de)數(shu)據訓練而成,可(ke)(ke)以理解復雜的(de)提示詞(ci),創建更(geng)準確的(de)輸(shu)出,例(li)如具有包容性屬性和有限(xian)失真的(de)逼真圖像。企業還(huan)可(ke)(ke)以用專有數(shu)據來(lai)定制模型。
Sivasubramanian強調說,Titan圖像生成(cheng)模型支持負(fu)責任的AI使用,其(qi)生成(cheng)的所有(you)圖像都包(bao)含一(yi)(yi)個不可見(jian)的水印,通過提供一(yi)(yi)種謹(jin)慎的機制(zhi)來識別AI生成(cheng)的圖像,幫助減少錯誤信息傳(chuan)播。
二、三大功能讓基礎模型定制更安全準確
“數據是生成式AI應(ying)用的(de)差異所(suo)在(zai)。”
Sivasubramanian分享道,Amazon Bedrock支持用私有數據安全地定制基礎模型,該平臺提供的定制Amazon Titan模型新功能包括微調、持續預訓練、RAG。
借助微調(diao),企(qi)業(ye)可以(yi)通過提供自(zi)己的特(te)定標(biao)注(zhu)訓練數據集來提高模型(xing)準確性(xing)。Amazon Bedrock支持對Meta Llama 2、Cohere Command Light等第三(san)方模型(xing)和(he)AWS自(zi)研模型(xing)Amazon Titan進行微調(diao)。
持(chi)續預訓練可(ke)以幫助模型在(zai)原始訓練之(zhi)外(wai),通(tong)過積累更多的健壯知識和(he)適應(ying)性,變得更加特(te)定于領域。通(tong)過持(chi)續預訓練,企(qi)業可(ke)以在(zai)具有(you)客戶管(guan)理密鑰(yao)的安全托管(guan)環境中使用自(zi)己的未標注(zhu)數據(ju)來訓練模型。
持續預(yu)訓(xun)練可(ke)用于Amazon Titan Text模型(xing)(xing)的公開預(yu)覽版,包括Titan Text Express和Titan Text Lite。預(yu)訓(xun)練完成后,用戶(hu)可(ke)以收到唯一的模型(xing)(xing)ID,定制模型(xing)(xing)將由Amazon Bedrock再(zai)次(ci)存儲。
Amazon Bedrock知(zhi)識庫(ku)已全面開放。通過知(zhi)識庫(ku),企業(ye)可以(yi)安(an)全地(di)將Amazon Bedrock中的(de)基(ji)礎模型與自有數據(ju)連接起(qi)來(lai),以(yi)用于檢索(suo)增強生成(cheng),訪問附加數據(ju)以(yi)生成(cheng)更(geng)相關、更(geng)具(ju)體和更(geng)準確(que)的(de)響(xiang)應,而無需不斷(duan)重新訓(xun)練基(ji)礎模型。
該知識庫(ku)可管理(li)初始向(xiang)量存(cun)儲設置,處(chu)理(li)嵌(qian)入和查(cha)詢(xun),并(bing)提供生(sheng)產(chan)檢索增(zeng)強(qiang)生(sheng)成應(ying)用程(cheng)(cheng)序(xu)(xu)所(suo)需的(de)源屬性(xing)和短期(qi)內(nei)存(cun)。企(qi)業還(huan)可以(yi)定(ding)制(zhi)檢索增(zeng)強(qiang)生(sheng)成工(gong)(gong)作流以(yi)滿足特定(ding)的(de)用例需求(qiu),或者將檢索增(zeng)強(qiang)生(sheng)成與其(qi)他(ta)生(sheng)成式AI工(gong)(gong)具及應(ying)用程(cheng)(cheng)序(xu)(xu)集(ji)成。
Amazon Bedrock提供了豐富的向量(liang)數據庫。
三、Agents for Amazon Bedrock全面可用,自動編排完成復雜任務
Agents for Amazon Bedrock通過使用(yong)基礎模型的推理能力(li),將用(yong)戶請求的任務分解為(wei)多個步(bu)驟,創建編排(pai)計劃,然后(hou)調(diao)用(yong)公司API和使用(yong)檢索增強生(sheng)成訪問知(zhi)識庫來執行該計劃,幫(bang)助用(yong)戶加速生(sheng)成式AI應(ying)用(yong)開(kai)發。
借助Agents for Amazon Bedrock,用(yong)戶(hu)輕點幾(ji)下,就(jiu)能讓生(sheng)成式AI應(ying)用(yong)完成復(fu)雜任(ren)務。
其(qi)對(dui)(dui)編排(pai)的改進控制(zhi)功(gong)(gong)能變得更強(qiang),對(dui)(dui)思維推(tui)理鏈也具有(you)更好的可(ke)(ke)見性。開(kai)發人員使用跟蹤(zong)功(gong)(gong)能可(ke)(ke)以來跟蹤(zong)執行(xing)計劃時使用的推(tui)理,查看業務(wu)流程(cheng)中的中間步驟,并據此(ci)對(dui)(dui)問(wen)題進行(xing)故障排(pai)除;還可(ke)(ke)以訪問(wen)和修改agent自動創(chuang)建的提示(shi)詞,進一步增(zeng)強(qiang)終端用戶體驗(yan)。
Agents在專注(zhu)于特定(ding)任務時表現更好,指令(ling)越清晰(xi)、可用的(de)(de)API越集中,基礎模型就(jiu)越容易推理并確(que)定(ding)正(zheng)確(que)的(de)(de)步(bu)驟。
AWS生成式AI創新中心收到很好(hao)的(de)反饋,即將(jiang)支持(chi)定制Anthropic Claude模型(xing)的(de)計(ji)劃。
四、5項Amazon SageMaker新功能:讓構建與部署生成式AI模型更輕松
從收集數據(ju)、創(chuang)建聚類(clusters)、分布模型訓練、checkpoint模型到修復硬件問題,訓練基礎模型的(de)(de)過程充滿(man)挑戰(zhan)。對此,Amazon SageMaker機器(qi)學習(xi)平臺提供了(le)覆蓋推(tui)理、創(chuang)新和MLOps的(de)(de)一系列創(chuang)新功能。
Sivasubramanian宣布了全托管服務(wu)Amazon SageMaker的5項新(xin)功能,讓客戶能夠更輕松地(di)構(gou)建、訓(xun)練和部署生成式(shi)AI模型。
1)SageMaker HyperPod:自(zi)動在數(shu)百或數(shu)千個加速(su)器之間分配訓練(lian)工作負載,幫助客戶將(jiang)模型訓練(lian)時間縮短多達40%。
2)SageMaker Inference:支持客戶將(jiang)多個模型部署(shu)(shu)到同一個AWS實例,更好地(di)利用底(di)層(ceng)加速器并(bing)降低部署(shu)(shu)成本(ben)和延遲。
3)SageMaker Clarify:幫助(zhu)客戶評估(gu)、比較、選(xuan)(xuan)擇適合其特定(ding)用(yong)例的最佳模(mo)型,根據選(xuan)(xuan)擇的參(can)數來支持(chi)負責(ze)任地使用(yong)AI。
4)兩項SageMaker Canvas增強功能:無需(xu)編寫任何代(dai)碼即可構建自定義模型,讓(rang)客(ke)戶(hu)能夠更(geng)輕松(song)、更(geng)快(kuai)地(di)將生成式AI集成到工作流程中。
五、提供數據基礎全套服務,向量搜索為生成式AI準確性護航
Sivasubramanian說,強大的(de)(de)數(shu)據基礎是生成式AI的(de)(de)關鍵。AWS提供了數(shu)據基礎的(de)(de)全套服務。
向量(liang)搜索是機(ji)器學習領域的一(yi)種(zhong)(zhong)新興(xing)技術,通過使用距離或相(xiang)似性度量(liang)比較向量(liang)表示,來找(zhao)到與給定數據(ju)相(xiang)似的數據(ju)點。這種(zhong)(zhong)方法能實(shi)現精(jing)確的信息檢(jian)索,對構建生(sheng)成式AI應用非常有用。
Amazon Aurora PostgreSQL、Amazon RDS for PostgreSQL、Amazon OpenSearch Service、Amazon OpenSearch Serverless等(deng)服務均(jun)提供向量搜(sou)索能力。
AWS最新正式發布的(de)Amazon OpenSearch Serverless向(xiang)量引(yin)擎(qing)是一(yi)種簡單、可擴展且高(gao)性能(neng)(neng)的(de)相(xiang)似度搜索功能(neng)(neng)。
向量引擎支持通(tong)過在同一查詢中組合(he)向量搜索和(he)(he)(he)全文搜索,來優化(hua)和(he)(he)(he)調(diao)整混合(he)搜索的結果,讓用戶無(wu)需(xu)管理底層向量數(shu)據庫基礎設施,即可輕松(song)構建機器學習增強(qiang)搜索體驗和(he)(he)(he)生成式AI應用程(cheng)序,幾毫秒可存儲(chu)、更新和(he)(he)(he)搜索數(shu)十億個有數(shu)千個維度的向量嵌入。
AWS還宣(xuan)布Amazon DocumentDB和(he)DynamoDB內(nei)置(zhi)的向量搜(sou)索功能全面可用(yong),支(zhi)持用(yong)戶(hu)在(zai)文檔數(shu)據庫中(zhong)以毫(hao)秒級響(xiang)應時(shi)間(jian)存(cun)儲(chu)、索引和(he)搜(sou)索數(shu)百萬(wan)個向量,并推出(chu)Amazon MemoryDB for Redis向量搜(sou)索功能的預(yu)覽版。
分析(xi)數(shu)據(ju)庫引擎(qing)Amazon Neptune Analytics也正(zheng)式發(fa)布,更(geng)易(yi)發(fa)現圖形與向量之間(jian)的關(guan)系,還(huan)可以(yi)使用(yong)它增強基(ji)礎模型的提示,讓圖形數(shu)據(ju)分析(xi)更(geng)高(gao)效(xiao)簡便。初步基(ji)準測試標明,Neptune Analytics從Amazon S3加(jia)載數(shu)據(ju)的速度比現有的AWS解(jie)決方案(an)快80倍。
AWS還推出了Amazon OpenSearch Service zero-ETL與(yu)Amazon S3集成(cheng)的預覽版,使客戶(hu)能夠直接查詢其運營數(shu)(shu)據(ju),降低復(fu)制數(shu)(shu)據(ju)或管理(li)多個分(fen)析工(gong)具的操作復(fu)雜性,避免(mian)過(guo)多重(zhong)復(fu)管理(li),減少(shao)了成(cheng)本和操作時間(jian)。
此外(wai),AWS發布了由(you)生成式AI支持的Amazon DataZone自(zi)動化功能預覽版。
該(gai)功能由Amazon Bedrock的大語言(yan)模型提供(gong)支持,可以使傳統勞動密(mi)集型數(shu)(shu)(shu)據(ju)編目過程(cheng)自動化(hua),生成(cheng)數(shu)(shu)(shu)據(ju)資(zi)產及其模式的詳細描述,并(bing)建議分(fen)析用例,從而(er)大大減(jian)少(shao)為(wei)組織數(shu)(shu)(shu)據(ju)提供(gong)上(shang)下文所(suo)需的時間,讓(rang)數(shu)(shu)(shu)據(ju)編目和發現進一步簡(jian)化(hua)。
為了幫助(zhu)客戶(hu)和合作伙伴在(zai)不共(gong)享原始數據的情(qing)況(kuang)下(xia)應用機器(qi)學習模(mo)型,AWS推出AWS Clean Rooms ML預覽版。該功能可幫助(zhu)企業及其(qi)合作伙伴在(zai)無需(xu)相互復制(zhi)或共(gong)享原始數據的情(qing)況(kuang)下(xia)共(gong)同訓練模(mo)型,多則可節約數月時間(jian)。
六、用AI優化數據管理,給開發人員持續減負增效
AI為(wei)優(you)化(hua)數據基礎提供(gong)了更多燃料,使(shi)得數據管理更容易、更好用(yong)、更直觀、更易訪(fang)問。
AWS昨日發(fa)布的(de)生(sheng)成式AI助手Amazon Q能夠支持開(kai)發(fa)者全生(sheng)命周期(qi),根據企(qi)業(ye)業(ye)務進行定制,通過(guo)連接(jie)到企(qi)業(ye)的(de)信息庫、代(dai)碼、數(shu)據和企(qi)業(ye)系統,向(xiang)開(kai)發(fa)人員(yuan)和IT專業(ye)人員(yuan)提供(gong)對(dui)話問(wen)答(da)(da)、優(you)化Amazon EC2實例(li)選(xuan)擇(ze)、直接(jie)在控(kong)制臺中排除和解決錯誤、網絡故障排除協助等功能,使其無論是構建應用(yong)程(cheng)序、研究最佳實踐(jian)、編(bian)程(cheng)還是解決問(wen)題,都能快速訪問(wen)答(da)(da)案并獲得想法上的(de)幫助。
啟用AI驅(qu)動擴展(zhan)(zhan)和(he)(he)優化(hua)的(de)Amazon Redshift Serverless,會根據查(cha)詢復雜(za)性、頻率、數據集大小等維度主(zhu)動和(he)(he)自(zi)動擴展(zhan)(zhan)容量(liang),提供平衡價格與性能的(de)優化(hua)。
Amazon? Redshift查詢編(bian)輯(ji)器(qi)中的(de)Amazon Q生成(cheng)式(shi)SQL預(yu)覽版可根據自然語言提示生成(cheng)SQL建議,讓編(bian)寫有效的(de)SQL查詢更(geng)高效。數據庫管理員還可以授權模(mo)型使(shi)用(yong)AWS帳(zhang)戶中所有用(yong)戶的(de)查詢歷史記錄來生成(cheng)更(geng)相關的(de)SQL語句。
AWS Glue數據質(zhi)(zhi)量功(gong)能預覽版即將發布,用(yong)機器學習來檢測統(tong)計異常情況,幫助(zhu)提高(gao)數據質(zhi)(zhi)量,無需寫代碼即可深入了解數據質(zhi)(zhi)量問題、數據質(zhi)(zhi)量評分、可用(yong)于(yu)持續監視異常的規則建議。
業務(wu)用戶經常需要分享其數據發現。對此(ci),AWS推(tui)出QuickSight的(de)Amazon Q預覽版。它可以幫助(zhu)(zhu)業務(wu)用戶創建(jian)格式(shi)優(you)美的(de)敘述(shu)來描述(shu)數據,在QuickSight中輕松(song)與(yu)他(ta)人共享文(wen)檔、幻燈片(pian)格式(shi)的(de)視覺(jue)效果(guo)、圖像與(yu)文(wen)本(ben),還可以幫助(zhu)(zhu)理解儀表(biao)板(ban)上的(de)關鍵亮點(dian)、提供數據問答服務(wu)。
結語:生成式AI仍處于早期階段,負責任的AI日益受關注
在Sivasubramanian看來,生成式AI仍(reng)處于早期階段,依賴(lai)于干凈的數(shu)據和人工輸入才能取得(de)成功。數(shu)據、生成式AI和人類三者相輔相成,共同(tong)為客戶提供創新和更好的體驗。
比(bi)如Amazon Bedrock創(chuang)建(jian)應用程序,用戶輸入自然語言(yan)就能收(shou)集完(wan)成(cheng)項目的(de)詳細步驟、材(cai)料、工具和建(jian)議的(de)列(lie)表,Code Whisperer提供了AI驅動的(de)編程建(jian)議,Amazon Q通(tong)過(guo)扮演AWS及商業專家角色來加速生產(chan)力。
由AWS委托、Morning Consult對美國商業領袖代表性樣本(ben)進行的(de)一項新調(diao)查顯(xian)示,隨著(zhu)越來(lai)越多(duo)的(de)公(gong)司和組(zu)織(zhi)將生成式AI應用于其(qi)業務,負責任(ren)的(de)AI變得越來(lai)越重要(yao)。77%的(de)受訪者(zhe)表示他們熟(shu)悉負責任(ren)的(de)AI,47%的(de)受訪者(zhe)計(ji)劃在2024年對負責任(ren)的(de)AI進行比2023年更多(duo)的(de)投資。
最后,針(zhen)對在開(kai)發所有階段都(dou)至(zhi)關重要的模型(xing)評估(gu)(gu),AWS推出(chu)Amazon Bedrock模型(xing)評估(gu)(gu)預覽版,為開(kai)發人員提供用(yong)(yong)(yong)于構建生成式AI應用(yong)(yong)(yong)程序的評估(gu)(gu)工具,使其能夠評估(gu)(gu)、比較和(he)選(xuan)擇(ze)適用(yong)(yong)(yong)于自家用(yong)(yong)(yong)例的最佳(jia)基(ji)礎(chu)模型(xing)。