智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西7月30日報道,今日,火山引擎發布全新豆(dou)包·圖像編輯(ji)模型3.0、豆(dou)包·同聲傳譯模型2.0,宣布扣子開源版正式上線,全新升級豆包大模型1.6系列,發布企業自有模型托管方案、Responses API等多個模型服務及工具產品,升級HiAgent 2.0、PromptPilot等工具,為企業和開發者構建Agent、落地AI夯實基礎設施。

在回顧了近期豆(dou)包(bao)大模型取(qu)得的(de)一系列成績后,火山(shan)引擎(qing)總裁譚(tan)待強調,AI云(yun)原生是企業在AI時(shi)代(dai)構建(jian)好(hao)Agent的(de)創新發(fa)展(zhan)的(de)關鍵。基于(yu)這樣的(de)觀察和思考,火山(shan)引擎(qing)持續優化AI云(yun)原生全棧服(fu)務,支撐Agent開發(fa)與落(luo)地,幫助企業開發(fa)者在AI時(shi)代(dai)更好(hao)地發(fa)展(zhan)。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

一、圖像編輯模型3.0:動嘴P圖時代來了,一句話指哪改哪

火山引擎總(zong)裁譚待(dai)發布全新(xin)豆包(bao)·圖像編輯模型3.0和豆包(bao)·同聲傳譯模型2.0。

豆包·圖像編輯模型SeedEdit 3.0顯著優(you)化(hua)了(le)(le)指令遵循能(neng)力(li)、圖(tu)像(xiang)(xiang)保(bao)持能(neng)力(li)、圖(tu)像(xiang)(xiang)生成(cheng)質量,優(you)化(hua)了(le)(le)“動嘴P圖(tu)”的效(xiao)果和(he)效(xiao)率,可廣(guang)泛(fan)應用于影像(xiang)(xiang)創作、廣(guang)告營銷、游戲宣傳等領域。

無(wu)論是變(bian)(bian)成吉卜力風格、調(diao)整光影(ying)、P掉(diao)路(lu)人、把線稿變(bian)(bian)彩圖、替換背景,該模型都能得心(xin)應手。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

用戶通過自然語言指令,即可完成消除多余內容、改變光影效果、替換文字等操作。該模型具備對風格、結構與語義的精準控制力,能夠像人類大腦一樣理解指令、深度思考,解鎖更多創新的修圖場景,例如圖像風格轉換、變換材質、變化人物姿勢、根據提示詞進行推理等P圖玩法

豆包·圖像編輯(ji)(ji)模(mo)型SeedEdit 3.0基于文生(sheng)圖模(mo)型 Seedream 3.0,疊(die)加多樣化的數據融合方法與(yu)特定獎勵(li)模(mo)型,可支持1K以(yi)上高清(qing)圖像的生(sheng)成與(yu)處理(li),在(zai)對編輯(ji)(ji)區(qu)域進行精(jing)細自然調整的同時(shi),能(neng)高度還原(yuan)并(bing)保留圖像主體、背景及細節信(xin)息。

動動嘴就能精準(zhun)P圖的時代(dai),真(zhen)的來了。

比(bi)如你可以要求人物(wu)長發(fa)變(bian)短(duan)發(fa)、改變(bian)姿勢坐在椅子上(shang),P圖后背景、人物(wu)面部特征等細節無損。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

你也(ye)可(ke)以(yi)精準鎖定其他區域,比如要求(qiu)只修(xiu)改毛衣區域顏色和紋理(li)并(bing)添(tian)加項鏈。

豆(dou)包·圖像編輯模型3.0只瞄準(zhun)文字(zi)區域,字(zi)體(ti)、光影會自動匹配原圖風格,智能(neng)填充周(zhou)圍紋理;還(huan)能(neng)讓(rang)黑(hei)夜(ye)秒(miao)變陽光明(ming)媚(mei)的白晝,光影自然過(guo)渡,建筑、樹木細(xi)節(jie)清晰銳(rui)利(li),毫無(wu)涂抹感或(huo)分辨率下降。

此外,該模型可以理解“發(fa)酵(jiao)”過程(cheng),生成(cheng)體(ti)積膨大(da)、充(chong)滿氣(qi)泡的發(fa)酵(jiao)面團(tuan)圖。并(bing)且基于面團(tuan)狀(zhuang)態進行推理,在保(bao)持面團(tuan)主體(ti)關聯性的前提下,生成(cheng)金(jin)黃酥脆(cui)、香氣(qi)四溢的面包圖。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

實用玩(wan)法很(hen)多,比如讓(rang)它“去(qu)掉所有路人(ren)”、“消除文(wen)字(zi)”、“給(gei)黑白(bai)照片上色”,或是給(gei)照片、設計換個光影氛(fen)圍或風格(ge)。

企業用(yong)(yong)(yong)戶(hu)可在火山方舟平臺調(diao)用(yong)(yong)(yong)該模(mo)型(xing)API,個(ge)人用(yong)(yong)(yong)戶(hu)可使(shi)用(yong)(yong)(yong)即夢或豆包App的“豆包P圖”功(gong)能體驗。

二、同聲傳譯模型2.0:3秒超低延遲,0樣本聲音復刻

傳統翻(fan)(fan)譯(yi)系統通常依(yi)賴于“級聯模型”,即多個模塊相互串聯,依(yi)次處理(li)語音(yin)(yin)(yin)識別(bie)、翻(fan)(fan)譯(yi)、聲音(yin)(yin)(yin)復刻和(he)語音(yin)(yin)(yin)合成(cheng)等任務,翻(fan)(fan)譯(yi)結(jie)果不(bu)夠(gou)連(lian)貫(guan)、處理(li)速度慢。

豆包·同聲傳譯模型Seed-LiveInterpret 2.0做到“邊聽邊說”,支(zhi)持全雙工語(yu)(yu)音(yin)(yin)理解和(he)生成框架,將(jiang)傳(chuan)統機器(qi)同(tong)傳(chuan)的(de)語(yu)(yu)音(yin)(yin)延遲從(cong)8-10秒降低到2-3秒,實現文(wen)本與語(yu)(yu)音(yin)(yin)的(de)同(tong)步(bu)生成;無需(xu)提前錄制,一(yi)邊說話一(yi)邊采樣(yang),實現0樣(yang)本聲音(yin)(yin)復刻,讓同(tong)一(yi)個(ge)人同(tong)音(yin)(yin)色開口(kou)說外語(yu)(yu),甚至匹配方言(yan)(yan)口(kou)音(yin)(yin),大幅(fu)提升跨(kua)語(yu)(yu)言(yan)(yan)溝通沉浸(jin)感和(he)效率。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

三、豆包大模型1.6升級:極速版百萬token輸入僅0.15元

豆包(bao)大模(mo)型(xing)1.6系列模(mo)型(xing)能力升級。Doubao-Seed-1.6-thinking-0715深度思(si)考模(mo)型(xing)增強(qiang)代碼、推(tui)理和視覺(jue)理解能力,Doubao-Seed-1.6-flash-0715模(mo)型(xing)能力更全(quan)、速度更快(kuai)、價(jia)格(ge)更低,Seed1.6-embedding模(mo)型(xing)可構建強(qiang)大的(de)多模(mo)態(tai)企(qi)業還是(shi)問答,實現全(quan)模(mo)態(tai)混合檢(jian)索和自(zi)定義指令增強(qiang)。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

火(huo)山引擎智能算法負責(ze)人吳(wu)迪談道(dao),構建AI應用(yong)有(you)4大挑(tiao)戰:

  • 模型:在業務落地中選擇更強的模型;
  • 性能:高質量的吞吐和延遲體驗會變得越來越重要;
  • 安全:重中之重是取得更多的客戶信任;
  • 工具:多步驟復雜任務和工具使用的能力,會逐漸滲透到廣大企業的核心業務中,為額客戶創造價值。

應對(dui)這(zhe)些挑戰,豆包大模型和火山方(fang)舟(zhou)以更(geng)強的模型、更(geng)低的價(jia)格、更(geng)易落地的方(fang)案(an),助力業績(ji)提升。

極速版Doubao-Seed-1.6-flash模型服(fu)務于對延(yan)遲和成(cheng)本敏感的(de)客戶,具有(you)(you)能(neng)(neng)力(li)全、速(su)度(du)快、價格低的(de)特點,在保持出(chu)色視覺理解能(neng)(neng)力(li)的(de)同時,升(sheng)級了代碼、推理、數(shu)學等大(da)語言模型能(neng)(neng)力(li),非常適合智能(neng)(neng)巡(xun)檢、手機(ji)助手、智能(neng)(neng)硬件等對模型效(xiao)果、速(su)度(du)和成(cheng)本都有(you)(you)要求(qiu)的(de)大(da)規模商業化(hua)場景。

該模型具有業界領先的極低延遲,每token延遲(TPOT)僅10毫秒,在輸入文本長度0-32k的區間中(企業使用量最大),每百萬tokens輸入僅需0.15元,輸出僅1.5元,同時還具備出色(se)的視覺理解能力。

在(zai)一個真實的家用安防(fang)客戶(hu)案例中,Doubao-Seed-1.6-flash幫助客戶(hu)將(jiang)輸出延遲(chi)降低(di)(di)60%以上(shang)、端到端性能提升50%以上(shang),產品(pin)成(cheng)本降低(di)(di)70%。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

吳迪宣布,Doubao-Seed-Translation多語言文本翻譯大模型正式開源

豆包最新翻(fan)譯(yi)模(mo)型支(zhi)持28種(zhong)語(yu)(yu)言,打(da)破溝(gou)通壁壘(lei),針對法律條文、科技(ji)用(yong)語(yu)(yu)、文言文領域的專(zhuan)業術(shu)語(yu)(yu)或復(fu)雜文本都能精準把握語(yu)(yu)境,提(ti)供高(gao)質(zhi)量(liang)的翻(fan)譯(yi)。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

火山疫情全模態向量化模型Seed1.6-Embedding帶來三大突破:全面效果領先,首次實現“文本+圖像+視頻”混合模態的融合檢索,升(sheng)級(ji)自定義指令(ling)能力,讓向(xiang)量生(sheng)成(cheng)能更貼合各類業務(wu)需(xu)求。該模型在權威測評中(zhong)(zhong)包攬多模態(tai)(tai)全(quan)面任務(wu)及中(zhong)(zhong)文文本的最優成(cheng)績,可助力企業構建更強大的多模態(tai)(tai)知識庫。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

例如在電商(shang)場景,你(ni)可(ke)以(yi)強調價格與材質的相(xiang)似性;在影視(shi)領域,你(ni)可(ke)以(yi)強調文字劇情與角色的精準匹配(pei)。這使得(de)模型更靈活(huo),更容易被集成(cheng)到(dao)企業現有(you)業務流程(cheng)中,大幅(fu)降低業務落地門(men)檻。

目(mu)前Seed1.6-Embedding已全(quan)面上線(xian)火山方舟。

Viking DB是字節(jie)跳動自研的高(gao)性能向量數據庫,面向全模態進行(xing)多項(xiang)升(sheng)級(ji)。

一(yi)是全介(jie)質索(suo)引(yin)升(sheng)級,從(cong)內(nei)存索(suo)引(yin)(適(shi)合高并(bing)發(fa)中等數(shu)據規(gui)模(mo),億級及(ji)以下(xia))、磁盤索(suo)引(yin)(適(shi)合地并(bing)發(fa)超(chao)大數(shu)據規(gui)模(mo)場景,十億及(ji)以上)到GPU索(suo)引(yin)(超(chao)過并(bing)發(fa)超(chao)大數(shu)據規(gui)模(mo)場景),打通(tong)了億級數(shu)據跨介(jie)質檢索(suo)能力(li)。

二(er)是更高的性價比,在數億索引數據(ju)規模下,相比傳統(tong)內(nei)存方案可將成(cheng)本降低(di)75%。

三是升級全模態表(biao)征能力,實現更易用(yong)的文本、圖像、視頻端(duan)到端(duan)一鍵向量化。用(yong)戶(hu)只需抓住原始數(shu)據,系統(tong)就能自動完成向量化。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

例如博查致力于提供AI時代的知識搜索創新,服務了4000多家企業和2萬多名開發者,承接著國內超過60%的AI應用所需的聯網搜索需求。火山引擎VikingDB協助博(bo)查改善了客戶體(ti)驗(yan)。

以向量數據庫VikingDB為基礎,火山引擎還打造了方便易用的升級版知識庫,支持圖(tu)文視(shi)頻全模態處理和混排輸出,在國內外諸多評(ping)測中(zhong)展現出了(le)更(geng)好的效果。

對于很多希望使用火山知識庫的開發者,火山引擎進一步推出新的標準版,價格僅為旗艦版的1/10

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

四、扣子核心能力開源,在火山引擎可自動化部署

7月26日,火山引擎做出一個重要決定:AI Agent開發平臺扣子將核心功能開源

本次開源覆蓋扣子平臺最核心的兩個項目: 扣子開發平臺(Coze Studio)扣子羅盤(Coze Loop),并采用(yong)沒有任何附加條件的Apache 2.0許可證開源,用(yong)戶可在GitHub下載(zai)。

扣子開發(fa)(fa)平臺是一個(ge)一站(zhan)式AI Agent可(ke)視化開發(fa)(fa)工具,可(ke)快速實現AI Agent的開發(fa)(fa)創(chuang)建、調(diao)試和部署;扣子羅盤是一個(ge)聚焦AI Agent的全流程管理系統,幫助開發(fa)(fa)者(zhe)實現Agent從(cong)開發(fa)(fa)到運維的全鏈路管理。

扣(kou)子(zi)開(kai)源(yuan)版上線受廣(guang)受歡迎,開(kai)源(yuan)僅3天,扣(kou)子(zi)開(kai)發平臺在GitHub上星(xing)標(biao)過(guo)萬,扣(kou)子(zi)羅盤(pan)星(xing)標(biao)超過(guo)3000。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

HiAgent為扣子開源版提供(gong)了全面支(zhi)持。

企業(ye)AI平臺產品(pin)HiAgent可調用(yong)扣子開源版(ban)提供的智能(neng)(neng)體搭建和運維能(neng)(neng)力(li),并通過共享Agent標準,支(zhi)持扣子開源版(ban)智能(neng)(neng)體的納管。

火山(shan)引擎(qing)的云基(ji)礎產品也將為扣子(zi)開(kai)源版(ban)提供高效、穩定、可(ke)靠(kao)的基(ji)礎設(she)施支持。開(kai)發者可(ke)一鍵拉起(qi)資(zi)源,完成部署。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

還有一系列(lie)優(you)惠(hui)政策向新用戶提供。

火山引擎AI開源矩陣越來越強(qiang)大,幫助企業做好數據,幫助開發者更好地(di)構建AI應用,為AI開源生態繁榮貢獻力(li)量。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

五、企業自有模型托管方案發布,通過火山方舟模型單元部署

針對有模型定制需求的企業客戶,火山引擎發布企業自有模型托管方案

依托火山方舟模型單元,企業無需運維底層GPU資源,也不用進行復雜的網絡和調度配置,就能在火山方舟上實現自研模型的全托管,并在推理服務中享受火山方舟極致的彈性算力資源,大幅降本增效。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

在算力成本上,企業可(ke)自主選擇部(bu)署方式(shi)、機型,并設(she)置彈(dan)性規(gui)則,更精細地控(kong)制首Token時延、模型吐(tu)字(zi)延遲,且無需(xu)為業務低谷(gu)期付費,最終實(shi)現更高的資(zi)源利用效率。

此(ci)外,全托管的企業自有模型,還能(neng)享受火山方舟上的全套(tao)開(kai)發(fa)工具(ju)、MCP服務等(deng)生態(tai)配套(tao)。

火山方舟模型單元已在火山方舟上開放邀測,可申請體驗。

六、Responses API上線,助攻多模態Agent高效開發

多模態模型統一、多模態模型API的(de)統一,是(shi)當前大模型發展的(de)重要趨勢。

為此,火山方舟平臺升級了API體系,推出Responses API

該API具備原生上下文管理能力,支持多輪對話的鏈式管理,可無縫銜接文本、圖像、混合模態數據,結合cache能力后能大幅降低延遲和成本,在很多典型應用里,整體成本下降幅度可達80%

此外,Responses API支持自主選擇調用工具,用戶(hu)發(fa)起(qi)單次請求,即(ji)可聯動多(duo)個內置(zhi)工具、自(zi)定義函數及多(duo)輪(lun)模型組合響應(ying),解決復雜Agent任務,讓Agent開(kai)發(fa)更加省(sheng)時省(sheng)力。

例如(ru),搭建(jian)一個(ge)智能助手Agent,傳統構建(jian)方法要寫463行代碼(ma),用(yong)Responses API僅需(xu)60行代碼(ma),開(kai)(kai)發時間可以從1-2天縮(suo)短到1小時,大(da)幅提升效率。在(zai)學習(xi)陪(pei)伴場(chang)景,對話式Agent需(xu)要兼顧情緒引導、英(ying)語陪(pei)練、百科問答(da)等多種能力,Responses API在(zai)幫助客戶降低延遲的同時,將成本進(jin)一步節約超50%,并讓開(kai)(kai)發更(geng)簡易。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

七、PromptPilot升級:實現更高效提示詞調試,從“碰運氣”到“精準調控”

寫好提示(shi)詞(Prompt)是做好AI應用的(de)第(di)一個重(zhong)要部分。

對提示詞(ci)工程(cheng)(cheng)有幾個基本判斷:模型越(yue)強大,問出(chu)好(hao)問題(ti)(ti)帶來(lai)的(de)正(zheng)向價值越(yue)大。很(hen)多高價值問題(ti)(ti)沒有標(biao)準答(da)案(an),如何讓模型理解需求、服從產(chan)品(pin)要求是一個長期存在(zai)的(de)重(zhong)要實(shi)踐。提示詞(ci)工程(cheng)(cheng)本質上是一個搜(sou)索問題(ti)(ti),一切搜(sou)索問題(ti)(ti)長期都將由算法來(lai)解決。

實際落(luo)地過程中(zhong)也會遇到一些挑戰,比如如何(he)寫出(chu)一個高(gao)質量(liang)的Agent、如何(he)提升(sheng)模型(xing)落(luo)地效果、怎(zen)么定義(yi)目標、如何(he)快速實現(xian)模型(xing)+業務落(luo)地的通(tong)路?……

PromptPilot通(tong)過(guo)引導交(jiao)互,幫助(zhu)用(yong)戶明確任務(wu)意(yi)圖和(he)評(ping)估標準(zhun);實現(xian)高效(xiao)迭(die)代,像積累數據一樣積累Case,通(tong)過(guo)SDK調用(yong),構建Case雷(lei)達;回顧整個(ge)過(guo)程。深度優(you)化(hua)器融合了先進優(you)化(hua)技術(shu),模擬人類反思(si),類比錯誤總結能力,實現(xian)提示詞的(de)全自(zi)動優(you)化(hua),全流程支(zhi)持聯網(wang)AI搜索(suo)和(he)自(zi)定(ding)義知識(shi)庫,確保信(xin)息實時性(xing)和(he)專業性(xing),最后給出可視化(hua)報告,通(tong)過(guo)圖表(biao)數據比對(dui)優(you)化(hua)前后的(de)效(xiao)果。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

火山引擎宣布PromptPilot全新升級,將提供更廣泛的(de)(de)模(mo)型優(you)化能(neng)力(li),支持任意模(mo)型的(de)(de)提示與(yu)優(you)化,并與(yu)火山(shan)引(yin)擎知識庫深(shen)度融合,能(neng)精準調用專業數據庫,幫助模(mo)型在垂直領域(yu)實現(xian)更準確、更可靠(kao)的(de)(de)理解和輸出(chu)。

多(duo)年來,火山引擎在算子、框架和(he)調度(du)層面(mian),也開展了很多(duo)深度(du)優化工(gong)作。

全(quan)棧式大模(mo)型訓練加速(su)引擎veOmni覆蓋了LLM、VLM等(deng)多類模(mo)型,在測試中(zhong)比(bi)諸(zhu)多開源框(kuang)架訓練效率(lv)提高50%左右;基于全(quan)系自研(yan)bit推理(li)框(kuang)架veFuser,推理(li)效率(lv)是(shi)行業平均水平的(de)4倍左右。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

火(huo)山(shan)引擎(qing)的(de)veTurbo解決方案,從(cong)模(mo)型訓練、推理(li)部(bu)署到(dao)強化學(xue)習的(de)全生命周期,幫助客戶實現(xian)AI應用的(de)高(gao)效開發(fa)。

八、HiAgent:讓數字員工“持證上崗”,混合開發、邊干邊學

火山(shan)引擎(qing)副總裁張(zhang)鑫先分(fen)享(xiang)了企業員工(gong)忙(mang)碌的(de)一(yi)天會有哪些(xie)場(chang)景,比(bi)如看待辦事項、開各種會、做(zuo)會議紀要、分(fen)配任務(wu)和掌握進展、審核一(yi)堆低級錯誤浪費時間、安排出(chu)差事項、寫(xie)報(bao)告、寫(xie)日報(bao)和明日工(gong)作計劃等。

這暴露了企業效率(lv)的3個(ge)瓶頸:大量工(gong)時被規則性任(ren)務消(xiao)耗,系(xi)統來回(hui)切換導致(zhi)上下文中斷,以及信(xin)息誤導。這些挑戰制約了決策的效率(lv)。

HiAgent作(zuo)為一(yi)個一(yi)站式(shi)智能體工作(zuo)臺,希望幫助企業源源不斷地派遣(qian)數字員工,來拓展人類服務(wu)邊界和(he)認知(zhi)邊界,從而解決(jue)上(shang)述問題(ti)。

張鑫(xin)總(zong)結了生產級智(zhi)能(neng)體(ti)數(shu)字員工(gong)的6個要素:量體(ti)裁衣,能(neng)調用企(qi)業內(nei)部系(xi)統(tong)(tong),支(zhi)持低(di)代碼與高代碼混合開發,對(dui)智(zhi)能(neng)體(ti)全生命周期管理,通(tong)過(guo)數(shu)據支(zhi)撐(cheng)與反饋來幫助(zhu)數(shu)字員工(gong)邊干邊學變聰明,通(tong)過(guo)統(tong)(tong)一入口連接所(suo)有數(shu)字員工(gong)和企(qi)業系(xi)統(tong)(tong)。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

企業的戰斗力,不(bu)在(zai)于單點聰明(ming)與否(fou),而是(shi)看系統性是(shi)否(fou)能打。

低(di)代碼開(kai)發(fa)在第一階段能(neng)(neng)幫助(zhu)1-2人(ren)小團隊,通過提示詞、可視化(hua)拖拉拽,完成一個智能(neng)(neng)體雛形(xing)的(de)搭建與上線。但(dan)當這些智能(neng)(neng)體逐漸(jian)走向生產(chan)的(de)深(shen)水(shui)區,弊端(duan)和局限性(xing)逐漸(jian)暴露出來(lai),比如很(hen)難(nan)做深(shen)度復(fu)雜算子的(de)定(ding)制(zhi)、復(fu)雜交互(hu)界面(mian)及意圖識別的(de)開(kai)發(fa),也很(hen)難(nan)支持(chi)多人(ren)協同(tong)編(bian)輯,更不用說(shuo)如何(he)深(shen)入架構層面(mian)去(qu)保證整(zheng)個系統(tong)的(de)性(xing)能(neng)(neng)調優和高可用設計。

因(yin)為這些弊端,部分團隊開始(shi)步入第三(san)階段,又(you)回歸高(gao)(gao)代碼(ma)開發(fa)(fa),通過SDK和IDE插件(jian)結合高(gao)(gao)代碼(ma)開發(fa)(fa)平(ping)臺,直(zhi)接進行模型調用、算(suan)法撰寫、整體架構設計,這又(you)拉高(gao)(gao)了(le)智能體開發(fa)(fa)的技術門檻,讓真正懂業務的人(ren)員無(wu)法直(zhi)接參與(yu)。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

HiAgent給出的解決方案,就是混(hun)合開發。

一(yi)方面,讓(rang)專業(ye)技術人員可以通(tong)過全(quan)代(dai)(dai)碼(ma)的(de)方式,設(she)計高可用、高性能的(de)整體架構和定制(zhi)化算子(zi);另一(yi)方面,業(ye)務人員可在探索階段和后面的(de)運營階段,繼(ji)續通(tong)過低代(dai)(dai)碼(ma)的(de)方式去迭代(dai)(dai)提示詞、公祖留、知(zhi)識庫等(deng),并將(jiang)這些(xie)能力(li)通(tong)過組件(jian)嵌入到(dao)高代(dai)(dai)碼(ma)的(de)抽象(xiang)中(zhong)。

通過這種混合開發模式,業務人(ren)員可(ke)以繼續(xu)進行快速的(de)想法驗(yan)證,并可(ke)以為數字員工打開自動迭代的(de)按鈕,技(ji)術人(ren)員可(ke)以通過高代碼去解決復雜的(de)邏(luo)輯和(he)深度(du)的(de)性能(neng)優化(hua)。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

解決了(le)開發問題,下一步就是養(yang)成。

就像(xiang)人類員工一(yi)樣,智(zhi)能體作為數字員工的(de)上崗過程,也覆蓋從招(zhao)聘(pin)、試用期培訓到考(kao)核、晉升的(de)流程。

HiAgent推出了Agent Devops,實現(xian)數(shu)字員工全生命周期管(guan)理(li),覆蓋(gai)策略規劃、能力開發、效果(guo)評(ping)測(ce)(ce)、品質優化(hua)、線上(shang)觀(guan)測(ce)(ce)、應(ying)用發布等環(huan)節(jie)。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

HiAgent還發布了數據流轉模塊,把(ba)數(shu)字員(yuan)工(gong)產(chan)生的數(shu)據自(zi)動記(ji)錄到一(yi)個學習庫中,再(zai)通過數(shu)據清洗(xi)分析和回流沉(chen)淀(dian)成后(hou)續(xu)的評(ping)測集和模型的訓練集,變(bian)成數(shu)字員(yuan)工(gong)的寶(bao)貴經驗。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

通過Agent Devops和數據流轉模塊,越(yue)來越(yue)多的(de)數字員(yuan)工可以從實習生轉正(zheng),開始(shi)持證上崗了。這時數字員(yuan)工好(hao)(hao)不好(hao)(hao)用(yong),入口是(shi)關鍵。

HiAgent發布人機協同工作臺,打造真(zhen)人與數(shu)字(zi)員工的“統一交互入口(kou)”,讓用(yong)戶找數(shu)字(zi)員工比找真(zhen)人同事(shi)還(huan)方(fang)便。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

HiAgent數字員(yuan)工交互入口根據不同員(yuan)工/智能角色的(de)需求,提(ti)供千(qian)人千(qian)面(mian)、可(ke)自定義的(de)工作(zuo)畫(hua)(hua)布(bu)形態,在一個畫(hua)(hua)布(bu)中就能連(lian)接所(suo)有業務系統(tong)完成日常工作(zuo),并通過更(geng)靈(ling)活(huo)的(de)多(duo)人協作(zuo)人機協作(zuo)模式,提(ti)升團隊的(de)生產(chan)力。

從(cong)用戶(hu)旅程視角來看,HiAgent 2.0幫助(zhu)企業構(gou)建自己的(de)AI“數字員(yuan)工派遣站”流程如下:

  • 企業個性化需求:企業會梳理個性化需求,可從行業里預制的上百種應用樣板間和MCP市場里選擇適合的模版與工具;
  • 數字員工養成:通過業務人員和技術人員的協同迭代整合開發,完成數字員工Agent搭建;
  • 派遣上崗:在經過評測、調優、發布后,數字員工可以作為一個職場新人開始上崗;
  • 人機協同:數字員工通過人機協同工作臺和真人員工在各種日常業務流程中做不同的協同;
  • 實踐成長:再通過全鏈路的觀測、數據支撐、數據回流,讓數據員工在實踐中不斷成長,從一個職場新人進化成一個業務專家。

2025年是智能體成為企(qi)業(ye)(ye)“數字同事”、“持證上崗”的元年。作為企(qi)業(ye)(ye)的AI“數字員工派(pai)遣站”,HiAgent已幫助各式智能體在千行百業(ye)(ye)里(li)“持證上崗”,落地汽車(che)維修、招生(sheng)咨(zi)詢(xun)、投研(yan)顧問、客(ke)服導購等領域。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

結語:火山引擎的AI“朋友圈”愈發多元,加速Agent開發落地

今(jin)日的一(yi)系列發布與升級,進一(yi)步(bu)完善了(le)火(huo)山(shan)引擎AI生(sheng)態布局。火(huo)山(shan)引擎已(yi)經(jing)為企業與開發者提供了(le)從基(ji)礎模(mo)型到(dao)開發工具(ju)的全鏈條(tiao)支持(chi),加速AI在(zai)各行業的落地應用。

越來越多企業正嘗試(shi)火山引(yin)擎(qing)AI原(yuan)生的各種產品。

豆包最強AI修圖模型來了!動嘴就能精準P圖,扣子開源版上線,還搞定同聲傳譯

例如,金山辦(ban)公結合豆包大模型(xing)1.6助力AI助手靈犀升級,打造一款原生(sheng)的(de)Office辦(ban)公智能體,使其(qi)AI搜索、AI寫作等功能有更好的(de)表現,綜合成(cheng)本還下降了(le)63%,目前金山辦(ban)公WPS的(de)豆包1.6使用量(liang)已(yi)突破日(ri)均100億的(de)客戶服務。

豆包(bao)大模型1.6 Flash擁(yong)有超低延(yan)時(shi),適用于智(zhi)能(neng)(neng)巡檢(jian)、手(shou)機助手(shou)、智(zhi)能(neng)(neng)硬件等對(dui)模型效果(guo)、速度(du)和成本都要求非(fei)常高(gao)的商業產品(pin)。螢(ying)石第一(yi)時(shi)間選(xuan)擇接入豆包(bao)大模型1.6 Flash,實現降(jiang)本增效,相比之前實用的模型,延(yan)時(shi)縮(suo)短一(yi)半(ban),使用成本暴降(jiang)92.3%。

國內知名電商數字(zi)營銷(xiao)服務商蟬媽(ma)媽(ma)利用(yong)豆(dou)包·視頻生(sheng)成(cheng)(cheng)(cheng)模(mo)型,打造了新一代數字(zi)視頻生(sheng)成(cheng)(cheng)(cheng)平(ping)臺,用(yong)于企業營銷(xiao)與創意內容生(sheng)產,相比之前的視頻生(sheng)成(cheng)(cheng)(cheng)模(mo)型,在商品的主(zhu)圖生(sheng)成(cheng)(cheng)(cheng)效果、真實感和(he)視頻可用(yong)性方面都帶來明顯提升,節省超過(guo)30%的使用(yong)成(cheng)(cheng)(cheng)本。強媽(ma)媽(ma)每天通過(guo)豆(dou)包大模(mo)型生(sheng)成(cheng)(cheng)(cheng)的視頻數量已經達到數千條,很快(kuai)將(jiang)突破日均萬條。

在智能電視場(chang)景,酷(ku)開整(zheng)合了豆包(bao)大模型能力,用一句臺詞或(huo)一段劇情(qing)準確鎖定(ding)心儀的(de)影片片段,類似的(de)能力還應(ying)用在教育健康產品中(zhong)。

在游(you)(you)戲(xi)場景,巨人網絡將豆(dou)包(bao)大模(mo)型(xing)(xing)應(ying)用在游(you)(you)戲(xi)核(he)心玩法中(zhong),依托豆(dou)包(bao)模(mo)型(xing)(xing)的(de)(de)角色扮演(yan)和(he)深度思考能(neng)(neng)力(li),游(you)(you)戲(xi)中(zhong)的(de)(de)AI角色既能(neng)(neng)與(yu)玩家對話,又具備極(ji)強的(de)(de)邏輯(ji)推(tui)演(yan)能(neng)(neng)力(li),能(neng)(neng)夠制(zhi)定出縝密而有趣的(de)(de)游(you)(you)戲(xi)策(ce)略,打破傳(chuan)統人機交(jiao)互死(si)板與(yu)套路的(de)(de)模(mo)式(shi)。未(wei)來巨人網絡和(he)火山引(yin)擎(qing)將進一(yi)步深度挖掘豆(dou)包(bao)大模(mo)型(xing)(xing)的(de)(de)潛力(li),圍繞智能(neng)(neng)NPC的(de)(de)創(chuang)新展開探索。

火(huo)山引擎還在不斷迭代(dai)模型能力,為(wei)企業帶來能力更(geng)強、性價(jia)比更(geng)高(gao)的(de)模型以(yi)及更(geng)加(jia)好(hao)用的(de)服務(wu)與(yu)工(gong)具(ju),加(jia)速(su)讓AI Agent走向生產與(yu)落地(di)。