
智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影
擁有一款“鼻尖上的GPT”是一種什么體驗?
近期,杭州李未可科技公司推出了首款AI眼鏡Chat,支持用戶通過語(yu)音(yin)與(yu)眼鏡中(zhong)的智(zhi)能助手進行交互,比如答疑解(jie)惑、日(ri)程安排、語(yu)音(yin)導航、英語(yu)翻(fan)譯(yi)等,都不在話下(xia)。
同時,這款AI眼鏡背后的多模態AI大模型平臺WAKE-AI也(ye)隨之開(kai)(kai)放(fang)。據悉(xi),這(zhe)是國(guo)內首個面向AI眼鏡等(deng)可(ke)穿戴設備的大模型平臺(tai),既支持李未可(ke)科(ke)技(ji)內部團隊做(zuo)開(kai)(kai)發(fa),同時也(ye)為廣大AI開(kai)(kai)發(fa)者伙伴提(ti)供技(ji)術共享。
當下,市面上已經有豆包、Kimi等多款支持大模型語音交互的平臺,但它們大多以匹配PC、手機為主;WAKE-AI則率先切入AI眼鏡這一新形態,試圖為用戶帶來更自然的交互、更人性化的陪伴、更場景化的精準服務。
李未可科技創立于2021年10月,創立之初便聚焦“AI+AR”眼鏡賽道,公司成立僅三個月便拿下字節跳動的融資,其創始人茹憶曾是阿里AI實驗室智能終端負責人、天貓精靈硬件&產品總經理,也是這波大模(mo)型浪潮中最具代表性的創(chuang)業者之一。
▲李未可科技創始人兼CEO茹憶
當下,隨著Ai Pin、Rabbit R1等AI新硬件產品在國外嶄露頭角,掀起大模型智能終端的新風口,國內“天貓精靈之父”帶隊(dui)的新銳(rui)團隊(dui)也(ye)交(jiao)出了答卷,成為智能(neng)硬(ying)件產業關注的一個焦點。
AI智能眼鏡是否會成為一種主流的AI新硬件?面向“AI+終端”的多模態AI大模型平臺WAKE-AI有什么過人之處?通過(guo)對話李未可(ke)科技創始人(ren)兼CEO茹憶(yi)、AI首席架構師莊博宇,本文對此進行了(le)深入探討。
一、在豆包、Kimi的射程盲區,打造“鼻尖上的GPT”陪伴助手
盡管豆包、Kimi等(deng)各種(zhong)大模型App風靡(mi)手機端,但它(ta)們卻遲(chi)遲(chi)未攻入智能眼(yan)鏡等(deng)可穿戴設備。
背后的一大“攔路虎”是時延問題。莊博宇告訴智東西,用戶在眼鏡上對機器時延的容忍度比在手機上更低,1.8秒是一個容忍時間,如果超過這個時間點,用戶就會感到交互不流暢自然。然而,包括豆包等市面上的多個大模型落地眼鏡都需要5秒左右。
為此,李(li)未可科技自研(yan)了WAKE-AI大(da)模型平臺(tai),試(shi)圖為用(yong)戶打造(zao)一個隨(sui)叫隨(sui)到的(de)(de)“鼻尖上的(de)(de)GPT”陪伴(ban)助手。
據悉,該平臺專門面向可穿戴設備等終端優化研發,能在500毫秒內快速精準地識別用戶指令,且將大模型實時回答反饋控制在2秒左右,具備文本生成、語(yu)言理解、圖像(xiang)識別及視頻(pin)生成等多(duo)模態交(jiao)互(hu)能(neng)力(li)。
從體驗來說,這意味著用戶將可以在AI智能眼鏡上享受到自然流暢的AI交互,比如(ru)讓眼(yan)鏡搜索(suo)新聞、導航目的(de)地(di)或增加日(ri)程(cheng),都不會太(tai)費(fei)功夫(fu)。AI智能(neng)眼(yan)鏡可(ke)能(neng)取代手機的(de)部分(fen)功能(neng),讓用(yong)戶真(zhen)正體(ti)驗到(dao)AI融(rong)入(ru)生活(huo)。
“技術的一小步,用戶體驗的一大步。”茹憶說。從2016年3月阿爾法狗打敗李世石到2022年的12月份ChatGPT 發布,中間經歷了六年六個月時間,AI算法架構從CNN、BERT改進到Transformer,模型參數擴展帶來智能涌現,茹憶對此感到很興奮,認為這將為語音交互體驗帶來巨大提升。
與在上一波AI浪潮中押準智能音箱風口不同,這一次,茹憶認為,眼鏡將成為AI落地的最佳載體之一。這與Meta首席科學家、圖靈獎得主楊立昆的觀點不謀而合,楊立昆在前不久也曾提到:“通過智能眼鏡訪問的AI助手是未來的趨勢。”
面向這一趨勢,李未可科技近期推出的AI智能眼鏡Chat是其小試牛刀之作。
以低至699元的價格讓用戶低門檻地邁入AI體驗大門,Chat可以說非常親民。這款AI眼鏡的外形與日常佩戴的眼鏡幾乎沒有差異,但簡約卻不簡單,一個貼身陪伴助手的雛形已經出現。
二、自研WAKE-AI大模型平臺,三大技術護城河打造交互新體驗
可以預測,大模型未來將重新定義智能眼鏡等可穿戴設備。可穿戴設備將不再只是工具,而是好像有一個真人助理在用戶旁邊,或者一個虛擬人在用戶鼻尖上的眼鏡里,幫用戶解決各(ge)種復雜(za)的問(wen)題。
WAKE-AI大模型平臺推出的意義,則是(shi)將大(da)模型運用到AI硬(ying)件設備上的(de)諸多暢想落地實際(ji),不僅實現更自然的(de)交互(hu),還(huan)帶來更人(ren)性化的(de)陪伴(ban),更精準的(de)服務。
那么從技術角度來看,WAKE-AI大模型平臺究竟有什么過人之處?
據悉,李未可科技通過三種方式提(ti)升WAKE-AI大模型平(ping)臺的效果:
第一,使用定向優化的分發大模型,幫助AI助手能快速地分發用戶的指令,打造更自然的交互。
第二,基于情感大模型,使用戶和設備產生深度信任,讓AI助手形成更有溫度的陪伴。
第三,針對室外場景需要大量的數據,使用多模態的VQA(視覺問答)模型,讓用戶可以指哪問哪,獲得更精準的服務。
1、分發大模型+Agent,讓交互更自然
作為一款C端產品,AI智能眼鏡的交互體驗被李未可科技放在首位(wei)。WAKE-AI大模(mo)型平臺(tai)能提供更(geng)豐富的交互功能,同(tong)(tong)時(shi)耗時(shi)比同(tong)(tong)行更(geng)低。
莊(zhuang)博(bo)宇談(tan)道,比如當用(yong)戶(hu)與(yu)豆包語音聊天,往(wang)往(wang)需要2秒才能完成(cheng)語音交互(hu),時間主要花在語音與(yu)文本相互(hu)轉化及大(da)模型(xing)推理上。但(dan)這一交互(hu)體驗(yan)僅限于聊天,而不能執行網(wang)絡搜索、導航等(deng)更復雜的任務。
但(dan)是(shi),基于WAKE-AI大(da)模型(xing)平臺,用(yong)戶(hu)在AI智能眼(yan)鏡(jing)上調(diao)用(yong)大(da)模型(xing)的時延大(da)大(da)降低,一般對話時延控制在1.8秒左右(you)、2秒以內(nei);同時,用(yong)戶(hu)還可以體驗(yan)主(zhu)動搜索、語音導航、眼(yan)鏡(jing)操控等多樣化的功能,復雜的交(jiao)互(hu)反應也(ye)能縮短至3-5秒。
背后,李未可科技團隊使用分發大模型,通過語音輸入來快速分發用戶意圖,為用戶提供反饋;同時,大模型支持不同的AI Agent的(de)能(neng)力,能(neng)快(kuai)速執行用戶的(de)導航、買(mai)票、備(bei)忘(wang)錄等可能(neng)存(cun)在的(de)剛需意圖(tu)。
此外,團隊也在降噪技術、收音、ASR(自動語音識別)技術等方面(mian)也做了(le)大量優化(hua),從而(er)使(shi)得用(yong)戶能(neng)與智能(neng)助手(shou)更絲滑(hua)地進行交互(hu)。
2、情感大模型+超擬人TTS,讓陪伴更人性化
茹憶和莊(zhuang)博宇都(dou)提(ti)到了(le)《她》(Her)這部科幻電影(ying),片中的(de)機(ji)器人(ren)由于與(yu)主人(ren)公(gong)建立(li)了(le)情感連接,從而能進行更有深度的(de)聊天和陪(pei)伴(ban),這是李未可(ke)科技希望打造的(de)智能助手(shou)的(de)一(yi)個理(li)想形(xing)態。
基于這樣的愿景,李未可科技與市面上同行的一大差異化是做情感搭配。
為了讓AI眼鏡產品具備更擬人化的特征,李未可科技團隊一是基于情感大模型研發了長記憶系統、情感類的Agent,二是打磨了擬人化的TTS(文本轉語音)技術,以此打造用戶能夠天天使用AI智能眼鏡的核心基礎。
在情感大模型方面,對標國內外的Claude等(deng)相關模型,莊博(bo)宇及其團隊(dui)發現了一個行業(ye)核心的問題:大模型的記憶力(li)是有上限的,不利于長時(shi)間陪伴用戶。
為此,李未可科技團隊通過核心記憶和長期記憶,不斷更新用戶的畫像,從而使得智能助手在對話中能夠更充分地理解用戶想要什么,更懂用戶。
而在打造擬人化的語氣方面,目前(qian)市(shi)面上(shang)能(neng)上(shang)線情(qing)(qing)感表(biao)述的文本轉語(yu)音TTS能(neng)力(li)(li)的廠家(jia)并不(bu)多,因為它有一個(ge)延時(shi)的考量(liang),AI抽(chou)取、理解(jie)和表(biao)述會耗(hao)費大(da)量(liang)的時(shi)間,所以(yi)速(su)度上(shang)面需要優化;第二是成本上(shang)的優化,比如豆包雖(sui)然在App上(shang)能(neng)夠提供情(qing)(qing)感表(biao)達,但它并沒(mei)有把這個(ge)API能(neng)力(li)(li)開(kai)放出來(lai),智能(neng)終端廠商無法(fa)獲取。
但是(shi),李未可科技率先(xian)將超擬人TTS上(shang)線,把它(ta)輕量化到時延和(he)成本都可承受的(de)范圍,然后開(kai)放出來,供自己的(de)團隊和(he)合作伙伴使用。
3、多模態+LBS能力,讓服務更精準
多(duo)模態大模型(xing)+LBS(基于位置(zhi)的服務)會(hui)產生什么樣的化學反應?
李未可科技已經找到了驗證場景。Citywalk(城市漫步)是當下備受年輕人青睞的室外項目,多模態大模型可以讓Citywalk的人做到“指哪兒問哪兒”,比如指著岳王廟里的碑問“碑上寫的到底是什么”,一套精準的智能導覽服務就誕生了。
據悉,李未可科技已經打造了“旅游助手+城市漫游系統”,核心是數據內容,以景區作為核心供給,現在大概有2000多個景區數據。
結合這些景區數據,團隊已經打造了景點游玩導覽、自動巡航系統、地點彈幕等多(duo)個服務(wu),而(er)多(duo)模態(tai)大(da)模型的加(jia)持(chi)則讓“指哪(na)兒問哪(na)兒”、自(zi)動生成路線、自(zi)動生成游記(ji)等更多(duo)豐富功能涌(yong)現,從而(er)為用戶(hu)提供更精準(zhun)的服務(wu)。
莊博宇告訴智東西,大模型使得原本碎片化的場景走向大一統,從而使精準服務的成本大大降低。一方面(mian)(mian),WAKE-AI大模型可(ke)以(yi)更(geng)好地(di)理解(jie)和(he)消(xiao)化海(hai)量(liang)的景區數據,另一方面(mian)(mian),Agent可(ke)以(yi)對(dui)數據進行更(geng)加自動化地(di)處理,這使(shi)得團隊能夠(gou)在精準度和(he)信息數量(liang)基(ji)礎(chu)上提供更(geng)好的服務。
可以看到,通過從模型了解意圖、搜索資料、轉化風格、分析情緒、轉化聲音的(de)各(ge)個環節(jie)去做優化,李(li)未(wei)可科技試(shi)圖打造交(jiao)互更自然(ran)、陪伴更人性化和服(fu)務更精(jing)準的(de)AI眼鏡設備,從而交(jiao)出其大模型應用創(chuang)業的(de)“答卷”。
三、Meta蘋果看中的新賽道,“天貓精靈之父”帶領國產搶跑
當下,已經有不少大廠盯上了“AI+AR”眼鏡賽道。比如Meta與雷朋合作的AI智能眼鏡已經在測試多模態大模型,并在近期宣布將推出首副“AI+AR”眼鏡;蘋果近期也傳出正研究端側大模型(xing),可能將落(luo)地(di)Vision Pro……
與此同時,也有一些知名企業似乎在抽火。比如近期OPPO被傳出了(le)暫停(ting)XR探索,相關人員將轉向(xiang)AI設(she)備(bei)方向(xiang)的(de)開發,或許意味著其(qi)“AI+XR”眼鏡業務(wu)踩下了(le)剎車(che)。
對此,茹憶(yi)認(ren)為這是由(you)于(yu)產業發展仍處于(yu)初級階段,大家還未形成(cheng)共識。這就(jiu)考驗創業者對事情的(de)認(ren)知,以及如(ru)何與自(zi)身優(you)勢做結(jie)合。
站在李未可科技的角度來看,“AI+AR”眼鏡的發展已經處于一個臨界點,即將突破用戶體驗差,為(wei)此團隊進行了積極(ji)布(bu)局(ju)。
李未可科技打法的一大特點是不強行創造出一種產品形態,而是在已存在的產品上進行AI升級,從而在存量市場基礎上拓展出新的增量市場。根據知名數據分析機構Statista數據,2023年全球眼鏡市場總規模超1400億美元,2015-2025年全球眼鏡市場規模從1183 億美元提升至1552億美元。
“未來我們的眼鏡都會智能化,就像手表智能化一樣。”茹憶說,“它的標志是體驗成本大大降低,用戶買一副AI智能眼鏡和買一副傳統眼鏡價格也差不多,那為什么不買一個AI智能眼鏡?現在(zai)手(shou)表就是這樣。”
AI智能眼鏡市場的發展壯大需要生態共融。目前,李未可(ke)科技已經將WAKE-AI大模型平(ping)臺面向伙伴開放,與伙伴一起來建設(she)AR眼鏡+AI能力(li)、在(zai)室外等多個場(chang)景的生態。
結語:大模型卷入設備端,AI智能眼鏡或成室外最佳載體
當下,大(da)模型加(jia)速(su)落(luo)地端側,我們可以看(kan)到AI PC、AI手機、AI智(zhi)能(neng)眼(yan)鏡(jing)(jing)以及各(ge)色(se)的AI新硬件如雨后(hou)春筍般(ban)冒了(le)出來。憑借(jie)便(bian)攜、可擴展(zhan)等多重優勢,眼(yan)鏡(jing)(jing)或許(xu)成(cheng)為大(da)模型在室外(wai)落(luo)地的一大(da)最佳載(zai)體。
現(xian)階段大模(mo)(mo)型(xing)在端側落地應用仍處于初級階段。可(ke)以(yi)預(yu)測,未(wei)來云(yun)邊端異構架構將(jiang)發展得更加(jia)龐雜,同時多模(mo)(mo)態交(jiao)互變得更加(jia)豐富(fu),這(zhe)對速度、性能和成本的(de)平衡會提出(chu)新的(de)要(yao)求,也將(jiang)成為AI硬件賽道(dao)玩(wan)家需(xu)要(yao)直面的(de)新挑戰。