智東西(公眾號:zhidxcom)
編輯 | 云鵬

智(zhi)(zhi)(zhi)東西5月12日(ri)報(bao)道(dao),近日(ri),由智(zhi)(zhi)(zhi)一(yi)(yi)科技(ji)旗下智(zhi)(zhi)(zhi)能(neng)產業(ye)第一(yi)(yi)媒(mei)體智(zhi)(zhi)(zhi)東西與AWE共同主辦的GTIC 2023全球AIoT智(zhi)(zhi)(zhi)能(neng)家(jia)居(ju)峰會正(zheng)式(shi)在上海舉(ju)辦,13位重磅嘉賓帶(dai)來了(le)(le)10場精(jing)彩演講,全景式(shi)解構(gou)了(le)(le)新一(yi)(yi)輪家(jia)庭智(zhi)(zhi)(zhi)能(neng)化變革(ge)。

峰會以(yi)“互(hu)聯新世界 智(zhi)能(neng)新未(wei)來”為主題,圍繞智(zhi)能(neng)家居產(chan)業(ye)近(jin)期熱點大模(mo)型ChatGPT和智(zhi)能(neng)家居行(xing)業(ye)新標(biao)準(zhun)Matter1.0的(de)落地、全屋智(zhi)能(neng)、家電智(zhi)能(neng)化(hua)三大熱門話題進(jin)行(xing)深入探討。

當(dang)下(xia),以ChatGPT為(wei)代表的(de)AI大模型技術正(zheng)從(cong)交互、內容(rong)分發、文本理(li)解等多方面(mian)影響智(zhi)能(neng)家居產業(ye)發展,用(yong)戶可以獲得更加定制化(hua)的(de)個人體驗。個性化(hua)的(de)全屋智(zhi)能(neng)改(gai)造風潮走進(jin)消費者(zhe)群體,全屋智(zhi)能(neng)賽道玩家們逐(zhu)漸從(cong)以空間為(wei)主(zhu)轉向以人為(wei)主(zhu)的(de)場景化(hua)智(zhi)能(neng)家居生態建(jian)設。智(zhi)能(neng)家居單品,也(ye)正(zheng)在圍繞不同的(de)應用(yong)困境(jing),做出新的(de)升(sheng)級(ji)。

在本次(ci)峰會上,聆思科(ke)技(ji)副(fu)總裁徐燕(yan)松(song)圍繞(rao)《生成式大模(mo)型潮流下(xia),智能家居端側智能化的未來》進行了主題演講(jiang)。隨著AIGC等新(xin)一(yi)代云(yun)端技(ji)術的突破,如何給(gei)市場提供更好(hao)體驗、更高效率、更高性價比的端+云(yun)智能化解決方案,讓用(yong)戶(hu)使(shi)用(yong)智能家居更便捷,成為產業鏈上下(xia)游共(gong)同探討的話題。

以下為徐燕松演講實錄整理:

我(wo)今天分享(xiang)一下(xia)聆思對于“在深度(du)式大模型的(de)潮(chao)流下(xia),端側智能家(jia)居(ju)應該有哪(na)些改(gai)變和變化”這(zhe)一問題的(de)一些深入思考(kao)。

一、從芯片、解決方案到一站式平臺,用一攬子方案,完成設備智能化升級

聆思(si)科技是(shi)一(yi)家(jia)是(shi)基于(yu)智(zhi)能涌現時(shi)代的(de)賦能者,整個聆思(si)有(you)四大(da)塊業務,一(yi)塊是(shi)AI芯(xin)片(pian),另一(yi)塊是(shi)IoT芯(xin)片(pian)。只有(you)芯(xin)片(pian)大(da)家(jia)用不起(qi)來,所以我(wo)們(men)有(you)對應的(de)解決方(fang)案,圍繞(rao)解決方(fang)案我(wo)們(men)會有(you)研(yan)、測、產、制的(de)工具(ju)平臺。

聆思科技徐燕松:生成式大模型潮流下,智能家居端側智能化涌現變革

AI芯(xin)片需要與算(suan)法強耦(ou)合(he)(he)。我們經常可以看到(dao)傳統的芯(xin)片公(gong)司和(he)(he)AI芯(xin)片公(gong)司,最重要的是(shi)芯(xin)片和(he)(he)算(suan)法的耦(ou)合(he)(he)度,能(neng)不(bu)能(neng)做到(dao)極致的成(cheng)本和(he)(he)算(suan)力“剛(gang)(gang)(gang)剛(gang)(gang)(gang)好”,算(suan)力的剛(gang)(gang)(gang)剛(gang)(gang)(gang)好和(he)(he)成(cheng)本的剛(gang)(gang)(gang)剛(gang)(gang)(gang)好平衡。

第二(er),AI芯片(pian)(pian)(pian)因(yin)為是連(lian)接芯片(pian)(pian)(pian),一定要做(zuo)端云一體(ti),設備(bei)在線智能的(de)連(lian)接器,如果沒有連(lian)接芯片(pian)(pian)(pian),大模型在云端上是沒有機會落地的(de)。

第三是解(jie)決方案,我們可(ke)以看到云端有服務,我們端側需(xu)要有配套的一攬子解(jie)決方案,需(xu)要有符合不(bu)同場(chang)景(jing)的算法和芯片(pian)的耦合,如果不(bu)是耦合狀態(tai)的垂類方案,這個行業很難復制(zhi)。

我們經常跟客(ke)戶聊,他說“你把音箱那個(ge)東西給我就(jiu)行了,把空(kong)調那個(ge)東西裝我這上面就(jiu)行了。”實際上幾乎是走不通的,每一(yi)個(ge)不同垂(chui)直品類功(gong)能和場(chang)景化注定(ding)需要單獨的解決(jue)方案(an)。

第四(si),能研出(chu)來,不(bu)一定能產得(de)出(chu)來。比如我們見過的某(mou)些客戶里,生(sheng)產5萬臺語(yu)音設備,需要人在產線上(shang)“喊(han)”5萬臺,來驗證整機語(yu)音到底能不(bu)能用。

我們(men)認為能(neng)研還要(yao)能(neng)產,這是工業(ye)化最標準需要(yao)解決(jue)的問題。我們(men)有一套工具平(ping)臺,包(bao)含研、制、產、測,這套一攬子方案全部(bu)打包(bao)在(zai)一起,從AI芯片到(dao)loT到(dao)解決(jue)方案再(zai)到(dao)研測產制平(ping)臺,交到(dao)客戶的手里,才(cai)能(neng)把(ba)一個設備從不智能(neng)升(sheng)級為智能(neng)。

二、場景是AI能力與芯片耦合方案的試金石

我們經常在(zai)內部說語音是(shi)“玄學”,我們舉一(yi)個掃(sao)(sao)地機器(qi)人的(de)(de)例子(zi),機器(qi)的(de)(de)制(zhi)噪很高,掃(sao)(sao)地毯、掃(sao)(sao)地板、掃(sao)(sao)地磚,看似都(dou)是(shi)掃(sao)(sao)地,但是(shi)從聲音的(de)(de)角度來看、從設備的(de)(de)角度來是(shi)看完全不同的(de)(de),進入到床(chuang)底(di)下(xia)(xia)、桌子(zi)底(di)下(xia)(xia)的(de)(de)混響也是(shi)不同的(de)(de),這(zhe)些(xie)不同意味(wei)著你(ni)有(you)沒有(you)可用的(de)(de)跟(gen)場景可耦合的(de)(de)解決方(fang)案賦能到設備中去。

聆思科技徐燕松:生成式大模型潮流下,智能家居端側智能化涌現變革

圍繞(rao)著場景需要的(de)(de)是AI能力,從基礎的(de)(de)研(yan)發平(ping)臺(tai)到系統級的(de)(de)SDK,到功能性的(de)(de)SDK,到算法的(de)(de)SDK,必須做耦合,耦合后呈(cheng)現出來的(de)(de)是語音交互的(de)(de)解(jie)決方案(an)、音頻(pin)的(de)(de)解(jie)決方案(an)、降噪的(de)(de)解(jie)決方案(an)、視覺的(de)(de)解(jie)決方案(an)、教育(yu)電子解(jie)決方案(an),包括音視頻(pin)融合多模態的(de)(de)解(jie)決方案(an)。

這些解決(jue)方(fang)案(an)(an)再(zai)繼續(xu)生長,生長到每一(yi)(yi)個垂直(zhi)產品和垂直(zhi)領域里的(de)(de)垂類(lei)方(fang)案(an)(an)。聆思一(yi)(yi)直(zhi)在做(zuo)的(de)(de)是解決(jue)方(fang)案(an)(an)工廠,這個工廠是賦能給行業和我們合作伙伴(ban)的(de)(de)。

我們有幾(ji)個核(he)心的觀點(dian):第一,有不等于可(ke)用(yong);第二(er),可(ke)用(yong)不等于好用(yong);第三,好用(yong)不等于易(yi)用(yong)。

只有(you)易用(yong)客戶才會買單,否則沒有(you)人買單。我們一直(zhi)認為我們要從有(you)到可(ke)用(yong),一直(zhi)到易用(yong),都做到前沿技術的持續引領,所以我們也落地(di)了(le)很(hen)多場(chang)景。

聆思科技徐燕松:生成式大模型潮流下,智能家居端側智能化涌現變革

三、ChatGPT智能涌現,實現七大智能維度突破,帶來六大重要變革

我(wo)(wo)們(men)一直在(zai)(zai)討論,“沒(mei)有(you)成功(gong)的企(qi)業(ye),只有(you)時代的企(qi)業(ye)”。剛(gang)才主持(chi)人(ren)和徐東生(sheng)副(fu)理事長說(shuo)了(le),現(xian)在(zai)(zai)家(jia)電已經有(you)了(le)很大的變革,大家(jia)都在(zai)(zai)討論大模型(xing)。我(wo)(wo)上一周(zhou)到深(shen)圳(zhen)參加深(shen)圳(zhen)灣的創(chuang)業(ye)會(hui),突然(ran)發現(xian)從大工廠、大企(qi)業(ye)研發到小工廠都在(zai)(zai)討論一個問題:“GPT能幫(bang)我(wo)(wo)干嘛?”我(wo)(wo)真的覺得是全面GPT的感(gan)覺,連續開(kai)了(le)三個論壇、兩個會(hui),大家(jia)都在(zai)(zai)談這(zhe)個事兒(er),茶余飯后(hou)不(bu)談這(zhe)個事兒(er)我(wo)(wo)可能就(jiu)“OUT”了(le)。

大(da)模型時(shi)代帶(dai)來了很多(duo)驚(jing)艷的東西,確實(shi)帶(dai)來了智能(neng)涌現。首先我們認為(wei)對話式AI帶(dai)來了很大(da)的躍升;第二,圖像輸入(ru)的時(shi)候多(duo)模態的統一語義(yi)理解能(neng)力持續上升,甚至已經到了可用(yong)和易用(yong)的狀態了。

聆思科技徐燕松:生成式大模型潮流下,智能家居端側智能化涌現變革

給端(duan)側、設備(bei)和合(he)作伙伴帶來什么?我們(men)看到有(you)7個方面重大突(tu)破:

第一,海量(liang)信(xin)息參(can)數化全(quan)量(liang)記憶(yi);第二(er),任意任務的對話式理(li)解(jie);第三,復雜邏輯思維鏈(lian)推(tui)理(li);第四,多角色(se)、多風格長文本的生成。

前面跟很多嘉(jia)賓聊的時候說到(dao),內部的小朋友(you)說GPT大模型(xing)是(shi)一(yi)個(ge)話癆,它(ta)每(mei)次都回答我(wo)(wo)那么多,當然我(wo)(wo)們會(hui)對它(ta)進(jin)行優化,讓它(ta)有(you)一(yi)個(ge)更(geng)合(he)理、更(geng)精準的反饋。

第五(wu),即(ji)時交(jiao)互(hu)的(de)(de)修(xiu)(xiu)正能力(li)會支(zhi)持進(jin)化(hua)。我們(men)經常會跟他說:“你(ni)說的(de)(de)不對,你(ni)重新想一下,上(shang)網(wang)上(shang)重新搜一下。”它會給(gei)你(ni)一個新的(de)(de)答案,具備即(ji)時交(jiao)互(hu)的(de)(de)修(xiu)(xiu)正能力(li)。

第六,程序代碼(ma)自動生成(cheng)。我們(men)做過很(hen)多(duo)測試,在(zai)安卓的平臺上,我們(men)希望遷移(yi)到(dao)Linux,把規則告訴它,它可以自己做很(hen)多(duo)代碼(ma)生成(cheng)。第七(qi),輸入(ru)圖像的語義層理解。

大模型(xing)能(neng)給產(chan)業帶(dai)來什么?第一(yi),是(shi)全面(mian)升級的(de)人(ren)機交互。聆思的(de)愿景是(shi)讓所有設備能(neng)聽會說,這(zhe)是(shi)我們成立之初的(de)愿景。讓所有設備能(neng)聽會說,首(shou)先需要有精準的(de)、更好(hao)的(de)人(ren)機交互方式(shi),大模型(xing)給這(zhe)個產(chan)業帶(dai)來重(zhong)大的(de)變革。

聆思科技徐燕松:生成式大模型潮流下,智能家居端側智能化涌現變革

第二,革(ge)新內容(rong)生(sheng)成和內容(rong)生(sheng)產方式。大家在各個(ge)演示中看到了,也(ye)體驗到了。還(huan)有改變信息分(fen)發(fa)(fa)的(de)各種獲取方式、虛擬世(shi)界和現(xian)實(shi)民(min)生(sheng)的(de)一些結合(he)、用AI做醫療,做很多分(fen)子陣列的(de)測算(suan)。最后(hou),我們會促進開發(fa)(fa)者生(sheng)態的(de)發(fa)(fa)展,因為(wei)這是一個(ge)共(gong)創的(de)過程(cheng)。

四、基于大模型的新一代多模態人機交互

當大模(mo)型給(gei)這(zhe)個產業帶來重(zhong)大發展(zhan)變革(ge)和(he)機(ji)遇(yu)的時候,聆思也在想如何給(gei)合(he)作伙(huo)伴(ban)提供(gong)大模(mo)型新(xin)一代人(ren)機(ji)交(jiao)互(hu)的解決方(fang)案(an)。這(zhe)是(shi)我們給(gei)很多合(he)作伙(huo)伴(ban)提供(gong)的大模(mo)型新(xin)一代的多模(mo)態人(ren)機(ji)交(jiao)互(hu)框架,把(ba)多模(mo)的識(shi)別,或(huo)者語音、圖(tu)像、視(shi)覺包含其(qi)他,會有輸入,我們同時有大模(mo)型交(jiao)互(hu)里非(fei)常核心的提示功能。

聆思科技徐燕松:生成式大模型潮流下,智能家居端側智能化涌現變革

我(wo)們(men)自己內部討論一件事情,大(da)模(mo)型用(yong)得(de)好不(bu)好,先是你問(wen)題(ti)問(wen)得(de)好不(bu)好,如果你問(wen)得(de)好、越(yue)精準(zhun),模(mo)型的反饋越(yue)精準(zhun),所以(yi)我(wo)們(men)叫做“提示工程”。

另外,我們把很多傳統的AI能力,比如翻譯(yi)、多語(yu)種、變(bian)聲(sheng),傳統的AI能力和內(nei)(nei)容(rong)的信源打包(bao),打包(bao)完(wan)后有(you)類似虛(xu)擬(ni)的中(zhong)樞大(da)腦,基于大(da)模型業務的服務調動和內(nei)(nei)容(rong)分發(fa)融合,最后在端(duan)側有(you)輸出(chu)層(ceng),端(duan)側輸出(chu)層(ceng)可(ke)以看到有(you)語(yu)音合成(cheng)、虛(xu)擬(ni)形象、圖像合成(cheng)、視頻合成(cheng),這(zhe)是聆思基于大(da)模型的端(duan)側給所有(you)端(duan)賦能的內(nei)(nei)容(rong)和賦能的方向(xiang)。

基(ji)于大(da)模(mo)型多模(mo)態(tai)人機交互,我們認為(wei)有(you)五點可以明確讓(rang)大(da)家(jia)拿來(lai)用(yong)的。

聆思科技徐燕松:生成式大模型潮流下,智能家居端側智能化涌現變革

第(di)一(yi),多輪(lun)對話的(de)貫穿(chuan)能(neng)力(li)。很多傳統設備,我們(men)經常說容易(yi)“把天聊死”,現在大(da)模型的(de)多輪(lun)對話的(de)貫穿(chuan)能(neng)力(li)可以(yi)進行意圖識別,滿足(zu)客戶的(de)需求。

第二(er),知冷暖的(de)(de)共情閑聊對話能(neng)力。我(wo)們(men)曾經討論一個場景(jing),未來老(lao)人的(de)(de)陪(pei)(pei)伴(ban)(ban)和陪(pei)(pei)護,誰(shui)陪(pei)(pei)空巢老(lao)人聊天,誰(shui)提醒他吃(chi)飯、吃(chi)藥(yao),誰(shui)去情感化、擬人化的(de)(de)思路或者交互方式去陪(pei)(pei)伴(ban)(ban)他,誰(shui)去呵(he)護和關懷,這里面是(shi)有溫(wen)度(du)的(de)(de),而且(qie)我(wo)們(men)認為意圖判斷(duan)的(de)(de)時候會(hui)把(ba)情感識別放到里面。

第三,基于(yu)文檔的(de)新知(zhi)識快速學(xue)習(xi)能力。比(bi)如(ru)一個烤箱的(de)說(shuo)(shuo)明書,一個新的(de)設備怎么用,把(ba)說(shuo)(shuo)明書給它(ta),你(ni)可以問它(ta)怎么用,比(bi)如(ru)這個烤箱怎么用,怎么按鍵。

第四,無(wu)所不知的應(ying)用能力(li)。從提問人的角色和關系角度理解分析(xi)問題。比如,今(jin)天(tian)提醒我要吃(chi)二甲雙胍,我今(jin)天(tian)還不太舒(shu)服要吃(chi)另(ling)外一個(ge)(ge)藥,但是這兩個(ge)(ge)藥互斥,機(ji)器可以告訴(su)你。

第五,基于海(hai)量用戶(hu)的(de)修正意(yi)見(jian)的(de)進(jin)化能力。可以不斷(duan)地進(jin)化,比(bi)如我(wo)(wo)想打開空調(diao),每次(ci)我(wo)(wo)最舒(shu)服(fu)的(de)溫(wen)度(du)(du)是23度(du)(du),我(wo)(wo)以后(hou)再打開空調(diao)就(jiu)給(gei)我(wo)(wo)調(diao)23度(du)(du),這是我(wo)(wo)的(de)要求,告訴它每次(ci)自(zi)動設定(ding),適合我(wo)(wo)的(de)溫(wen)度(du)(du),這種不斷(duan)修正客戶(hu)意(yi)見(jian)的(de)進(jin)化能力。

基于大(da)模(mo)型(xing)可以看到,傳統的智能家(jia)居里控制(zhi)的時候是人設(she)定模(mo)式,今天(tian)已經(jing)有(you)了訪客模(mo)式、回(hui)家(jia)模(mo)式、就餐模(mo)式,我(wo)們有(you)一個APP,大(da)家(jia)在里面(mian)設(she)置,有(you)多少設(she)備,有(you)燈、空(kong)調、冰箱、照明、應急設(she)備,設(she)立一個模(mo)式以后(hou)說你幫我(wo)啟動(dong)一個模(mo)式,這是傳統的,未(wei)來(lai)不是這樣(yang)的。

這(zhe)是我(wo)們(men)做的(de)測試,給(gei)我(wo)一(yi)個(ge)熱帶(dai)雨(yu)林(lin)的(de)感(gan)覺,這(zhe)是很模(mo)糊的(de)模(mo)式,它知道我(wo)有什(shen)(shen)(shen)么設備(bei),自己去安排,熱帶(dai)雨(yu)林(lin)是什(shen)(shen)(shen)么樣(yang)子,它理解的(de)是什(shen)(shen)(shen)么樣(yang)子,比如說(shuo)冰雪(xue)世界,我(wo)應該(gai)穿什(shen)(shen)(shen)么樣(yang)的(de)衣服,今天股票怎樣(yang),明天會下雨(yu)嗎,我(wo)今天心情(qing)不好,你跟我(wo)聊(liao)天,這(zhe)些(xie)東西都是可以呈現的(de)。

有兩個(ge)核心的點,第一是個(ge)性化的提升工(gong)程(cheng)設計,該如(ru)何交付提示功能設置。第二(er)是針對提示工(gong)程(cheng)生成最佳的結果(guo),比較寬泛。后面有一個(ge)視(shi)(shi)頻(pin),也是我們在AWE現(xian)場(chang)搭建(jian)的一個(ge)視(shi)(shi)頻(pin),大家可以在現(xian)場(chang)看到、體驗到、可以玩的。

聆思科技徐燕松:生成式大模型潮流下,智能家居端側智能化涌現變革

所以我(wo)們認為新一(yi)代(dai)大模型會改變5件事(shi)情:第(di)一(yi),家庭(ting)信息充(chong)分(fen)掌握和利用越(yue)來越(yue)重要;第(di)二,無所不(bu)至的(de)小(xiao)助(zhu)理一(yi)定會出現(xian);第(di)三(san),專(zhuan)業(ye)家庭(ting)智慧管家未來會在我(wo)們生活中(zhong)必然出現(xian);第(di)四,優秀結果(guo)的(de)最佳(jia)呈(cheng)現(xian),無論是(shi)語音、圖(tu)像等呈(cheng)現(xian)方式一(yi)定會有最佳(jia)的(de)表現(xian);第(di)五,不(bu)同功(gong)能(neng)區凸顯專(zhuan)項智能(neng),大模型是(shi)通用能(neng)力,在專(zhuan)項智能(neng)上(shang)大家才最希望(wang)看到(dao)的(de)。

聆思科技徐燕松:生成式大模型潮流下,智能家居端側智能化涌現變革

下面有一個(ge)視(shi)頻,大家(jia)可以看一下(播放視(shi)頻)。剛才視(shi)頻里(li)(li)我(wo)(wo)們(men)應(ying)用(yong)了(le)幾個(ge)部分:第一是(shi)端(duan)側變化,我(wo)(wo)們(men)可以看到應(ying)用(yong)了(le)女生的(de)虛擬形象(xiang),每一句話的(de)時候口型和字是(shi)對在(zai)一起(qi)的(de),包(bao)括會有一些動作和肢體的(de)虛擬形象(xiang)。第二(er)是(shi)Smart TTS,這里(li)(li)面是(shi)一個(ge)常規的(de)女生形象(xiang),我(wo)(wo)們(men)可以基于不(bu)同(tong)(tong)的(de)形象(xiang)和不(bu)同(tong)(tong)情(qing)緒有不(bu)同(tong)(tong)的(de)聲音變化。第三(san)是(shi)大模型做了(le)很多的(de)理解、認知(zhi)和推理。

我(wo)們在(zai)展館(guan)W3館(guan)有針對客戶定向邀約體(ti)驗(yan)(yan)的一(yi)套(tao)(tao)系統(tong),大家可(ke)(ke)以去我(wo)們展館(guan),親自(zi)體(ti)驗(yan)(yan)這一(yi)套(tao)(tao)設備(bei),我(wo)們接了空調、燈(deng)、風扇、音箱這幾(ji)個產品,大家可(ke)(ke)以去現(xian)場模擬體(ti)驗(yan)(yan),問了很(hen)多開放性問題,也(ye)很(hen)有意(yi)思。

以(yi)上是徐燕松演講內(nei)容的(de)完整整理(li)。