
芯東西(公眾號:aichip001)
編輯 | 心緣
GTIC 2020全球AI芯(xin)片(pian)創(chuang)新峰會(hui)剛剛在北京圓(yuan)滿收官!在這場全天座(zuo)無虛席、全網直播觀看人數逾150萬次的(de)高規格AI芯(xin)片(pian)產業(ye)峰會(hui)上(shang),19位產學界(jie)重(zhong)磅嘉賓從(cong)不同維度分享了對中國AI芯(xin)片(pian)自主創(chuang)新和(he)應(ying)用落地的(de)觀察與(yu)預(yu)判。
在峰(feng)會(hui)下午(wu)場,光子算數創始人(ren)兼CEO白冰以《AI芯(xin)片的另一條路:光子芯(xin)片》為主題發(fa)表(biao)演講。
▲光子(zi)算數創始人兼(jian)CEO白冰(bing)
光(guang)子算數(shu)是國內少有的光(guang)子AI芯(xin)片(pian)賽道(dao)玩家。在(zai)演講中,光(guang)子算數(shu)CEO白冰主(zhu)要探討了光(guang)學芯(xin)片(pian)的工程(cheng)化進展、市場定位及目標客戶、具(ju)體研(yan)發實施路徑及相(xiang)關適配算法等話題。
白冰提到,當前(qian)光學AI芯(xin)片仍(reng)處于較早期階段,光子(zi)算(suan)數已(yi)做(zuo)出測試級產品,于今年交予部分服務器廠(chang)商客戶進(jin)行測試。
以下為白冰演講實錄整理:
一、光學芯片工程化進展,已至測試階段
與(yu)常規數字(zi)芯(xin)片(pian)(pian)不同,白冰所創立(li)的(de)光(guang)子算(suan)數,采取了(le)另外(wai)一條(tiao)技術路線——光(guang)子芯(xin)片(pian)(pian)。
白冰(bing)說,用光學做計算處(chu)(chu)于比較早期的階段。目前光子(zi)算數團隊已將(jiang)其(qi)做成測(ce)試級(ji)的產品,并于今年放(fang)至服務器廠(chang)商(shang)客戶(hu)處(chu)(chu)進行測(ce)試。
作(zuo)為一家初創公司,光子算(suan)數和大學、研究所等(deng)幾(ji)(ji)家單位共同(tong)工作(zuo)。其早(zao)期(qi)樣片集成了幾(ji)(ji)百個(ge)(ge)不同(tong)的(de)光學單元,比如有電光轉(zhuan)換,把電信號(hao)加載到(dao)光載波(bo),然后通(tong)過傳播(bo)到(dao)片內的(de)光學組合(he),完成一些特定的(de)函數變換。跟傳統的(de)計算(suan)特征不同(tong),它不是面(mian)向(xiang)加減乘除,而是直接完成一個(ge)(ge)復雜的(de)變化(hua)過程(cheng)。
這被(bei)稱(cheng)為可(ke)編(bian)程光子陣列芯片FPPGA(Field Programmable Photonic Gate Arrays),其(qi)中(zhong)的(de)光學單元可(ke)以(yi)通過電控,控制(zhi)重(zhong)新的(de)連(lian)接組合(he)方(fang)式(shi),實現不同的(de)復(fu)雜函數。也就是說,FPPGA具(ju)有(you)可(ke)重(zhong)構的(de)特性。
光學芯(xin)(xin)片加(jia)速(su)的不是完(wan)整算(suan)法,和所有的數(shu)(shu)字芯(xin)(xin)片一樣,光學芯(xin)(xin)片面向復雜函數(shu)(shu)做加(jia)速(su)計算(suan),其計算(suan)對象是特定算(suan)子。光的劣(lie)勢在(zai)(zai)于不是特別靈活,但是在(zai)(zai)某些函數(shu)(shu)上(shang)有優勢。
整個系(xi)(xi)統(tong)是光(guang)電(dian)(dian)(dian)混合的(de),數據在光(guang)電(dian)(dian)(dian)兩部分(fen)中完(wan)成(cheng)一個流(liu)動(dong),執行一個完(wan)整的(de)計算過程,由光(guang)學、電(dian)(dian)(dian)學芯片組構成(cheng)光(guang)電(dian)(dian)(dian)混合AI計算硬件(jian)系(xi)(xi)統(tong)。
光(guang)電(dian)混(hun)合(he)系統仍(reng)要做到軟硬協同,開發適(shi)合(he)光(guang)學(xue)加速的算法,使得(de)光(guang)電(dian)混(hun)合(he)系統的硬件物(wu)理(li)架(jia)構與算法的運算/訪存(cun)特征相匹配。
從(cong)技術架構圖可以看到(dao),左邊是電學(xue)部分(fen),包含邏輯控制、緩存等,以及專用(yong)的(de)定制化IP。考慮(lv)到(dao)與(yu)光學(xue)芯片(pian)(pian)匹配(pei),這些IP與(yu)傳統的(de)數字IP不一(yi)(yi)樣(yang),需要定制化開發;右(you)邊是光學(xue)模組,除(chu)了光學(xue)計算芯片(pian)(pian)外,還(huan)有一(yi)(yi)顆(ke)DFB激(ji)光器芯片(pian)(pian),還(huan)有驅動、TIA以及小型的(de)控制、電源芯片(pian)(pian)等組件。
中間采用熱插拔的方式,跟通信模塊一(yi)樣。之所(suo)以(yi)選擇這一(yi)方式,是因為光(guang)子算(suan)數團(tuan)隊考(kao)慮到(dao)光(guang)芯片、電芯片放到(dao)一(yi)起(qi),可能賣不出(chu)去(qu),因為很難(nan)拼得過GPU,考(kao)慮到(dao)其(qi)產品定位,因此做(zuo)成插拔型。
光子算(suan)數與高校一起打造了(le)面向服務(wu)器的光電混(hun)合AI加速(su)計算(suan)卡(ka),目(mu)前已完成一些定制化(hua)加速(su)任務(wu),包(bao)括機器學習推理、時間序列分(fen)(fen)析等特(te)定任務(wu)。白(bai)冰說,計算(suan)卡(ka)現在的性能(neng)可用(yong),不過還比較初步(bu),能(neng)做到36路1080P視頻同步(bu)處理,功耗不到70W,算(suan)力(li)資源(yuan)相對有限,混(hun)合精(jing)度下峰(feng)值算(suan)力(li)接(jie)近20TOPS,光部(bu)分(fen)(fen)為(wei)低(di)精(jing)度,電部(bu)分(fen)(fen)為(wei)高精(jing)度。
計算卡封裝(zhuang)有(you)光子(zi)協(xie)處(chu)理(li)引擎模(mo)塊,散熱(re)器、驅動、控制器、TIA、一些計算控制部分和(he)賽靈(ling)思(si)FPGA芯(xin)片,數據在光電之間形成(cheng)循環(huan)流(liu)動。光的(de)定(ding)位(wei)為電做協(xie)處(chu)理(li)加速。
其(qi)中光子(zi)(zi)協(xie)處理(li)引擎模(mo)(mo)塊(kuai)用的是兩(liang)個QSFP28的光通信(xin)接口(每個都是100GB/s),光通信(xin)物理(li)接口非常(chang)成熟(shu),其(qi)光學帶寬(kuan)大約達200GB/s,典型功耗達7W,算(suan)力在(zai)1.2TOPS左右。該模(mo)(mo)塊(kuai)支(zhi)持熱插拔,不(bu)需要經過預調(diao),內(nei)部封裝(zhuang)了一(yi)(yi)些適合于用光學做的特(te)殊的算(suan)子(zi)(zi)函數,比如隨(sui)機投影、高維空間變換(huan)映射、壓(ya)縮、小規模(mo)(mo)卷積、時間序列(lie)等高算(suan)子(zi)(zi)。現在(zai)該模(mo)(mo)塊(kuai)還比較初步,白(bai)冰透露道,下一(yi)(yi)階段,光子(zi)(zi)算(suan)數會進一(yi)(yi)步擴大其(qi)規模(mo)(mo)。
光子協處理引擎模塊里面是(shi)兩(liang)層結構,上面是(shi)控制(zhi)模組(zu),其(qi)二級控制(zhi)緩存處理隨時可(ke)以(yi)(yi)(yi)換,以(yi)(yi)(yi)適應下一步軟件迭代;下面是(shi)光學運算(suan)模組(zu),包含整個光學計算(suan)部(bu)分,其(qi)中集成了(le)大量(liang)的光學單元(yuan),為了(le)一些特(te)定的函數,可(ke)以(yi)(yi)(yi)做低(di)延(yan)時、低(di)能耗的變換過程。
完整(zheng)計算(suan)過(guo)程是FPGA接收的數據(ju)從電接口進(jin)來,經過(guo)驅動放大,驅動光(guang)芯片上的調優(you)器,把信(xin)(xin)號再返到(dao)光(guang)上,經過(guo)片內(nei)傳輸完成(cheng)變換(huan),然后再變成(cheng)電信(xin)(xin)號返回。
目前光子算(suan)數已將一些(xie)光電混合AI加速計算(suan)服務(wu)器(qi)提供給機房和(he)IDC試用與(yu)測試,接口是標(biao)準的PCIe口。此外,其服務(wu)器(qi)也與(yu)一些(xie)國產操作系(xi)統和(he)CPU廠商做(zuo)了(le)適配(pei)。
白冰坦言,該服(fu)務(wu)器目前性能仍(reng)較有限,70W運行功耗下(xia),大概能做三四十(shi)路的視頻同步處理,跟(gen)純(chun)電比(bi)沒有那么強。
下一步(bu)(bu),他們考慮將光的部分帶寬擴大,進一步(bu)(bu)提升算力(li)。當(dang)前在(zai)光通信領域,100GB/s是主(zhu)流,200GB/s比較少,400GB/s、800GB/s主(zhu)要(yao)有一些大廠在(zai)做,目前還沒推出(chu)產品。盡(jin)管做這塊成(cheng)本較高(gao),但(dan)這是比較切實(shi)可行的已有方案。
二、熱插拔式模塊,可由大廠軟件調用
接著白冰談到第二個(ge)話題,光學(xue)芯(xin)片(pian)的產品定位(wei),即這個(ge)東西做完之后,賣給誰?
如(ru)果想在(zai)云端(duan)替代NVIDIA GPU,是非(fei)常(chang)(chang)困(kun)難的,其核心競(jing)爭力在(zai)于它的軟件工(gong)具。把(ba)電和光放到一張卡上,要開發完整的軟件套件,工(gong)作(zuo)量(liang)非(fei)常(chang)(chang)大且代價很(hen)高。當(dang)然云端(duan)加(jia)速計算卡也可以做定(ding)制化,但定(ding)制化在(zai)云端(duan)的適用空間會(hui)相對有(you)限(xian),這是做云端(duan)AI芯(xin)片的所有(you)公司共同(tong)面臨的窘境。
光(guang)(guang)子算(suan)數為什(shen)么選擇做(zuo)成熱(re)插拔方式?實際上,這是將適合用(yong)光(guang)(guang)學(xue)(xue)做(zuo)的(de)(de)特(te)定算(suan)子封(feng)裝到光(guang)(guang)學(xue)(xue)模塊里,通過熱(re)插拔接口(kou)和國(guo)內大(da)廠(chang)(chang)(chang)的(de)(de)加(jia)速計算(suan)卡插在一起,這種接口(kou)制都是成熟的(de)(de),開(kai)發(fa)者使用(yong)大(da)廠(chang)(chang)(chang)的(de)(de)軟(ruan)件工具,即(ji)可通過API調用(yong)光(guang)(guang)子算(suan)數的(de)(de)模塊內嵌(qian)特(te)定算(suan)子。面向具體應用(yong),開(kai)發(fa)者通過大(da)廠(chang)(chang)(chang)軟(ruan)件工具,開(kai)發(fa)由光(guang)(guang)子算(suan)數的(de)(de)光(guang)(guang)學(xue)(xue)算(suan)子與大(da)廠(chang)(chang)(chang)原有(you)的(de)(de)電學(xue)(xue)算(suan)子組成的(de)(de)光(guang)(guang)電混合算(suan)法(fa)整(zheng)體。
光子(zi)算數對自(zi)己的(de)市(shi)場定位是提供(gong)傳統加速(su)(su)計算卡(ka)的(de)升(sheng)級(ji)組件,使傳統加速(su)(su)計算卡(ka)提升(sheng)性(xing)能、降低能耗、降低成本,不受制于軟(ruan)件工(gong)具(ju)。消費者(zhe)依然買大廠(chang)的(de)卡(ka)和工(gong)具(ju),如需升(sheng)級(ji),即可選(xuan)用光子(zi)算數的(de)模塊。
白(bai)冰提了(le)一(yi)(yi)個形象的(de)(de)比喻,用一(yi)(yi)張傳統卡加上光(guang)子協處(chu)理引擎模塊的(de)(de)效果(guo),相當于給汽車配了(le)一(yi)(yi)個渦(wo)輪(lun)增(zeng)壓。
三、研發實施路徑:算法先行,硬件跟進
白冰還談(tan)到關于研(yan)發(fa)路線(xian)的(de)(de)建議(yi)。他們研(yan)發(fa)的(de)(de)內容是系統性工程,相較(jiao)于設計新型(xing)的(de)(de)光(guang)學計算單元,難度是可以克服(fu)的(de)(de)。
更多的,其行業特征特別像光模塊,它的行業拓展是小芯片、大組裝,其封裝和組裝成本占整個的70%,是一個系統工程。更主要(yao)的(de)(de),要(yao)做(zuo)軟硬系統的(de)(de)匹(pi)配,同時(shi)硬件(jian)要(yao)做(zuo)到光(guang)與(yu)電(dian)的(de)(de)協同,其中(zhong)包括(kuo)一些算子、標定的(de)(de)東西(xi)并涉及到一些關鍵技(ji)術(shu)。
最核心的,要做(zuo)適(shi)合光(guang)學做(zuo)的算法,算法先行(xing)(xing),硬(ying)件(jian)跟進。目前市面上的傳統算法不(bu)太適(shi)合光(guang)學芯(xin)片(pian)(pian)去執行(xing)(xing),計算機發(fa)展這么多年,一(yi)直(zhi)是軟和(he)硬(ying)耦合在一(yi)起(qi)發(fa)展,“硬(ying)”一(yi)直(zhi)是數字(zi)芯(xin)片(pian)(pian),所以算法里嵌了很多數字(zi)芯(xin)片(pian)(pian)的基因,用(yong)光(guang)學硬(ying)件(jian)很難加速。
因此首先(xian)要開發適合光(guang)學(xue)做的(de)算子(zi),給(gei)(gei)光(guang)學(xue)算子(zi)配一些數字算子(zi),去(qu)組成完整(zheng)的(de)算法(fa),然(ran)后來分析光(guang)電混合算法(fa)的(de)運算和訪存(cun)特征,再之后再設計硬(ying)件,如何給(gei)(gei)算法(fa)加(jia)速。
“這是我們做的核(he)心關鍵思路,這也是為什(shen)么很(hen)多公司目前(qian)做不(bu)出(chu)來的原因。”白冰說。
四、適配光學計算的算法示例
那么,哪些算法(fa)適合用光(guang)學計算去處(chu)理呢?
白(bai)冰舉了些例子,比(bi)如(ru)光學(xue)隨(sui)機投(tou)影,用光學(xue)芯片物理實現無需(xu)復(fu)雜精確控制,加工容差大、一(yi)致性要求(qiu)低。該(gai)方(fang)案有循環(huan)的(de)(de)效果,不是(shi)卷積(ji),而是(shi)對數據(ju)直接進行維(wei)度的(de)(de)變(bian)化,直接能做非線性的(de)(de)處理,比(bi)如(ru)升維(wei)或壓縮這樣。
例如對平面上的(de)(de)目(mu)標進行分(fen)類(lei),用(yong)一條曲線可(ke)(ke)以(yi)(yi)把它分(fen)開,曲線是比較(jiao)復雜(za)的(de)(de),算(suan)法里面可(ke)(ke)能對應很多層,在處理之前,可(ke)(ke)以(yi)(yi)將數(shu)據扔到光(guang)學芯片里,做一個升維(wei)操作(zuo),數(shu)據從二(er)維(wei)空間(jian)變(bian)(bian)到三(san)維(wei)、四維(wei)空間(jian),多了Z軸。這個投影用(yong)光(guang)學做的(de)(de)話沒有代價,在電里面用(yong)一個線性(xing)的(de)(de)平面就(jiu)可(ke)(ke)以(yi)(yi)把兩類(lei)目(mu)標區隔開,可(ke)(ke)以(yi)(yi)把十(shi)層的(de)(de)網絡壓(ya)縮到兩層,這樣就(jiu)是投影變(bian)(bian)換(huan),光(guang)學芯片會有內部的(de)(de)架(jia)構。
光子算(suan)(suan)數(shu)把光學函數(shu)和數(shu)字算(suan)(suan)子組成了關鍵的(de)光電混合(he)算(suan)(suan)法,經嘗試,至少可以跟(gen)市(shi)面上主(zhu)流的(de)算(suan)(suan)法做更新。
比如基于(yu)光學(xue)隨(sui)機(ji)投(tou)影做(zuo)目標識別遷(qian)移(yi)學(xue)習時,后(hou)半部分進(jin)行重新(xin)訓練,算法訓練量(liang)還是很大的(de)。其實可以不走(zou)綠(lv)色(se)部分,直接在藍色(se)塊用(yong)光學(xue)芯片做(zuo)預處理,后(hou)面(mian)加簡(jian)單的(de)線(xian)性層,就(jiu)可以完成任(ren)務,做(zuo)一個(ge)維度(du)的(de)升維變化。
再比如訓練時,通常會用BP,連續求導會有梯度消失或爆炸的問題,另外訓練量也比較大。用光學做,可以直接將輸出層Loss通過光學隨機投影直接回傳到不同的權重(zhong)層,每層并行獨立更新(xin)權重(zhong),這(zhe)樣可以做并行訓練處理并且避免(mian)了連續求導的過程。
盡管這一(yi)領域(yu)相對早期(qi)的,主(zhu)要(yao)面向特定化的市場,但(dan)可(ke)以(yi)看到(dao),它已(yi)在(zai)某些領域(yu)有(you)些成熟化的產品出現(xian)和得到(dao)應(ying)用(yong)。由于(yu)當前光學芯片主(zhu)要(yao)作(zuo)為協(xie)處理器,光子算數(shu)也在(zai)持續地與做電(dian)學芯片的大(da)廠積極溝通合作(zuo)。
以上是白冰演講內容的完整整理。除白冰外,在本屆GTIC 2020 AI芯片創新峰會期間,清華大學微納電子系尹首一教授,比特大陸、地平線、黑芝麻智能、燧原科技、壁仞科技、知存科技、億智電子、豪微科技等芯片創企,全球FPGA領先玩家賽靈思,Imagination、安謀中國等知名IP供應商,全球EDA巨頭Cadence,以及北極光創投、中芯聚源等知名投資機構,分別分享了對AI芯片產業的觀察與思考。如感興趣更多嘉賓演講的核心干貨,歡迎關注芯東西后續推送內容。