在智猩猩聯合主辦的2025中國AI算力大會上,中昊芯英創始人及CEO楊龔軼凡圍繞《從GPU 到 TPU,同等制程3-5倍性能躍升的 AI 芯片演進之路》這一(yi)主(zhu)題在(zai)主(zhu)會場(chang)高(gao)峰論壇(tan)帶來(lai)了主(zhu)題演講。

要點提煉:

  • 沒有人能夠說自己一兩年就可以做到量產很大、可以用的芯片,沒有10年的積累是做不到的。
  • 中昊芯英當期的 TPU 芯片產品用于AI計算場景時算力性能超越海外知名GPU芯片近 1.5 倍,能耗降低 30%,公司很快將推出第二代性能更強大的TPU AI 芯片產品。
  • TPU的發展有兩個方向,一個是單芯片的性能,另一個是集群性能。
  • 今天和未來,所有跟AI芯片關聯的設計理念,都需要考慮如何實現高效的網絡互聯。
  • TPU在網絡架構中實現了二維環2D Torus,當然還有更先進的3D Torus,這是其在片間網絡上的創新。
  • MoE(Mixture of Experts,混合專家模型,是一種機器學習方法)已經成了標配,大模型里如果沒有MoE,是沒有價值的。
  • 因為大模型對計算和帶寬的需求,今天大家在運行大模型服務的時候,都在用H100、H200,大模型的訓練和推理是一塊芯片,分離不了,除非有新的路線和創新出現,未來推理芯片和訓練芯片才會有逐步分化
  • 隨著模型的逐步收斂,CUDA的價值在逐步降低。
  • 數據的重要性逐步上升,未來是否有合規的行業數據,可能會成為企業的核心競爭力。

演講全文:

楊龔軼凡:大家好,我(wo)(wo)今(jin)天分(fen)享的主題是《從GPU到TPU,同等制程3-5倍性能躍(yue)升的AI芯(xin)(xin)片演進之路》。接下來,我(wo)(wo)將(jiang)主要和大家分(fen)享中(zhong)昊芯(xin)(xin)英(ying)從2018年我(wo)(wo)們回國落地到今(jin)天將(jiang)近7年時(shi)間(jian),對行業的核心思考,以及(ji)最近AI大模(mo)型產(chan)業快速(su)變遷(qian)的過程中(zhong),未來我(wo)(wo)們要支(zhi)持什么,以及(ji)為什么我(wo)(wo)們今(jin)天需要AI專用芯(xin)(xin)片。

首先做個(ge)簡單的(de)介紹,我從(cong)2011年斯坦(tan)福畢業之(zhi)后,就一直在美國(guo)甲骨文做高性能CPU。到2017年的(de)時候發現摩(mo)爾定(ding)律在生產制程的(de)迭代(dai)過程中(zhong)在逐步(bu)減緩,所以我們認為繼續做通用計算的(de)意義(yi)不太大,未來肯(ken)定(ding)會有一些新的(de)方(fang)向去迭代(dai)整個(ge)計算領域。

2017年的時候我(wo)(wo)們認(ren)為AI浪潮來(lai)了(le),所以當時甲骨文整個做(zuo)CPU的團(tuan)都去做(zuo)各(ge)種(zhong)各(ge)樣的AI芯片,比如美(mei)國比較有(you)名的SambaNova等(deng)。而我(wo)(wo)們團(tuan)隊則去了(le)谷歌,開(kai)創了(le)TPU這個方向。

在谷(gu)歌TPU 2/3/4實踐落地的過程中,我們完(wan)成了著名(ming)的Transformer模型的落地。它的Attention和MatMul是基于TPU硬件特性優化開(kai)發的。

有了Transformer的(de)(de)實踐落(luo)地,我(wo)們(men)認為AGI實現(xian)的(de)(de)可(ke)能性大幅度提升。2017年的(de)(de)時候我(wo)們(men)預(yu)計24、25甚至26年的(de)(de)時候,AGI大概(gai)率會落(luo)地,我(wo)們(men)可(ke)以逐步實現(xian)真正的(de)(de)人工智能,AI將進而(er)成為整(zheng)個人類社(she)會的(de)(de)生(sheng)產力核心(xin)。

基于這(zhe)種對AI 的信(xin)念,我(wo)(wo)們(men)決定投身于做TPU類(lei)似方(fang)(fang)向的AI芯片設計研發和產業落地。我(wo)(wo)們(men)相(xiang)信(xin)未來(lai)算力會成(cheng)為整個(ge)產業的核心,這(zhe)個(ge)方(fang)(fang)向將重構和迭代整個(ge)計算的可能性,因此我(wo)(wo)們(men)成(cheng)立了中(zhong)昊(hao)芯英(ying)。

從2018年開(kai)始,我們已經能(neng)夠看到整個人工(gong)智能(neng)需求的(de)(de)變化,再到今天隨著ChatGPT和國產DeepSeek的(de)(de)出現,大(da)(da)家在生活中(zhong)已經開(kai)始使用大(da)(da)模(mo)型去完成各種各樣的(de)(de)任務。

中昊芯英創始人楊龔軼凡:模型逐步收斂,CUDA 價值呈現下降趨勢

在(zai)(zai)(zai)工作當中,無(wu)論國(guo)(guo)際還是(shi)國(guo)(guo)內,我們看到變化最大的領域其實就是(shi)寫(xie)程序(xu)。在(zai)(zai)(zai)美國(guo)(guo)很多知名的公司中,90%的簡單程序(xu)已經在(zai)(zai)(zai)使用大模型自動生(sheng)成(cheng),并且已經在(zai)(zai)(zai)改(gai)變人機(ji)交互的方(fang)式(shi),以(yi)及傳統(tong)程序(xu)員(yuan)的工程實現(xian)方(fang)式(shi)。

在國內,包括我(wo)們公司(si)在內,目(mu)前大概20%-40%的程序是(shi)由大模型來完(wan)成(cheng)書寫(xie),以及進行找bug。

相信未(wei)來三年(nian)左右(you),程序(xu)員實際的(de)(de)寫程序(xu)能力都將被迭代成綜合(he)解決方案能力,解決方案可以由大模型去逐(zhu)步去實現。在(zai)這個過程中,AI已(yi)經對各種各樣的(de)(de)產業產生了(le)深遠的(de)(de)影(ying)響。

這只(zhi)(zhi)是一個行業案例(li)。在過(guo)去1-2年(nian)左(zuo)右(you),我們也在各個行業看到了AI的(de)落(luo)地(di)。只(zhi)(zhi)是說在程(cheng)序(xu)(xu)員(yuan)替代(dai)的(de)過(guo)程(cheng)中落(luo)地(di)實(shi)踐最快。因為(wei)做大模型的(de)所有玩(wan)家,實(shi)際的(de)工作人員(yuan)就是程(cheng)序(xu)(xu)員(yuan),程(cheng)序(xu)(xu)員(yuan)最理解(jie)程(cheng)序(xu)(xu)員(yuan)的(de)需求(qiu),所以程(cheng)序(xu)(xu)員(yuan)的(de)替代(dai)是最快的(de)。

相信其他(ta)行業也將逐(zhu)步跟上,未來(lai)3-5年,甚(shen)至最多10年內,我們(men)將迎來(lai)新(xin)(xin)(xin)一(yi)波人(ren)工(gong)智能浪潮,或者(zhe)說新(xin)(xin)(xin)一(yi)波工(gong)業浪潮,并將重新(xin)(xin)(xin)定義(yi)很多工(gong)作崗位(wei)。

中昊芯英創始人楊龔軼凡:模型逐步收斂,CUDA 價值呈現下降趨勢

隨(sui)著新的(de)(de)工作崗位的(de)(de)定義,和AI落地實踐的(de)(de)逐步爆發,可以看到整個市場正在快速(su)增長。今年中國AIGC的(de)(de)市場,包括算力市場的(de)(de)預期在內,已(yi)經超過2000億(yi)人民幣。

從(cong)國際(ji)上來(lai)說(shuo),AI市場規模其實更大。在過去一年,我們看(kan)到國內算力(li)芯(xin)片(pian)的(de)需求量(liang)在800億人(ren)民幣左右(you),而(er)國際(ji)的(de)需求量(liang)大概(gai)在800-1000億美金。

一、 大模型推動計算Infra變革

中昊芯英創始人楊龔軼凡:模型逐步收斂,CUDA 價值呈現下降趨勢

隨著模(mo)型(xing)的迭代,尤其(qi)是(shi)新(xin)的模(mo)型(xing)迭代,它(ta)的算(suan)力消耗是(shi)非(fei)常高的。完成一次模(mo)型(xing)的訓練和推理的算(suan)力值都極(ji)高,已經(jing)達到(dao)1025甚至更高。

推理過(guo)程也(ye)跟以前產(chan)生了(le)很大(da)的(de)區別(bie),這就是(shi)剛才說為什么(me)新的(de)計(ji)算范式會用新的(de)模型去(qu)定(ding)義和重(zhong)構的(de)原因,傳統計(ji)算的(de)Infra為什么(me)在(zai)新的(de)領域不能(neng)用,核心點(dian)就在(zai)這里,當模型越來越大(da)之(zhi)后,它已(yi)經在(zai)顛覆(fu)了(le)傳統的(de)計(ji)算方(fang)式。

傳統的(de)計算(suan)方式就像(xiang)是我們(men)拿出(chu)一(yi)(yi)(yi)個(ge)(ge)手機,你可以同時用(yong)(yong)(yong)很多(duo)應(ying)用(yong)(yong)(yong)。什么概念呢?小小的(de)一(yi)(yi)(yi)塊(kuai)芯(xin)片(pian)無(wu)論(lun)它是5nm還是10nm,跑(pao)(pao)的(de)都是多(duo)個(ge)(ge)應(ying)用(yong)(yong)(yong)。今(jin)天(tian)大模型變大之后,發現一(yi)(yi)(yi)個(ge)(ge)很有趣(qu)的(de)現象,現在一(yi)(yi)(yi)個(ge)(ge)算(suan)法、一(yi)(yi)(yi)個(ge)(ge)模型、一(yi)(yi)(yi)個(ge)(ge)應(ying)用(yong)(yong)(yong),即使是簡單(dan)跑(pao)(pao)個(ge)(ge)推(tui)理,4塊(kuai)芯(xin)片(pian)都不(bu)夠用(yong)(yong)(yong)。

我們知道模型有history,有token length,token length越長代(dai)表模型的(de)(de)(de)(de)記憶力越好。現(xian)在的(de)(de)(de)(de)模型已經從之前的(de)(de)(de)(de)幾千的(de)(de)(de)(de)token length到(dao)現(xian)在的(de)(de)(de)(de)10萬甚至百萬級別,這(zhe)個過程也(ye)意味著其對(dui)內存和計算的(de)(de)(de)(de)挑戰非常(chang)大(da)。一些大(da)模型,已經開(kai)始用8卡甚至多機互連的(de)(de)(de)(de)方式,才能完(wan)成推理。

幾年前,訓(xun)練(lian)Yolo這類小模(mo)型,使用一個機(ji)器、或者最多兩(liang)個機(ji)器,只(zhi)需要16卡(ka)(ka)就(jiu)可以完(wan)成,但是今(jin)天的(de)大模(mo)型千卡(ka)(ka)都不夠。沒有(you)(you)任(ren)何一個做預(yu)訓(xun)練(lian)的(de)玩家會說,我(wo)有(you)(you)千卡(ka)(ka)的(de)H100/B200,或者千卡(ka)(ka)的(de)國產芯片(pian)就(jiu)能(neng)夠完(wan)成任(ren)何有(you)(you)價值的(de)模(mo)型訓(xun)練(lian),這是不可能(neng)的(de),因(yin)為需要的(de)是萬卡(ka)(ka)集群。

所以我(wo)們看到整(zheng)個計算(suan)的(de)Infra都在(zai)迭(die)代,在(zai)迭(die)代過(guo)程(cheng)中(zhong)(zhong)我(wo)們就需(xu)要有(you)創(chuang)(chuang)新(xin)。比(bi)如我(wo)們中(zhong)(zhong)昊芯英在(zai)芯片層面有(you)創(chuang)(chuang)新(xin),更多的(de)合作伙伴在(zai)系(xi)統、應用(yong)上(shang)有(you)創(chuang)(chuang)新(xin),這是AI對整(zheng)個計算(suan)領(ling)域的(de)迭(die)代和需(xu)求。

二、 AI專用芯片是AI Infra的必然發展趨勢

中昊芯英創始人楊龔軼凡:模型逐步收斂,CUDA 價值呈現下降趨勢

隨著創新的(de)出現,我們認為(wei)芯(xin)(xin)片本身也有(you)創新的(de)機會。回看(kan)(kan)計算芯(xin)(xin)片的(de)發展(zhan)歷史的(de)時候(hou),我們可以(yi)看(kan)(kan)到芯(xin)(xin)片的(de)架(jia)構總是從通用(yong)向專用(yong)型去發展(zhan)。為(wei)什(shen)么會這(zhe)樣發展(zhan)呢(ni)?

首先專用型芯(xin)片(pian)(pian)開銷非常高,特別是今(jin)天把(ba)軟件棧的(de)開銷也算進去之(zhi)(zhi)后。之(zhi)(zhi)前一塊12nm的(de)芯(xin)片(pian)(pian),把(ba)芯(xin)片(pian)(pian)做(zuo)出來(lai)實際(ji)投入(ru)大概在1.5億(yi)(yi)人民幣,做(zuo)到量產(chan)并且把(ba)軟件棧的(de)開銷全部算進去,大概3億(yi)(yi)人民幣,也就(jiu)(jiu)是5000萬美金,這個我覺得國(guo)際(ji)上大家相互之(zhi)(zhi)間(jian)是認(ren)可(ke)的(de)。一塊7nm的(de)芯(xin)片(pian)(pian)需要8000萬美金,再往下(xia)走的(de)話,需要上億(yi)(yi)美金才能(neng)完成一塊芯(xin)片(pian)(pian)從零(ling)到量產(chan)的(de)過(guo)程。這么大的(de)資金投入(ru),如果產(chan)品(pin)對(dui)應的(de)市(shi)場不(bu)(bu)夠大,就(jiu)(jiu)沒有價(jia)值,投資產(chan)出比是不(bu)(bu)夠的(de)。

所以(yi)在行業早期(qi)的(de)時候(hou),一般都是(shi)通用(yong)器件(jian)去適應(ying)新(xin)行業的(de)出現。只有當行業規模(mo)足夠(gou)大、足夠(gou)有價(jia)值的(de)時候(hou),才(cai)會逐步去定義(yi)(yi)新(xin)的(de)架構和(he)微架構的(de)芯(xin)(xin)片(pian)。因(yin)為定義(yi)(yi)新(xin)的(de)架構和(he)微架構,能夠(gou)提高芯(xin)(xin)片(pian)的(de)計(ji)算效(xiao)率(lv),提升性(xing)價(jia)比(bi)。

一個很簡單的(de)直觀體(ti)驗,如果(guo)(guo)用通用器件來(lai)完成(cheng)一個模型訓(xun)練,投入成(cheng)本(ben)是按億(yi)美金來(lai)計算(suan),而如果(guo)(guo)使用專用器件,可(ke)以將投入成(cheng)本(ben)降到千萬級(ji),這就是它的(de)核心優勢。

無(wu)論(lun)是(shi)國(guo)內還(huan)是(shi)國(guo)際(ji)上,整個(ge)AI Infra的(de)需求(qiu)非常大,已(yi)經是(shi)百億(yi)(yi)人民幣到千億(yi)(yi)美金的(de)量級。所(suo)以這個(ge)時候,新的(de)AI芯(xin)片已(yi)經成為了整個(ge)產業的(de)開發方向。

中昊芯英創始人楊龔軼凡:模型逐步收斂,CUDA 價值呈現下降趨勢

上圖(tu)我列(lie)舉了ISSCC、ISCA和(he)HotChips歷(li)年來AI相(xiang)關的論(lun)文(wen)(wen)占比。不管是學術屆還(huan)是產業(ye)界,ISSCC、ISCA和(he)HotChips都是頂(ding)會的標準。它們不僅包(bao)含(han)了前面提到的大芯(xin)片或者數據(ju)中心芯(xin)片,而且包(bao)括所(suo)有的芯(xin)片技(ji)(ji)術,從物理底層技(ji)(ji)術到微架構,涵蓋手機芯(xin)片、藍牙芯(xin)片等,所(suo)有的芯(xin)片設(she)計都可以去發(fa)頂(ding)會。我們發(fa)現AI的比例越(yue)來越(yue)高,去年綜合下來接(jie)近(jin)30%的論(lun)文(wen)(wen)都和(he)AI相(xiang)關。

通過(guo)這(zhe)個數據,我們可以(yi)看到(dao)整(zheng)個行業的發(fa)展趨(qu)勢,這(zhe)個賽道(dao)正在逐步從CPU、GPU這(zhe)類通用(yong)(yong)器(qi)件(jian)(jian)往定制化器(qi)件(jian)(jian)路徑發(fa)展。我們認為定制路線能夠(gou)比通用(yong)(yong)器(qi)件(jian)(jian)至少做到(dao)3-5倍(bei),甚至10倍(bei)的性能提(ti)升。

三、 TPU架構比GPU更適合大模型計算

中昊(hao)芯英選擇了跟谷歌一樣的思路——TPU。

做TPU不(bu)是(shi)一個(ge)簡單的事情,從(cong)0到(dao)(dao)1的過(guo)程需要很長(chang)的時間(jian)(jian),哪(na)怕是(shi)谷(gu)歌(ge),他(ta)們的TPU也是(shi)去(qu)年(nian)才終(zhong)于被用到(dao)(dao)蘋(pin)果和(he)其他(ta)產業的大模型訓練中。谷(gu)歌(ge)從(cong)0到(dao)(dao)1用了(le)很長(chang)時間(jian)(jian),從(cong)1到(dao)(dao)100用了(le)更長(chang)時間(jian)(jian)。谷(gu)歌(ge)的TPU從(cong)0開始(shi),到(dao)(dao)去(qu)年(nian)280萬片的芯片量產,這個(ge)過(guo)程用了(le)整(zheng)整(zheng)10年(nian)時間(jian)(jian)。

這(zhe)也是(shi)半導體產業本(ben)身不可打破的(de)規(gui)律,沒有(you)人能夠說自己一兩年就可以(yi)做到量產很大、可以(yi)用(yong)的(de)芯片,這(zhe)是(shi)不可能的(de),沒有(you)10年的(de)積累是(shi)做不到的(de)。中昊芯英也是(shi)花(hua)了5年的(de)時間,把一塊芯片從0到1并實現量產,在去年開始實現硬件(jian)生態的(de)打造和軟(ruan)件(jian)生態的(de)適配。

今年我們能夠自豪(hao)的(de)(de)說,在大(da)部分模型的(de)(de)實測(ce)過程中,我們已經(jing)能用比(bi)海外領先的(de)(de)GPU芯片低(di)一個量(liang)級的(de)(de)生(sheng)產制程,實現1.5倍性能提(ti)升的(de)(de)同時,將功耗降低(di)到75%。

此外,我們(men)也定義了(le)新的集群連接方式,能夠(gou)支持(chi)千卡集群內1024片(pian)(pian)芯片(pian)(pian)直接光模塊高速片(pian)(pian)間互(hu)聯,并(bing)且有了(le)千卡集群的落地(di)實踐,同(tong)時還在行業中完成了(le)大(da)模型訓練和(he)推理的落地(di)。

在(zai)這個過程中,我(wo)們也積(ji)累了一些(xie)經驗,和(he)大(da)家分享(xiang)下在(zai)新的模型(xing)和(he)芯(xin)片設計方向(xiang)上,我(wo)們的思考和(he)收獲。

前面(mian)提到芯(xin)片(pian)設(she)計(ji)(ji)要花費很長時間,中昊芯(xin)英(ying)(ying)從2018年(nian)發展到現在近7年(nian)時間,已經逐步開(kai)始下一(yi)代(dai)(dai)芯(xin)片(pian)的(de)迭(die)代(dai)(dai)。中昊芯(xin)英(ying)(ying)當(dang)期迭(die)代(dai)(dai)的(de)芯(xin)片(pian)“剎那?”用于AI計(ji)(ji)算場景(jing)時,算力(li)性(xing)能超越海(hai)外(wai)知名GPU芯(xin)片(pian)近 1.5 倍,能耗降低 30%。我們的(de)第二代(dai)(dai)性(xing)能更強(qiang)大(da)的(de)TPU AI 芯(xin)片(pian)產品已經在研(yan)發的(de)最后階段,很快就會面(mian)向市(shi)場推(tui)出。

中昊芯英創始人楊龔軼凡:模型逐步收斂,CUDA 價值呈現下降趨勢

自研(yan)芯片的核心(xin)價值在(zai)于,有了自己設計的TPU之后,所(suo)有的IP沒有外購,全部國產自主(zhu)可控(kong),這樣就有了迭(die)代的能力,并知道(dao)未來迭(die)代的方(fang)向。

中昊芯英創始人楊龔軼凡:模型逐步收斂,CUDA 價值呈現下降趨勢

TPU的發展有兩個方向,一個是單芯片的性能,另一個是集群性能。為什么要(yao)分這(zhe)兩個方向呢?剛才(cai)提到一個模型現在需(xu)要(yao)千卡甚至萬卡才(cai)能完成訓練,推理(li)也是16卡到32卡的階段。

比如DeepSeek-R1的(de)滿血版(ban),真正(zheng)看性(xing)能(neng)(neng)(neng)的(de)話會發現(xian),不管(guan)國(guo)(guo)產芯(xin)片產品還是(shi)國(guo)(guo)外芯(xin)片產品,至少(shao)16卡是(shi)標配,很(hen)多能(neng)(neng)(neng)跑性(xing)能(neng)(neng)(neng)的(de)是(shi)24卡到32卡,因此其片間互聯能(neng)(neng)(neng)力會成為架構的(de)核心痛點。

今天和未來,所有跟AI芯片關聯的設計理念,都需要考慮如何實現高效的網絡互聯。這里包含(han)兩個方(fang)(fang)面,一方(fang)(fang)面是芯片內部的(de)(de)(de)定(ding)義,另(ling)一方(fang)(fang)面是芯片間的(de)(de)(de)網(wang)絡(luo)怎么構建。因為現在芯片的(de)(de)(de)使(shi)用方(fang)(fang)式(shi)跟傳統(tong)的(de)(de)(de)計算方(fang)(fang)式(shi)是有(you)很大區別的(de)(de)(de)。

比如傳統的(de)(de)(de)CPU也好(hao)(hao),大(da)家用的(de)(de)(de)手機(ji)也好(hao)(hao),其網絡架構的(de)(de)(de)一(yi)個(ge)核心思(si)路(lu),是流量是可(ke)以(yi)分(fen)時進行分(fen)享的(de)(de)(de),就像今天會場的(de)(de)(de)所(suo)(suo)有人不會同時全(quan)部只使用一(yi)個(ge)手機(ji)APP。一(yi)個(ge)交換機(ji)可(ke)以(yi)接(jie)很(hen)多人,交換機(ji)的(de)(de)(de)鏈路(lu)帶(dai)寬需(xu)求不是所(suo)(suo)有玩(wan)家需(xu)求的(de)(de)(de)總和,它是可(ke)以(yi)做 directing 的(de)(de)(de)。

但(dan)是(shi)AI的計(ji)算過程是(shi)不同(tong)的。如果用(yong)1000張卡來訓練(lian),他(ta)們會同(tong)時(shi)開啟,同(tong)時(shi)結束,同(tong)時(shi)需要數據(ju)交互,所以傳(chuan)統的網(wang)絡架構其(qi)實(shi)是(shi)不適(shi)合的。我們在實(shi)踐(jian)中發(fa)現事實(shi)也(ye)是(shi)這樣的。

因此,我們(men)在(zai)網絡(luo)架構中實現了二維環2D Torus,當然還有更先進的3D Torus,這是我們(men)在(zai)片間網絡(luo)上的創新。

片內的(de)(de)設(she)計我們做了哪些(xie)創新(xin)呢?當我們把傳統的(de)(de)GPU和CPU分(fen)(fen)開看,來(lai)研究它們的(de)(de)能耗(hao)(hao)分(fen)(fen)布,一個很有趣的(de)(de)現象是,大家本來(lai)認為CPU、GPU應(ying)該是計算(suan)導向型的(de)(de)器件,但實際(ji)上它的(de)(de)能耗(hao)(hao)里超(chao)過(guo)40%用于控制,計算(suan)和數據的(de)(de)能耗(hao)(hao)占比反(fan)而不夠高。

所以在設計TPU的時候,我們刻意把“控制”的這個這部分進行了降低和重調,讓計算和數據的讀取、搬運成為能耗的主要貢獻者。但這(zhe)里也有(you)一個(ge)壞處(chu),就是降低(di)了它(ta)的(de)(de)靈活性,所(suo)以TPU核心的(de)(de)AI芯片靈活性是不如GPU的(de)(de)。

四、 TPU驅動軟件棧變革

這里又回到(dao)另(ling)一個問題(ti),到(dao)底是(shi)(shi)(shi)軟件(jian)定義(yi)硬件(jian)還是(shi)(shi)(shi)硬件(jian)定義(yi)軟件(jian)?這也是(shi)(shi)(shi)歷史(shi)爭論(lun),我(wo)們今天也沒(mei)法(fa)給(gei)出(chu)答案。但是(shi)(shi)(shi)從我(wo)們的(de)(de)工程(cheng)實(shi)踐(jian)來看,二(er)者是(shi)(shi)(shi)相互促(cu)進的(de)(de)。因(yin)為有了(le)像TPU這樣靈活性(xing)(xing)不如GPU,但是(shi)(shi)(shi)性(xing)(xing)價(jia)比(bi)和(he)性(xing)(xing)能(neng)比(bi)GPU更強的(de)(de)芯片,所以軟件(jian)棧也發生(sheng)了(le)新的(de)(de)變(bian)革。

舉一個簡單的(de)例子。為什么有段(duan)時間MoE會出(chu)現?MoE其實是谷歌提出(chu)來的(de),因為TPU的(de)靈活(huo)性不(bu)如(ru)GPU,GPU的(de)模型可以變各(ge)種各(ge)樣的(de)造(zao)型,TPU做(zuo)不(bu)到怎么辦?

TPU的并行能力比GPU強,通過多跑幾個模型,然后取一個共識,這樣模型的性能也可以提升。所以我們看到硬件的出現也會去影響和改變軟件。MoE已經成了標配,大模型里如果沒有MoE我們會認為它沒有價值。

中昊芯英創始人楊龔軼凡:模型逐步收斂,CUDA 價值呈現下降趨勢

有(you)了(le)定制化(hua)芯(xin)片的硬(ying)件(jian)內部(bu)結構和網絡拓撲,我們做了(le)一些簡單的對(dui)比。我們有(you)自己的硬(ying)件(jian)網絡棧(zhan),也(ye)有(you)完整定義(yi)的軟件(jian)網絡棧(zhan)。

在千卡集群的(de)(de)實測中發現(xian),我們發現(xian)中昊芯英的(de)(de)TPU芯片的(de)(de)延時帶(dai)寬的(de)(de)測試數據(ju),跟特(te)斯(si)拉Dojo的(de)(de)TTPoE工程實踐(jian)差(cha)不多(duo)是同(tong)一水(shui)平,我們已(yi)經做(zuo)到了比(bi)傳統(tong)網(wang)絡帶(dai)寬高很多(duo),相比(bi)NVLink也已(yi)經拉開了一定(ding)的(de)(de)優勢(shi)。

這(zhe)是(shi)我認(ren)為AI芯(xin)片未來的(de)(de)(de)(de)(de)優勢,它的(de)(de)(de)(de)(de)每一個技(ji)術方向(xiang)都會比通(tong)用器件和通(tong)用的(de)(de)(de)(de)(de)協議要(yao)好,這(zhe)樣(yang)(yang)總(zong)體上才能(neng)在同(tong)樣(yang)(yang)的(de)(de)(de)(de)(de)生產制程、同(tong)樣(yang)(yang)的(de)(de)(de)(de)(de)工藝、同(tong)樣(yang)(yang)的(de)(de)(de)(de)(de)面(mian)積、同(tong)樣(yang)(yang)的(de)(de)(de)(de)(de)成本的(de)(de)(de)(de)(de)情況下(xia),實現3倍(bei)、5倍(bei)甚至(zhi)10倍(bei)的(de)(de)(de)(de)(de)性能(neng)提(ti)升,降低AI使(shi)用的(de)(de)(de)(de)(de)落(luo)地(di)成本。

今(jin)天AI的(de)使用成本(ben)太高(gao)了,我們(men)做了很多(duo)行業的(de)實際商業落地,發現很多(duo)行業的(de)ROI是不合適(shi)的(de)。

比如拿671B滿血版(ban)的(de)DeepSeek模型來(lai)替代一(yi)部分人(ren)工(gong)的(de)工(gong)作,基本(ben)投入400萬,但是招一(yi)個員工(gong)一(yi)年也就二三十萬的(de)成本(ben),所以ROI很難做(zuo)到合理。

未來如何(he)讓AI以(yi)更(geng)合理的生產成本落(luo)地,核(he)心(xin)在(zai)(zai)于我們如何(he)在(zai)(zai)各個維(wei)度去降低成本。這是(shi)我認為未來AI芯片的發(fa)展方向。

五、 算法定義硬件的時代

中昊芯英創始人楊龔軼凡:模型逐步收斂,CUDA 價值呈現下降趨勢

雖然剛剛我們提到硬件定義(yi)軟件已(yi)經有案例了,那么軟件也會定義(yi)硬件。MoE就是一個很好的(de)生產實踐,現在的(de)模(mo)型都是MoE架(jia)構。

另外一個(ge)很有意思的現象,就(jiu)是谷歌研發了(le)(le)TPU,TPU的一大(da)創新點是它里面有Systolic Array(脈動陣列),這(zhe)進而(er)創造(zao)了(le)(le)MatMul這(zhe)樣(yang)的計算(suan)方式,最后才有了(le)(le)今天所有大(da)模型基礎架(jia)構的核心算(suan)子——Attention。

但(dan)是(shi)(shi)(shi)Attention存(cun)(cun)在的(de)(de)(de)(de)問題(ti)是(shi)(shi)(shi),它在對計算的(de)(de)(de)(de)需(xu)求非常大的(de)(de)(de)(de)同時,對存(cun)(cun)儲(chu)的(de)(de)(de)(de)要(yao)求也(ye)極高。我們現在說(shuo)671B的(de)(de)(de)(de)模型(xing)它需(xu)要(yao)的(de)(de)(de)(de)存(cun)(cun)儲(chu)空(kong)間,已(yi)經不是(shi)(shi)(shi)簡(jian)單的(de)(de)(de)(de)671B參數(shu)量(liang)乘以每個(ge)參數(shu)兩個(ge)字節的(de)(de)(de)(de)存(cun)(cun)儲(chu)量(liang),相當于300多(duo)GB的(de)(de)(de)(de)存(cun)(cun)儲(chu)需(xu)求,現在不是(shi)(shi)(shi)這樣了(le)。因為(wei)(wei)Token length需(xu)要(yao)知道它的(de)(de)(de)(de)歷(li)史,歷(li)史越長,存(cun)(cun)儲(chu)的(de)(de)(de)(de)東西就越多(duo)。因此(ci)Attention機制導致671B參數(shu)需(xu)要(yao)的(de)(de)(de)(de)存(cun)(cun)儲(chu)空(kong)間已(yi)經不是(shi)(shi)(shi)300多(duo)GB,有可能是(shi)(shi)(shi)3TB,這也(ye)是(shi)(shi)(shi)為(wei)(wei)什么需(xu)要(yao)這么多(duo)芯片的(de)(de)(de)(de)原因。

在這個(ge)過程(cheng)中,軟(ruan)件棧已(yi)經在開始研究如(ru)何(he)設計不同版本的(de)Attention。比如(ru)對(dui)(dui)于GPU來(lai)說最(zui)(zui)合理、最(zui)(zui)優(you)化的(de)是Linear Attention,因為(wei)GPU的(de)并行化計算能力沒有其(qi)(qi)他(ta)(ta)AI芯(xin)片(pian)強(qiang),但是靈活性(xing)高(gao),這也(ye)是Linear Attention的(de)設計思路。而Multi-Head Attention以及其(qi)(qi)他(ta)(ta)Attention對(dui)(dui)AI芯(xin)片(pian)有更好(hao)的(de)適(shi)配(pei)效(xiao)果。相信新的(de)Attention機制(zhi)的(de)出現,也(ye)會定義一些新的(de)算子。

同(tong)樣(yang)(yang)的,使(shi)用了(le)新的強化(hua)學習,包(bao)括現(xian)在(zai)的模(mo)型蒸(zheng)餾(liu)技(ji)術(shu),也會(hui)逐步定義AI芯(xin)片(pian)硬件(jian)在(zai)推理過(guo)程和(he)訓練過(guo)程中計算的區別。只有在(zai)這(zhe)樣(yang)(yang)的區別真實產生以后,才會(hui)逐步實現(xian)大模(mo)型領域訓練芯(xin)片(pian)和(he)推理芯(xin)片(pian)的分化(hua)。

舉個例子,今天大家在運行大模型服務的時候,都在用H100、H200,而訓練用的也是H100、H200,那么大家以前說的推理芯片就沒有價值了。因為(wei)大模型對計算和(he)帶寬的需求,導致在今天這個(ge)時代,訓練(lian)和(he)推理是一塊芯(xin)(xin)片,分(fen)離不了。只(zhi)有(you)新的路線和(he)創新出現,未來(lai)推理芯(xin)(xin)片和(he)訓練(lian)芯(xin)(xin)片才會有(you)逐步(bu)分(fen)化的標準,去重新定義核(he)心的方向。

中昊芯英創始人楊龔軼凡:模型逐步收斂,CUDA 價值呈現下降趨勢

著新的模型出現及模型的逐步收斂,我們認為CUDA的價值在逐步降低。因為有了新的(de)(de)(de)需求和新的(de)(de)(de)創新點的(de)(de)(de)要求,模型(xing)在收斂的(de)(de)(de)過程中,算子的(de)(de)(de)數目會降(jiang)低,對通用型(xing)工具鏈的(de)(de)(de)需求會降(jiang)低,這樣無論(lun)對國產還是國際(ji)上的(de)(de)(de)AI芯(xin)片,都帶來了很好的(de)(de)(de)紅(hong)利。

剛才我(wo)們提(ti)到(dao)芯片(pian)的(de)成(cheng)本(ben)很高(gao),一塊(kuai)7nm的(de)芯片(pian)需要一億(yi)美金,但是硬(ying)件(jian)關(guan)聯的(de)成(cheng)本(ben)最多不(bu)超(chao)過2.5億(yi)人(ren)民(min)幣,剩下大部分(fen)開銷至少有一半是跟(gen)軟件(jian)棧關(guan)聯的(de),甚至更多。

如果現在(zai)軟(ruan)(ruan)件棧(zhan)已經在(zai)收斂,我們(men)不需(xu)要開發那么復雜(za)、通用(yong)的軟(ruan)(ruan)件棧(zhan)的時候,軟(ruan)(ruan)件棧(zhan)研(yan)發成(cheng)本和(he)生態構建成(cheng)本就會降低,這樣對AI芯片(pian)的市場化和(he)量級就有了很好的突破。

一個(ge)很簡(jian)單的實踐論(lun)證,就是大(da)(da)模(mo)型出來以后谷(gu)(gu)歌(ge)的TPU大(da)(da)規模(mo)量(liang)產(chan)了,需求量(liang)增加。前(qian)面提到,去年谷(gu)(gu)歌(ge)TPU的生產(chan)量(liang)是280萬片(pian)(pian),NVIDIA GPU的生產(chan)量(liang)大(da)(da)概是400萬片(pian)(pian),這意(yi)味著TPU去年占據了全球超過30%的計(ji)算(suan)市場份額(e)。這是很難(nan)想(xiang)象的事(shi)情,因為(wei)在模(mo)型還沒(mei)有收斂、CUDA工具鏈(lian)依(yi)然是絕對(dui)的橋頭堡的時(shi)候,谷(gu)(gu)歌(ge)的TPU生產(chan)量(liang)對(dui)比GPU是1:100。

六、 AI專用芯片落地迎來窗口期

所(suo)以(yi)我們可以(yi)認(ren)識到,隨(sui)著模型的收斂,AI模型越來(lai)(lai)越成熟,跟產業(ye)的結合(he)越來(lai)(lai)越深入,落(luo)地越來(lai)(lai)越合(he)理,它的商業(ye)價(jia)值會逐步(bu)提升(sheng),AI芯片落(luo)地也終于迎來(lai)(lai)了它的時代。

對于中(zhong)昊芯英來說(shuo),我(wo)們(men)進(jin)行了產品結構(gou)的(de)標準化,實(shi)現了完整的(de)千卡集群落地,同時還構(gou)建了自己的(de)行業(ye)模型(xing)。

中昊芯英創始人楊龔軼凡:模型逐步收斂,CUDA 價值呈現下降趨勢

我們認(ren)為未(wei)來(lai)的(de)(de)計算方式一定是一個(ge)基礎(chu)大模型(xing)、一個(ge)基礎(chu)架構。因(yin)為現(xian)在有了MCP,有了A2A,Agent已經可(ke)以訓練得非(fei)常好,再跟實(shi)際行(xing)業落(luo)地的(de)(de)數(shu)據公司進(jin)行(xing)合作,提供基本的(de)(de)工(gong)具鏈,就能夠(gou)實(shi)現(xian)在具體(ti)領域的(de)(de)模型(xing)落(luo)地。

這也給了我們一個新的思考,數據的重要性逐步上升,未來是否有合規的行業數據,可能會成為企業的核心競爭力。

在(zai)注重自身芯(xin)片研(yan)發的(de)同時,中(zhong)昊(hao)芯(xin)英還高(gao)度重視產學(xue)研(yan)深度融合,目前,中(zhong)昊(hao)芯(xin)英與(yu)太(tai)極股份、浙(zhe)江大學(xue)開展三方(fang)合作,引入基于(yu)中(zhong)昊(hao)芯(xin)英全(quan)自研(yan)的(de)TPU架構高(gao)性能(neng)AI芯(xin)片“剎那(nei)?”構建的(de)人工(gong)智能(neng)服務器“泰則?”。該服務器通過強大的(de)計算(suan)能(neng)力,以及高(gao)能(neng)效比與(yu)良(liang)好(hao)的(de)兼容性,成功(gong)應用于(yu)浙(zhe)江大學(xue)的(de)多個科研(yan)項目中(zhong)。

中(zhong)昊芯(xin)英還自研預訓(xun)練大(da)模型并(bing)為細分行業用(yong)戶提供再訓(xun)練/推理(li)接口(kou),賦能(neng)金融、醫(yi)療、傳媒、 營銷、教(jiao)育、編程等多行業發展(zhan)。其中(zhong),在(zai)金融領域,我們與國內(nei)頭部金融機構國泰(tai)君(jun)安共(gong)創了“泰(tai)則(ze)·練氣”大(da)模型,這是(shi)業界首款(kuan)適用(yong)于金融數據處理(li)的剛(gang)性大(da)模型,具(ju)備結構化數據分析、作圖 、處理(li)、建模等功能(neng)。

此外,去年9月,中(zhong)昊芯英與深圳聯(lian)通聯(lian)合啟動了廣東地區(qu)首個(ge)全采用國產TPU芯片的高(gao)(gao)性能AI智算中(zhong)心,形(xing)成訓推(tui)一體化樞紐,成為(wei)中(zhong)國聯(lian)通在深圳的核心智算高(gao)(gao)地的重要組成部(bu)分。

在落(luo)地(di)實(shi)踐過程(cheng)中,我們發現(xian)很多應用(yong)場景已(yi)經實(shi)現(xian)了(le)早期得拓展與落(luo)地(di)了(le)。相信未來兩三年之后,大家會在很多行業(ye)的實(shi)際(ji)生產(chan)過程(cheng)中看到大模(mo)型作(zuo)為核心生產(chan)力的身(shen)影(ying)。

在此,我也(ye)呼(hu)吁(yu)在座(zuo)的(de)所有(you)嘉(jia)賓(bin),我們今天進入了(le)一(yi)個新的(de)時(shi)代,新的(de)時(shi)代在改變(bian)我們,但不應該只有(you)一(yi)部分人受到(dao)時(shi)代紅利的(de)影響(xiang),而是能夠影響(xiang)到(dao)整個行業(ye),或者說整個國(guo)家(jia)的(de)所有(you)角落。

所以中昊芯英做了很多商業(ye)向善項目(mu),這些(xie)商業(ye)向善項目(mu)并不是簡單的(de)(de)(de)捐(juan)贈(zeng),更多的(de)(de)(de)是把我們(men)(men)對AI未(wei)來的(de)(de)(de)預(yu)(yu)期、世界的(de)(de)(de)預(yu)(yu)期,帶到(dao)原來接觸不到(dao)這些(xie)事情的(de)(de)(de)角落里去。讓他(ta)們(men)(men)也(ye)能接觸到(dao)AI到(dao)底是什么(me),未(wei)來會發展成什么(me)樣,以及他(ta)們(men)(men)對自(zi)己(ji)的(de)(de)(de)未(wei)來應(ying)該(gai)有什么(me)樣的(de)(de)(de)暢想。

所以,我們(men)(men)跟云南當(dang)地山(shan)(shan)區的學(xue)(xue)校開展合(he)作,對(dui)云南當(dang)地山(shan)(shan)村中小學(xue)(xue)生進行一對(dui)一幫扶;跟上海交通(tong)大(da)學(xue)(xue)、浙江大(da)學(xue)(xue)、杭州電子科技大(da)學(xue)(xue)等高(gao)校達成了(le)戰略(lve)合(he)作,還構建了(le)人才(cai)培養團(tuan)隊等。我們(men)(men)希(xi)望在他們(men)(men)年輕的時(shi)候,能(neng)夠有(you)很多自己的想法和觀點,最后去(qu)支持(chi)整個(ge)產業的變遷。

以(yi)上就(jiu)是我今天的分享,謝謝大家!