智東西(公眾號:zhidxcom)
文 | Lina

在上(shang)周結束的(de)(de)英偉達(da)2017 GTC(GPU技術大(da)會)上(shang),毗鄰(lin)英偉達(da)展位(wei)的(de)(de)一個顯眼位(wei)置,一個深(shen)藍色的(de)(de)大(da)盒子與十分(fen)搶鏡——這就是國內(nei)AI企(qi)業商(shang)湯科(ke)(ke)技的(de)(de)展位(wei)。商(shang)湯科(ke)(ke)技這次展示(shi)的(de)(de)內(nei)容包(bao)括以(yi)AI圖(tu)像/視頻(pin)(pin)識別技術為主的(de)(de)各項應用,包(bao)括智(zhi)能視頻(pin)(pin)、手機(ji)影(ying)像、互(hu)聯網娛樂(le)APP等。其中SensePose單目攝像頭動作估計(ji)解決方案是首次跟大(da)眾亮相。

展會后(hou),智東西與數家(jia)媒(mei)體共同對商湯科技(ji)CEO徐立(li)進行(xing)了詳細(xi)專訪。

對話商湯科技徐立:解讀單目實時動捕技術SensePose

一、SensePose人體動作分析與姿態換恢復

SensePose是一套單目攝像(xiang)頭解決方案,用戶(hu)(hu)站(zhan)在攝像(xiang)頭前(qian)(qian)揮揮手臂(bei)、動動腦袋,面前(qian)(qian)視(shi)頻里的(de)(de)(de)皮影戲小人(ren)(ren)也(ye)會跟(gen)著你的(de)(de)(de)動作而揮舞(wu)。用戶(hu)(hu)不需(xu)要佩(pei)戴傳(chuan)感器就(jiu)可以(yi)實現動作估計(ji),降低了動作捕捉設備的(de)(de)(de)制造(zao)成(cheng)本,將關鍵點定位在10個像(xiang)素以(yi)內(nei)的(de)(de)(de)人(ren)(ren)體關節(jie),從(cong)而在視(shi)頻中實時、準確地識別人(ren)(ren)體姿態。

對話商湯科技徐立:解讀單目實時動捕技術SensePose

(體驗SensePose)

徐立表示(shi),SensePose的(de)技術主(zhu)要(yao)(yao)還是在(zai)(zai)于視頻的(de)實時處理與分(fen)(fen)析,傳統的(de)人體動(dong)(dong)作分(fen)(fen)析與姿態恢復需(xu)要(yao)(yao)用紅外(wai)光或結(jie)構光,而SensePose只需(xu)要(yao)(yao)用普通的(de)RGB攝像頭就能(neng)夠完成需(xu)求,既降低了(le)成本,又提高了(le)。這(zhe)套(tao)技術未來(lai)可以應用在(zai)(zai)游(you)戲、AR等領域,現在(zai)(zai)商湯科技已經(jing)在(zai)(zai)跟部分(fen)(fen)游(you)戲互動(dong)(dong)型公司洽談合(he)作。

在去(qu)年GTC中國上,商湯還發(fa)布了(le)一款視(shi)頻結構化處理(li)系統SenseVideo。應用在安(an)防(fang)監控視(shi)頻當中可以(yi)準確地檢測到(dao)人、車和非機動車,并且給(gei)它們打上所有的(de)屬性和標簽,比如人的(de)年齡、性別(bie)、穿著等。

二、牽手英偉達,輻射下游企業

除了在GTC上設立展位外,商湯科技還是英偉達的平臺(tai)戰略合作伙伴,兼本次GTC大會的贊助商之(zhi)一。

對話商湯科技徐立:解讀單目實時動捕技術SensePose

其實,雖(sui)然商(shang)湯科技目(mu)前擁有(you)2千多塊GPU,但是(shi)(shi)對于英偉(wei)(wei)達(da)來說還不是(shi)(shi)一個非常巨大(da)的(de)(de)量級。徐立(li)表示,商(shang)湯與(yu)英偉(wei)(wei)達(da)更主要的(de)(de)是(shi)(shi)生態鏈(lian)的(de)(de)合作,通過(guo)商(shang)湯在(zai)英偉(wei)(wei)達(da)的(de)(de)底層架構(gou)上搭建的(de)(de)AI應用(yong),可以輻(fu)射(she)非常多的(de)(de)下(xia)游企業,比如(ru)使用(yong)商(shang)湯產品的(de)(de)安防、金融類客戶(hu),都能漸(jian)漸(jian)培(pei)養成使用(yong)GPU的(de)(de)客戶(hu),擴大(da)下(xia)游生態鏈(lian)。

其中一個很典型的例子就是:當商湯科技的算法入圍中國網信辦視頻審查系統后,原始是用CPU的集群,商湯推薦使用GPU,因此網信辦幾乎完全重構了一套GPU系統。另一方面,英偉達的新產品也會第一時間與商湯進行對接,比如現在商湯科技的人臉識別系統SenseFace就跑在了英偉達今年3月剛剛推出的Jetson TX2上。(智慧城市背后的心臟 英偉達人工智能工作站Jetson TX2解讀

三、創業公司一定要站在技術前沿

隨著深度學習在(zai)應(ying)用中的(de)顯著突破(po),近年來一大批(pi)人工智能初創企業(ye)開始逐漸涌現。而(er)最(zui)近不(bu)少大型公司(si)也在(zai)逐漸進軍這一領(ling)域,為客戶提供人工智能解(jie)決方(fang)案,初創企業(ye)該如何和這類大公司(si)競爭呢?

徐立(li)認為(wei)(wei),大公司將會更加專注于(yu)(yu)其(qi)主營業務,比如谷歌(ge)的(de)(de)云技術(shu)也非(fei)常(chang)優秀,但亞馬遜的(de)(de)云服務仍舊占據市(shi)場主流,就是(shi)因為(wei)(wei)主營業務的(de)(de)重心側重不同。對于(yu)(yu)創業公司而言,如果(guo)全員(yuan)專注于(yu)(yu)局部(bu)發力,在細分領(ling)域其(qi)實是(shi)“以多打少”的(de)(de)。

因此,對于技術創(chuang)業型公司而(er)言,公司一定(ding)要(yao)沖在該細分(fen)領域的(de)技術最(zui)前沿(yan),才能(neng)在市場競爭(zheng)中占有優勢。舉個例(li)子,商(shang)湯打造了原創(chuang)的(de)深度學習平(ping)臺,可以處(chu)理1207層的(de)網(wang)絡;而(er)目前如Facebook的(de)Caffe2、谷歌的(de)TensorFlow等開源框架在約(yue)300多層時便不(bu)足以滿(man)足需求了。

四、人才是第一生產力

然而,人們對(dui)深(shen)度(du)學習(xi)應用需(xu)求的(de)(de)(de)迅(xun)速增強也帶來了(le)(le)一個問題(ti)——人才短缺(que)。2017年(nian)以來,以深(shen)度(du)學習(xi)為主的(de)(de)(de)AI人才缺(que)失問題(ti)已經引起(qi)了(le)(le)不少(shao)公(gong)司(si)的(de)(de)(de)強烈注意,Facebook與(yu)谷歌在內(nei)(nei)部(bu)打造人工智能學院(yuan),從內(nei)(nei)部(bu)工程師中進行(xing)培養的(de)(de)(de)新(xin)聞也陸(lu)續見報。國內(nei)(nei)方(fang)面(mian),從BAT到大(da)大(da)小(xiao)小(xiao)的(de)(de)(de)企業(ye)都在進行(xing)人才的(de)(de)(de)招攬與(yu)挖掘(jue),比如微信事(shi)業(ye)群在3月時就曾一舉貼出30個AI高級(ji)學霸的(de)(de)(de)招聘信息。針對(dui)這一現狀,智東西也詢(xun)問了(le)(le)商湯(tang)科技的(de)(de)(de)解(jie)法。

徐立表示,商(shang)湯(tang)科技使(shi)用(yong)的是(shi)內生(sheng)人(ren)才培(pei)養(yang)機(ji)制(zhi),由公司內部(bu)一(yi)大(da)(da)批有經驗(yan)的導師(shi)來自己(ji)培(pei)養(yang)。國內優秀且聰明(ming)的人(ren)才其(qi)實非常(chang)多(duo),“大(da)(da)二(er)(er)、大(da)(da)三的學生(sheng)真是(shi)非常(chang)厲(li)害(hai)”,因此商(shang)湯(tang)整個團隊相對比較年輕,而且第(di)一(yi)更(geng)熟(shu)悉公司業務,第(di)二(er)(er)便宜很多(duo)。

對話商湯科技徐立:解讀單目實時動捕技術SensePose