
車東西(公眾號:chedongxi)
文 | 肖涵
自(zi)動(dong)駕駛(shi)技術(shu)經(jing)過(guo)多年發展(zhan),已經(jing)進入到了落地的關(guan)鍵時期,媒(mei)體和公眾往(wang)往(wang)也(ye)喜歡(huan)將視線都聚(ju)焦在(zai)自(zi)動(dong)駕駛(shi)公司(si)身上。
但在(zai)長沙、廣(guang)州等(deng)地已經(jing)落(luo)地行駛的無人(ren)出租車背后,其(qi)實都離(li)不開AI數(shu)據采集標注這個工種。
▲自動駕(jia)駛數據標注圖示
正(zheng)是海量高質量AI測數據的(de)“喂養”,才讓(rang)無人車上搭載的(de)AI算法能夠感知識別(bie)道路(lu)上的(de)物體,可以說數據訓練(lian)對于自動駕(jia)駛來講,發揮著“眼睛”的(de)作用,如果不(bu)能正(zheng)確感知道路(lu)環境,智能駕(jia)駛的(de)決策系統(tong)就無法正(zheng)常工作。
那么自動駕駛公司(si)到底需(xu)要(yao)什么樣的(de)數據?背后的(de)AI數據采集(ji)和標注(zhu)工作又是(shi)如何進行的(de)呢?
帶著(zhu)這些疑問,車東西與國(guo)內頭部(bu)數(shu)據采集(ji)標注公司云測數(shu)據總(zong)經(jing)理(li)賈(jia)宇航進行了(le)一次長達90分鐘的(de)深度(du)對話,揭開了(le)AI數(shu)據采集(ji)標注行業的(de)神秘面紗(sha)。
▲云測數(shu)據房山辦公區
一、自動駕駛頭部企業的特征:數據量第一
谷歌Waymo是(shi)全球公認的自動(dong)駕駛領頭羊,但官方在宣傳時,其實很(hen)少直接說(shuo)自己(ji)的技術如何(he)厲害,不過其往往會重點強(qiang)調一個數(shu)據,就是(shi)自己(ji)的路測里(li)程數(shu),超過多少多少萬英里(li)。
在此前Waymo公(gong)布第五代自動駕駛系統時,其實際路測(ce)(ce)里程(cheng)已經(jing)到達2000萬(wan)英里(3200萬(wan)公(gong)里),虛擬測(ce)(ce)試(shi)里程(cheng)更是超過(guo)了160億公(gong)里。
▲Waymo的無(wu)人車在街頭采集(ji)數據(ju)
自動駕駛軟件的(de)核心環(huan)節為感知和決策。
為(wei)了(le)實現更好的感知結果,大(da)部分公(gong)司都會引入深度學習(xi)等AI技(ji)術。而想讓深度學習(xi)的模型(xing)對(dui)某一類(lei)物(wu)體的識別率足夠精準(zhun),就(jiu)需(xu)要(yao)大(da)量該類(lei)物(wu)體的不同數據,例如圖像、視頻(pin)、3D點云等。
與此(ci)同時,無人車(che)想(xiang)要量產,還必須(xu)要能(neng)夠應(ying)(ying)付各類小概率(lv)事件(jian)(jian)(比如十(shi)字路口(kou)突然有行人摔倒在地(di)的情況),為了讓決策(ce)算法能(neng)夠適應(ying)(ying)這種小概率(lv)事件(jian)(jian),自(zi)動駕駛(shi)公司(si)也(ye)需要有這種小概率(lv)事件(jian)(jian)的數據進行針對(dui)性地(di)研發和測試。
所以(yi)總結一(yi)下(xia)就是,無(wu)論在感知還(huan)是決策(ce)環節,自動駕(jia)駛公司都需要(yao)大量的(de)交通數(shu)據來(lai)進行研發和測試(shi),數(shu)據量就決定了(le)自動駕(jia)駛公司的(de)技術水準。
這正是Waymo為(wei)什(shen)么(me)一直強調自家數據(ju)量足(zu)夠大的(de)原因(yin)。
除了Waymo,特斯拉也在(zai)量產(chan)車上部署了(le)一(yi)個(ge)影(ying)子模式,就是(shi)在(zai)人類駕(jia)駛(shi)員(yuan)開車時,其名(ming)為(wei)Autopilot的(de)L2級(ji)自動駕(jia)駛(shi)系統(tong)也會工(gong)作,去收集一(yi)些特(te)定數據,然后(hou)上傳(chuan)到后(hou)臺來(lai)優化Autopilot系統(tong),并逐步(bu)從(cong)L2升級(ji)到FSD(L4級(ji)完全(quan)自動駕(jia)駛(shi))。
▲特斯拉的L2級自動駕駛系(xi)統表現極佳
特斯拉(la)旗下的車型目前總銷量超過100萬(wan)臺,按照(zhao)每臺車2萬(wan)公(gong)里(li)(li)/年的行駛里(li)(li)程來算,特斯拉(la)每年理論上最多可收集200億公(gong)里(li)(li)的實(shi)際路測數據(實(shi)際情況只收集特定數據)。
正是(shi)這(zhe)樣(yang)的數據規模,才讓特斯(si)拉(la)的Autopilot系統遙遙領先(xian)于奔馳、寶馬(ma)、大眾等(deng)(deng)傳統車企,并(bing)且不斷推出像是(shi)Navigate on Autopilot、智能召(zhao)喚、紅(hong)綠燈識別(bie)等(deng)(deng)新(xin)功能。
總結來看,自動駕駛技術領先的企業,數據量一定(ding)領先。
二、自動駕駛爭奪戰打響 對高質數據需求增加
自(zi)動駕(jia)駛(shi)(shi)技術(shu)應用后(hou),不僅僅能夠解放人(ren)類駕(jia)駛(shi)(shi)員,還(huan)能組成智(zhi)慧交(jiao)通體系(xi)提(ti)升整個社會(hui)的通行(xing)效率,并改變網約車(che)行(xing)業、汽車(che)行(xing)業、運輸(shu)行(xing)業甚至是(shi)零售行(xing)業(例如移(yi)動無人(ren)商店),意義重大。
所以在谷歌Waymo研發數年后,中(zhong)國、美國、歐洲、日韓等(deng)地(di)區(qu)也相繼(ji)涌現出(chu)大量(liang)自(zi)動(dong)駕(jia)駛公(gong)司(si),而像(xiang)是蘋果、英特爾、百度、上(shang)汽(qi)、通用、本田等(deng)IT巨頭(tou)、車企巨頭(tou)也加入到戰(zhan)局之中(zhong),一場(chang)席卷(juan)全球的(de)自(zi)動(dong)駕(jia)駛技術爭奪(duo)戰(zhan)已然打響。
正如(ru)前文所(suo)言(yan),在(zai)研發高(gao)等級自動(dong)駕(jia)駛技術(shu)時,還原實(shi)際場(chang)(chang)景的路測數(shu)據或交通數(shu)據,是關鍵(jian)“燃料”。在(zai)這場(chang)(chang)自動(dong)駕(jia)駛技術(shu)爭奪戰的背后,高(gao)質(zhi)量(liang)的數(shu)據已然成為(wei)各(ge)大(da)玩家護城河建(jian)設(she)的重(zhong)(zhong)中之重(zhong)(zhong)。
▲美國街(jie)頭的Waymo無人(ren)車
為了助力本(ben)國(guo)企業搶(qiang)占自動駕駛技(ji)術高地,各國(guo)政府也在迅速出臺政策為技(ji)術應用落地鋪(pu)路(lu),并(bing)規范行(xing)業發(fa)展。
例如今年2月(yue)份,發改委、工信部、財政部等11部委聯合印發的《智(zhi)能汽(qi)車(che)創新發展戰略》,給了智(zhi)能汽(qi)車(che)一(yi)個較為(wei)清晰(xi)準(zhun)確的發展時間(jian)規劃(hua),在業內(nei)人士(shi)看來(lai),“戰略”勾勒出智(zhi)能汽(qi)車(che)發展的“遠大前(qian)景”。
又例(li)如北京最近(jin)出(chu)臺的(de)路測(ce)(ce)規定,已(yi)經(jing)允許無人車(che)進行載(zai)人測(ce)(ce)試(即(ji)無人出(chu)租車(che)可以上路測(ce)(ce)試了),但同時(shi)也提出(chu)了一系列要(yao)求,比(bi)如想要(yao)申請載(zai)人測(ce)(ce)試,需(xu)要(yao)先通過實車(che)+仿真(zhen)測(ce)(ce)試,且(qie)此前的(de)無載(zai)人測(ce)(ce)試中(zhong),最近(jin)1年內(nei)不能出(chu)現過交通事故。
毫(hao)無疑問,隨著自動(dong)駕駛競賽的(de)(de)逐(zhu)漸(jian)白熱化和政策的(de)(de)不斷演變,自動(dong)駕駛行業(ye)對行駛過程中(zhong)涉及的(de)(de)真實場(chang)景數(shu)據的(de)(de)需求量可謂(wei)是日(ri)益劇(ju)增,誰擁有更多的(de)(de)數(shu)據,誰就能(neng)夠在這場(chang)爭奪(duo)戰中(zhong)取勝。
三、云測數據深耕質量 致力于為行業提供好數據
自(zi)動駕駛研發(fa)離不開數據的支(zhi)持,但數據也并非是“傻多”,還需要質量到位才能發(fa)揮(hui)作用。
云測數據(ju)總經理賈宇航告(gao)訴車東西,高(gao)質量(liang)的數據(ju)有三個大框(kuang)架——還原(yuan)場景(jing)、大數據(ju)量(liang)、標注精(jing)準(zhun)度高(gao)。
還原場景(jing)(jing)就是(shi)(shi)說自(zi)(zi)動(dong)(dong)駕駛數(shu)據(ju)要有針對性(xing),比如某自(zi)(zi)動(dong)(dong)駕駛公司想訓練一下無人車(che)應對十字(zi)路口(kou)行人摔倒這種突(tu)發情況的能力,那么(me)算(suan)法(fa)需要的場景(jing)(jing)數(shu)據(ju)就必須是(shi)(shi)發生在十字(zi)路口(kou),如果是(shi)(shi)高速公路則必然不行。
同(tong)樣的(de),即使是在十字(zi)路口這一特(te)定場景(jing)下,還(huan)要盡(jin)可能(neng)(neng)多的(de)讓數據豐(feng)富起(qi)來,比(bi)如是白天、黑夜、雨天、陰天的(de)十字(zi)路口,同(tong)時行人的(de)衣著(zhu)、摔倒(dao)的(de)姿(zi)勢、過程,也要盡(jin)可能(neng)(neng)地覆蓋更多的(de)可能(neng)(neng)性。
只有這樣,才能讓無(wu)人車上的AI技術完整識別(bie)所需場景,并作出正(zheng)確決策。
對(dui)自動(dong)駕駛公司來說(shuo),想要收集到類似(si)“路口行人摔倒”的場景數據(ju),自然十分(fen)耗時耗力。
為(wei)了解(jie)決這一難題(ti),云測數(shu)據在北京(jing)、橫店、天津(jin)等地搭建了場(chang)景實(shi)驗(yan)室,為(wei)的就是能夠模擬還原不同的場(chang)景來(lai)進行數(shu)據采(cai)集。
▲云測數(shu)據的成員在搭建場景實驗室
“比如我(wo)們在(zai)我(wo)們自(zi)己的數(shu)據采集基地搭建了(le)路口(kou)這個場(chang)景后,會招(zhao)募上(shang)千名(ming)群演過來模仿路人(ren)摔(shuai)倒的情況,每個人(ren)的衣(yi)著(zhu)、行(xing)為舉(ju)止都(dou)不一(yi)樣,并且還會考慮到(dao)(dao)白(bai)天、黑夜(ye)、黃昏(hun)等不同(tong)的光照(zhao)條件,來還原客戶所需(xu)要(yao)的場(chang)景數(shu)據,做到(dao)(dao)足(zu)夠(gou)真實。”賈(jia)宇航這樣說道。
通常情(qing)況下,云測數據團(tuan)隊(dui)會使用自動駕駛公(gong)司(si)提供的無(wu)人(ren)(ren)車來采(cai)集數據,以(yi)完(wan)美(mei)匹配該(gai)公(gong)司(si)的傳感(gan)器(qi)設定。而如(ru)果(guo)暫(zan)無(wu)車輛可用,云測數據團(tuan)隊(dui)也擁有(you)自購的各(ge)類激(ji)光雷達(da)、攝像頭等硬件(jian)設備,并擁有(you)專業人(ren)(ren)員進行傳感(gan)器(qi)標(biao)定,可以(yi)滿足不同自動駕駛公(gong)司(si)需(xu)求。
采集足(zu)夠豐(feng)富的數據(ju)(ju)只是提供“養料”的第一步,隨(sui)后還要對(dui)數據(ju)(ju)中的關鍵物(wu)體(ti)(例(li)如車輛、行(xing)人、甚至是固(gu)定物(wu)體(ti))進行(xing)標注(zhu),才(cai)能供深度學習算(suan)法使用。
數(shu)(shu)據(ju)標注(zhu)(zhu)工(gong)作(zuo)(zuo)不僅需要(yao)標注(zhu)(zhu)人員擁有特定領(ling)域知識(shi)來(lai)(lai)保證(zheng)數(shu)(shu)據(ju)標注(zhu)(zhu)的(de)(de)精準(zhun)性,同時(shi)又對(dui)標注(zhu)(zhu)工(gong)具(ju)的(de)(de)熟練使用(yong)、以及作(zuo)(zuo)業中的(de)(de)效率保證(zheng)、標準(zhun)化流轉管理等等眾多因素有著要(yao)求。對(dui)于自(zi)動駕(jia)駛公(gong)司來(lai)(lai)說,將數(shu)(shu)據(ju)標注(zhu)(zhu)工(gong)作(zuo)(zuo)交給云(yun)測數(shu)(shu)據(ju)這類專(zhuan)業公(gong)司其(qi)實(shi)是最好(hao)的(de)(de)選擇。
這(zhe)方面,云(yun)測數據(ju)在華(hua)東(dong)、華(hua)南、華(hua)北等(deng)地(di)擁有著自建的數據(ju)標注基(ji)地(di),通過具有自主(zhu)知識產權的標注平(ping)臺和專業的標注人員團隊(dui),為(wei)高質(zhi)量(liang)的AI數據(ju)交付提供著堅實支撐。
“數據標(biao)(biao)注(zhu)(zhu)(zhu)的(de)(de)(de)準確率(lv)和貼(tie)(tie)合(he)度至關(guan)重要,比如要在一個(ge)2D圖片或3D點云圖里標(biao)(biao)注(zhu)(zhu)(zhu)出(chu)汽車,要盡可能地(di)(di)不出(chu)現(xian)錯標(biao)(biao)和漏(lou)標(biao)(biao)的(de)(de)(de)情況。同(tong)時,標(biao)(biao)注(zhu)(zhu)(zhu)的(de)(de)(de)矩形框還要盡可能地(di)(di)與物體貼(tie)(tie)合(he)。”賈(jia)宇航解釋道,“云測數據利(li)用自主開發的(de)(de)(de)標(biao)(biao)注(zhu)(zhu)(zhu)工具,即使是(shi)3D點云圖像(xiang),也(ye)可以保證數據標(biao)(biao)注(zhu)(zhu)(zhu)的(de)(de)(de)流暢性和時效性,以及(ji)行業內領先(xian)的(de)(de)(de)數據標(biao)(biao)注(zhu)(zhu)(zhu)精準度。而像(xiang)是(shi)2D圖像(xiang)中(zhong)的(de)(de)(de)標(biao)(biao)注(zhu)(zhu)(zhu)貼(tie)(tie)合(he)度,也(ye)可以做(zuo)到5個(ge)像(xiang)素以內。”
▲云(yun)測數據的(de)團隊在進(jin)行3D點云(yun)標(biao)注
“正是定制化的(de)(de)(de)場景、豐富的(de)(de)(de)數(shu)據(ju)量(liang),還有高(gao)質量(liang)的(de)(de)(de)標注結果,讓云測(ce)數(shu)據(ju)獲(huo)得了行業內幾(ji)乎所有的(de)(de)(de)自(zi)(zi)動駕駛客(ke)戶認可,既包(bao)括自(zi)(zi)主、合資(zi)車企,大型Tier1,也有做(zuo)無人出租車的(de)(de)(de)自(zi)(zi)動駕駛公司。”賈宇(yu)航這(zhe)樣說道。
據(ju)(ju)賈宇航(hang)介紹,涉足自動(dong)駕駛領(ling)域3年多來,云測(ce)數據(ju)(ju)僅在難度(du)較大(da)的3D點云數據(ju)(ju)上,就大(da)概輸出了(le)接近1000萬幀的數據(ju)(ju),可謂(wei)是經驗豐富。
“我(wo)們(men)的(de)產(chan)品價格處于主流區間(jian),不(bu)僅(jin)能(neng)提供豐(feng)富的(de)高質量場(chang)景化(hua)數(shu)據,還能(neng)保證項目的(de)高效交付,獲(huo)得(de)了很多客戶(hu)的(de)好評(ping),有些自(zi)動駕駛(shi)公司還會(hui)直接(jie)跟我(wo)們(men)簽訂年(nian)度服(fu)務協議,把他們(men)采集的(de)數(shu)據交給我(wo)們(men)來進行標注。”在對(dui)話最后,賈宇航這樣說道。