智駕網(wǎng) 2024-07-22 11:08
輕舟智航于騫:海量數(shù)據(jù)閉環(huán)是端到端能力上車的基石
分享
端到端和傳感器是兩個不同維度的事情,端到端不管是使用激光雷達還是不使用激光雷達,純視覺或者激光雷達跟端到端并沒有直接的關(guān)系。視覺的傳感器可以用端到端的方法進行訓(xùn)練,加了激光雷達一樣可以用端到端的方法訓(xùn)練,其實本質(zhì)上對端到端并沒有很大的影響,兩個不同的維度,一個是傳感器的維度,一個是算法方法的維度。

2024年7月11-13日,2024中國汽車論壇在上海嘉定舉辦。本屆論壇以“引領(lǐng)新變革,共贏新未來”為主題,由“閉門峰會、大會論壇、10多場主題論壇、9場重磅發(fā)布、主題參觀活動”等多場會議和若干配套活動構(gòu)成,各場會議圍繞汽車行業(yè)熱點重點話題,探索方向,引領(lǐng)未來。其中,在7月12日下午舉辦的“主題論壇六:策略共鳴,未來共筑”上,輕舟智航聯(lián)合創(chuàng)始人、CEO于騫發(fā)表精彩演講。以下內(nèi)容為現(xiàn)場演講實錄:


image.png


非常感謝許總工和各位現(xiàn)場嘉賓朋友們。特別有幸分享一些關(guān)于智能駕駛方面的一些我的理解。最近智能駕駛特別火。L2+、Robotaxi、L4都特別火,市場上很多的聲音。也看到這兩天小鵬汽車的小鵬總也講了很多關(guān)于Robotaxi、端到端發(fā)展的看法。今天特斯拉發(fā)布了消息,本來8月8日發(fā)布Robotaxi的車型,推遲到了10月份。我們看到整個在自動駕駛或者智能駕駛領(lǐng)域,人類夢想完全無人駕駛已經(jīng)幾十年了,從上個世紀(jì)開始大家夢想這件事,已經(jīng)有很長時間的迭代和發(fā)展了,也在技術(shù)不斷演進。

  

最近端到端的技術(shù),技術(shù)的演進方向有一個比較明確的趨勢出現(xiàn)了。使得端到端新的技術(shù)趨勢對整個的現(xiàn)在行業(yè)起到非常大的變化。這個背后很大的邏輯是我們從自動駕駛領(lǐng)域也是泛人工智能的應(yīng)用,周總講了算法、算力和數(shù)據(jù)。這里面數(shù)據(jù)是非常關(guān)鍵的一點,在這個端到端的領(lǐng)域里面,很大程度上是數(shù)據(jù)方面發(fā)揮了非常大的作用。它的核心的邏輯是我們從產(chǎn)生的模型,把一個自動駕駛的整體的能力拆分成感知、規(guī)控等等不同的功能模塊工作的。端到端技術(shù)是直接從傳感器的輸入直接經(jīng)過模型的處理,變成了一個軌跡甚至是直接的命令的剎車油門的控制命令。

  

對數(shù)據(jù)的使用其實更加高效,使很多基于規(guī)則這樣的方法變得不再適用,使得數(shù)據(jù)價值變得越來越大,端到端是通向高等級甚至無人駕駛技術(shù)的必由之路,是真正的實現(xiàn)了數(shù)據(jù)驅(qū)動的方式,來實現(xiàn)研發(fā)泛式的變化。

  

從特斯拉推遲Robotaxi來看,因為特斯拉在端到端方面非常領(lǐng)先,去年7月份馬斯克就在推特上發(fā)了一些視頻。關(guān)于端到端的實車展示,即便到現(xiàn)在還沒有完全實現(xiàn)有Robotaxi的應(yīng)用。這個道路還是比較曲折的。真正實現(xiàn)完全無人駕駛的技術(shù)路徑,應(yīng)該是我們理解大概這么一個過程:首先其實在傳統(tǒng)的ADAS領(lǐng)域,像早期的博世很多的Global的很大的Tier 1已經(jīng)很好了,但是這種方式是比較早期的階段,只能實現(xiàn)一些用戶體驗不是很明顯的基礎(chǔ)功能。

  

再往上是L2+,實現(xiàn)一些更加高級的功能,到高速的NOA,到城市NOA,這么一個過程,最終我們相信無人駕駛一定會到來的,只是這條路徑會比較長、比較曲折,這里面非常重要的分水嶺是OTA,我們可以實現(xiàn)更新,可以使產(chǎn)品越用越好,對于我們作為一家做智能駕駛公司來講,我們所有的產(chǎn)品都是基于分水嶺這邊的,我們是做OTA升級的產(chǎn)品。從NOA的產(chǎn)品高速NOA到城市NOA到完全無人駕駛,這個過程比較長,但這個過程一定不斷產(chǎn)生商業(yè)價值,不斷滿足用戶持續(xù)增長的對智能化的需求,不斷創(chuàng)造價值,對我們技術(shù)棧打磨非常重要,對商業(yè)閉環(huán)獲得更大的商業(yè)成功,實現(xiàn)完全的無人駕駛也是非常關(guān)鍵的。

  

現(xiàn)階段我們很多車企非常焦慮,特斯拉都做到這個份上,卷得不得了,恨不得Robotaxi明天就來了?,F(xiàn)階段來講,特別高等級的城市NOA、Robotaxi其實是非常小的一個滲透率?,F(xiàn)階段今天真正能夠?qū)崿F(xiàn)用戶價值的特別好的體驗在高速場景,界限比較明顯,而且成本比較低,這點是現(xiàn)階段對我們現(xiàn)在廣大用戶能夠馬上體驗到智能化體驗的最好的產(chǎn)品形態(tài)。

  

目前輕舟有接近40萬的NOA的裝車量,在行業(yè)里我們在帶有NOA的智能駕駛軟件系統(tǒng)我們上車量最大。我們是采用國產(chǎn)化的平臺。所以這方面我們已經(jīng)取得非常好的領(lǐng)先優(yōu)勢。這里面也幫助我們積累了大量的能力,怎樣更好地利用海量的數(shù)據(jù),實現(xiàn)更高階的智能駕駛的演進。

  

我們認(rèn)為城市NOA是輔助駕駛的天花板,是完全無人駕駛的無門檻。可以看到整體的無人駕駛的場景里面,他比城市NOA更難,但是場景是非常接近的,要處理我們城市中的很多復(fù)雜的場景,基本到哪都能開,這是必然的。這個口號我們也是在去年喊出來了,城市NOA是我們未來演進的方向,車企的滲透率很多高端車型上的滲透率也在逐漸加大。

  

我們看到在最終實現(xiàn)完全無人駕駛,必須要實現(xiàn)大規(guī)模數(shù)據(jù)閉環(huán)的能力,這點因為隨著AI的發(fā)展,算法、算力、數(shù)據(jù),數(shù)據(jù)價值越來越大,我們看到很多的技術(shù)演進尤其是一些端到端的模型來講。我們的模型并沒有做任何的變化,其實我的數(shù)據(jù)質(zhì)量和數(shù)據(jù)分布還有數(shù)據(jù)規(guī)模變得更好,使我的體驗增加了非常多,這點是數(shù)據(jù)帶來的價值,一方面數(shù)據(jù)規(guī)模大很重要,但是數(shù)據(jù)的質(zhì)量、分布也是非常重要的。

  

像我們目前來講在中國有幾十萬臺的上車量高價值的數(shù)據(jù)覆蓋以及數(shù)據(jù)質(zhì)量,都得到了非常好的支持。所以我主要分享這些關(guān)于這幾方面做的一些工作。

  

大家可以想一下,幾十萬臺車每天路上跑,每天產(chǎn)生巨量的數(shù)據(jù),如何能高效使用這些數(shù)據(jù),使我們能夠不斷迭代我們的產(chǎn)品,能夠以月甚至周為單位,更新我們的產(chǎn)品體驗非常重要,數(shù)據(jù)標(biāo)注、數(shù)據(jù)增強、數(shù)據(jù)挖掘等等情況。

  

我們會有一些怎樣實現(xiàn)自動化的標(biāo)注,我們會通過一些離線的大模型,實現(xiàn)3D的自動化標(biāo)注,可以展現(xiàn)的是,這里所有的標(biāo)注的結(jié)果都是自動化生成的,使我們在99%以上的數(shù)據(jù)規(guī)模量上都是不需要做任何的人工干預(yù)的,可以用海量的數(shù)據(jù)。

  

這是一個統(tǒng)一模型,當(dāng)有大量的車在路上跑的時候,我們大概每天都有超過十萬幀的數(shù)據(jù)回傳,經(jīng)過大量的自動化的篩選來進行的數(shù)據(jù)回傳,如何進行自動化的標(biāo)注,這是一個在數(shù)據(jù)閉環(huán)非常重要的一個環(huán)節(jié)。這個相當(dāng)復(fù)雜的場景完全進行復(fù)雜的標(biāo)注。這樣的標(biāo)注對我們訓(xùn)練車載的模型,起到至關(guān)重要的作用。

  

可以看到我們在不光白天還有夜間自動化標(biāo)注的情況。

  

除了3D環(huán)境的自動化數(shù)據(jù)生成,我們在2D的圖像自動化標(biāo)注也做了大量的工作。我們幾乎不需要再對車載圖像做任何的車載數(shù)據(jù)的任何人工標(biāo)注,完全自動化生成的,圖像標(biāo)注不管分割還是在目標(biāo)檢測這些耗費大量的人工的力量的,我們通過完全自動化的方式,使我們可以把實時回傳的數(shù)據(jù)在云端進行自動化標(biāo)注,實現(xiàn)離線的端到端的模型。

  

還有用道路幾何,會通過對地圖預(yù)標(biāo)注的方式,可以在BEV的鳥瞰圖里面,在道路幾何的完全自動化標(biāo)注,可以節(jié)省60%的人工標(biāo)注成本,這個方面也是大量使用了基于Transformer的BEV網(wǎng)絡(luò),使我們在很多不同場景的泛化能力非常強。我們在中國幾乎是所有的高速公路上幾乎是所有的地方我們都可以有這樣的高質(zhì)量的數(shù)據(jù)的回傳,大量減少我們的人工標(biāo)注的耗時的問題。

  

這是一些像高速和城市的不同情況下,尤其路口的情況下,我們通過自動化標(biāo)注的高效訓(xùn)練實現(xiàn)道路幾何的識別,可以滿足我們量產(chǎn)方案里面對輕地圖的需求,我們不再依賴于高精地圖的使用而是使用不依賴地圖的情況,只使用標(biāo)精地圖,和一些環(huán)境感知的能力,構(gòu)建一個可以對實時環(huán)境感知的場景。

  

數(shù)據(jù)增強方面,剛剛在講到測試方面,我們有很多的仿真測試,其實在數(shù)據(jù)增強仿真測試?yán)锩嬗泻苤匾囊徊糠?,因為我們在平時數(shù)據(jù)采集中,有一些局限,通過數(shù)據(jù)增強我們可以把我們原始采集的圖像,比如像雨后帶雨滴,不同情況下的數(shù)據(jù)增強,測試是不是能夠適應(yīng)這樣的條件。

  

我們在關(guān)于語言模型方面,我們每天可以觸及到大量的道路的數(shù)據(jù),如何在這種道路數(shù)據(jù)中發(fā)現(xiàn)我們比較感興趣的,我們做了一個非常方便叫做基于視覺的表征的向量數(shù)據(jù)庫,這個數(shù)據(jù)的收集過程中,我們對圖像數(shù)據(jù)進行了索引,索引以后可以用非常簡單的文字檢索需要的數(shù)據(jù)。比如直接檢索夜間大卡車,收集相關(guān)的場景的片斷。更快讓我們發(fā)現(xiàn)對環(huán)境中沒有價值的數(shù)據(jù)。因為我們的數(shù)據(jù)量規(guī)模非常大,檢索可以大大縮減我們對于數(shù)據(jù)挖掘里面的這些速度。

  

這里展示了基于文字到圖像的多模態(tài)挖掘能力,比如經(jīng)常會碰到灑水車的情況,人工找什么地方有灑水車是非常復(fù)雜的,通過自動化的圖像的索引可以非常輕松用語言文字輸入,檢索到觸及數(shù)據(jù)里面所挖掘的情況,這是數(shù)據(jù)挖掘非常重要的作為測試驗證的方法。

  

這個是另外一個場景,挖土車,施工場景在高級輔助駕駛、自動駕駛非常常見的或者非常有挑戰(zhàn)的情況,有各式各樣的挖土車,通過我們數(shù)據(jù)挖掘方式,可以把少見的特殊的車輛,能夠更快速的把他們找出來,用來訓(xùn)練我們的車載模型,這方面其實就是我們發(fā)現(xiàn)了,數(shù)據(jù)的使用上來講,不僅僅數(shù)據(jù)規(guī)模大,很大數(shù)據(jù)的覆蓋和質(zhì)量,如果你的數(shù)據(jù)規(guī)模很大,但是都是同質(zhì)化的,甚至數(shù)據(jù)千篇一律沒有變化的數(shù)據(jù)也是有問題的,我們有相對少的訓(xùn)練數(shù)據(jù)實現(xiàn)大訓(xùn)練數(shù)據(jù)的效果,減少我們在訓(xùn)練中耗費的訓(xùn)練資源。數(shù)據(jù)的質(zhì)量和訓(xùn)練規(guī)模一樣重要。

  

像三輪車很常見。像兒童也是我們常見的一些在道路上比較高風(fēng)險的場景。我們可以通過圖像檢索方式快速把他們挖掘出來。

  

這里展示的是離線點云模型訓(xùn)練出來和車載的BEV模型,如果有差別也會作為一個很重要的風(fēng)險發(fā)現(xiàn)的方式,相當(dāng)于我們在離線模型的能力更強,和車載比對之后,如果漏檢和誤檢,可以更快發(fā)掘出來,提升能力。

  

像很多領(lǐng)域非?;?,尤其多模態(tài),這里面我們把多模態(tài)的技術(shù)應(yīng)用在自動駕駛領(lǐng)域,尤其是通過離線的點云模型訓(xùn)練,用他實現(xiàn)跨模態(tài)的知識蒸餾,優(yōu)化量產(chǎn)車上,并不存在,比如大規(guī)模的量產(chǎn)車并沒有激光雷達,但是我們在沒有激光雷達的車輛里面,使用了基于離線帶三維模型的訓(xùn)練數(shù)據(jù),使跨模態(tài)的知識蒸餾提升量產(chǎn)車的駕駛體驗,我們發(fā)現(xiàn)這樣的方法對所有的線上模型有非常大的提升,減少了我們在很多量產(chǎn)車上進行重新數(shù)據(jù)收集的麻煩。

  

因為我們在大模型量產(chǎn)車?yán)锩?,不使用激光雷達,以視覺為主的量產(chǎn)車,主要考慮我們是以性價比的方式向我們的主機廠客戶提供一個體驗好、性價比很好的方案,所以我們大的規(guī)模量產(chǎn)車?yán)锩娌淮嬖诩す饫走_,我們怎么能夠?qū)λ麄冞M行更好3D的點云的構(gòu)建和標(biāo)注,我們完全使用基于NeRF方法,做了非常高效改進,幾乎可以實現(xiàn)厘米級的精度,比如泊車的場景,這是完全不使用激光雷達不使用其他任何所謂的傳統(tǒng)三維重建方法,完全神經(jīng)網(wǎng)絡(luò)生成的紋理很少的情況下,實現(xiàn)三維重建的場景。尤其泊車非常管用。在中國泊車會有很多的懸空障礙物,通過三維重建技術(shù),可以實現(xiàn)泊車場景的數(shù)據(jù)標(biāo)注。

  

這是我們關(guān)于在高速以及比較小的物體,比如小的障礙物的三維重建或者不規(guī)則的三維重建的效果。

  

剛剛講的三維重建是對固定場景的重建,是一個單時間的,是在XYZ三維重建,四維重建是XYZ和時間的重建,這個其實是我們端到端模型使用非常重要的環(huán)節(jié)。當(dāng)我們端到端模型訓(xùn)練的時候,當(dāng)模型產(chǎn)生不一樣的位置的變化的時候,你需要模型給你輸出不同的場景的變化,使你的模型產(chǎn)生閉環(huán),這部分來講是我們比較獨到的技術(shù),可以使我們仿真環(huán)節(jié)下實現(xiàn)端到端的完整網(wǎng)絡(luò)訓(xùn)練,這是我們在可以更快地減少道路的測試,通過我們云端測試實現(xiàn)整體端到端的方法。

  

最后我把整體的技術(shù)的閉環(huán)總結(jié)一下,從我們的實時測試到數(shù)據(jù)回傳、到大規(guī)模的數(shù)據(jù)挖掘以及三維重建,進行自動化的場景標(biāo)注,形成數(shù)據(jù)集,我們整體的數(shù)據(jù)閉環(huán)是完全靠視覺方案,不使用任何激光雷達,而且積累了非常高價值非常罕見稀缺性場景的數(shù)據(jù)資產(chǎn)。這個場景不斷進行技術(shù)迭代。使我們在整個智能駕駛領(lǐng)域的數(shù)據(jù)的閉環(huán)能力是超強的。我們是唯一一家在中國處理幾十萬臺車的道路的自動駕駛公司。數(shù)據(jù)規(guī)模在端到端面向未來的長期的高階輔助駕駛甚至完全的無人駕駛,數(shù)據(jù)閉環(huán)能力至關(guān)重要,這是我們在經(jīng)歷過這段幾十萬的量產(chǎn)車數(shù)據(jù)以后獲得的心得。

  

其實最終不管什么樣的技術(shù)方案,不管是不是使用激光雷達,是做高速NOA還是城市NOA還是自動駕駛,我們是為用戶創(chuàng)造價值、社會創(chuàng)造價值,為廣大消費者提供更加安全、舒適、便捷的駕駛體驗,這是我們公司希望給大家?guī)淼摹Vx謝大家!


x

收藏 1
打賞
相關(guān)標(biāo)簽:
電話:010-65030507
郵箱:editor@autor.com.cn
地址:北京市朝陽區(qū)朝外大街乙6號朝外SOHO D座5097室
北京智駕時代傳媒科技有限公司          Copyright © 2014 - 2022
Autor.com.cn All Rights Reserved. 版權(quán)所有 AutoR智駕 智能汽車網(wǎng)
京ICP備14027737號-1      京公網(wǎng)安備 11010502038466號
電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證:京B-20211307
關(guān)注官方微信