一輛搭載著FSD V12.3.1 Beta的特斯拉穿梭在舊金山市鬧區(qū)的傍晚,依靠純視覺端到端的方案完成了從車位駛出到目的地??柯愤叺慕z滑操作。
馬斯克幾乎會以每兩周的節(jié)奏對FSD進行一次“大改”,直到這次FSD V12.3.1 Beta的更新。
3月25日,馬斯克向全體特斯拉員工發(fā)了一封郵件,要求必須為北美地區(qū)提車的客戶演示并安裝激活FSD V12.3.1 Beta,并在交車前讓客戶進行短暫的試駕。希望讓人們意識到FSD確實有效。
緊接著,馬斯克又隨即公布特斯拉基于純視覺方案的端到端自動駕駛泊車功能將在這幾日推送,在Twitter上對FSD不惜溢美之詞的進行宣揚:開特斯拉用FSD,幾乎哪兒都能去。
新版本發(fā)布后,海外媒體平臺充斥著該版本的測試視頻,不少網友對FSD V12.3.1在北美城市道路中的駕駛能力表達了贊嘆:Taht's so cool!
作為引領自動駕駛風向標的特斯拉,已經將端到端自動駕駛的熱流從北美流入了國內,又從輿論場的角逐帶到了今年3月15日-17日召開的電動汽車百人會的產業(yè)演講中來(以下簡稱:百人會)。
端到端的風暴,在中國正式打響了“第一槍“。
01.
純視覺在端到端中的“AB”面
隨著高速NOA走向城市NOA,自動駕駛系統(tǒng)的復雜程度在大幅提升,數百萬行的C++代碼對人工編寫規(guī)則方式帶來巨大的成本。
這時,完全基于人工智能和神經網絡的感知模塊不會存在因為手動編寫規(guī)則引發(fā)效率低下的困惑,所以現(xiàn)如今的行業(yè)風向走到基于大模型的端到端自動駕駛。
多家企業(yè)在今年百人會論壇中亮相了行業(yè)成果的殊榮,各家對于感知的技術路線看法也各有千秋。
去年,商湯的端到端自動駕駛大模型UniAD入選了2023年CVPR最佳優(yōu)秀論文。
絕影是商湯智能汽車的板塊,商湯絕影智能汽車事業(yè)群總裁王曉剛在百人會上表示:“端到端的自動駕駛UniAD,是今年我們自動駕駛最大的突破,從高速到城區(qū)的領航,在這里可以看到場景日益復雜,需要大量的工程師每天去解決層出不窮的各種case。端到端自動駕駛是數據驅動,能夠為我們高效地解決城區(qū)的領航,提供更加高效實踐的路徑。”
與傳統(tǒng)的的單模態(tài)模型相比,多模態(tài)大模型的優(yōu)點在于它可以從多個數據源中獲得更豐富的信息,從而提高模型的性能和魯棒性。
王曉剛還提到,商湯進一步提出了多模態(tài)大模型自動駕駛方案,這種方案的輸入,除了各種感知傳感器,系統(tǒng)的信息以外,還允許人機交互,通過自然語言作為輸入。當自動駕駛時覺得旁邊大車有壓迫感,如果想要離它遠一點,或者想超車,都是可以通過語言模型進行交互。
另外,輸出的時候不但可以輸出感知,還可以輸出規(guī)控,還可以對自動駕駛做出的決策有解釋性。
毫末智行CEO顧維灝也發(fā)表了對多模態(tài)大模型的看法,基于毫末的的DriveGPT,顧維灝表示,DriveGPT最核心的能力是基于持續(xù)的多模態(tài)的視覺識別大模型。
“我們把它用Token化的表達方式進行訓練,再進行三維化,這是我們做大模型很重要的技術基礎。”
DriveGPT是毫末智行研發(fā)的垂直領域大模型,在視覺大模型基礎上,毫末又構建了多模態(tài)大模型,用以實現(xiàn)感知萬物識別的能力。
顧維灝表示:“多模態(tài)放到視覺大模型里面,就會讓視覺三維的渲染、標注、識別,能夠提前自動化地理解這個照片里面,或者是說前融合后的數據里面究竟這個桌子和講臺是怎么樣來分割的,所以加入了多模態(tài)大模型。在認知模型里面,我們又加入了大語言的模型。大語言模型它不僅僅是自然的交互,它還有很多知識的理解?!?/p>
百度和火山更強調座艙大模型,共識是:認為座艙大模型天生是多模態(tài)的場景。
百度的語音和大模型的一體化方案已經在極越車上落地,百度智能云汽車行業(yè)解決方案總經理肖猛認為,2024年是座艙大模型的元年。
同時,極越還是目前國內唯一采用純視覺自動駕駛方案落地的車企,基于百度Apollo純視覺高階智駕能力和安全體系賦能,極越完成OCC(Occupancy Network,占用網絡)升級,已形成“B.O.T”(BEV+OCC+Transformer)完整技術體系。
與傳統(tǒng)的視覺方案相比,OCC的一個顯著優(yōu)勢在于它能夠處理未知或不常見的物體,降低了因未識別物體而可能引發(fā)的意外情況的風險。OCC還能夠以厘米級的精度對障礙物進行三維建模。
3月26日,極越在其AI DAY2024技術大會上,發(fā)布了OTA V1.4.0新版軟件,升級涉及智能駕駛、智能座艙、智能互聯(lián)、三電等諸多領域,共計升級200多項功能。
當OCC對應在PPA(點到點領航輔助)功能上,就能使車輛擁有更合理的路線規(guī)劃,并實現(xiàn)更流暢的變道和繞行。
火山引擎汽車行業(yè)總經理楊立偉在談到大模型在各個行業(yè)應用時,發(fā)現(xiàn)汽車行業(yè)一個非常大的特點。
他表示:“手機目前交互形態(tài)還是基于觸摸屏幕,通過屏幕來交互的產品形態(tài),所以這也是為什么我們看Siri和手機里面的語音助手做的不好,我相信座艙內有非常便利的空間,目前沒有大模型的時候,我們座艙的語音交互的時長和頻率已經非常高,座艙是天生多模態(tài)的場景,機器想要跟人有互動更好,大模型更像一個人機交互的操作系統(tǒng)和人機交互的智能品。這樣的話沒有多模態(tài)的能力是不行的。”
端到端是自動駕駛研究和開發(fā)領域的一個活躍研究方向,這是不爭的事實,但端到端自動駕駛技術尚未成熟,跟隨特斯拉FSD V12的后來者雖多,但對于任何一家具備研發(fā)自動駕駛技術能力的企業(yè)來說,光是從普通架構切換到端到端技術的單項成本就頗高。
楊立偉坦誠地表達了這一觀點:大模型現(xiàn)在在整個汽車行業(yè)的應用還是偏早期階段?!皠偛盼覀冞€在討論,目前是量的提升,沒有到質變,隨著模型能力的迭代,以及模型從語言模型逐漸變成一個加上生成、加上多模態(tài)理解的能力,我相信在今年年底、明年可能會期待有質變的產生,從務實的角度來看,大模型目前階段只是一個初步的階段?!?/p>
感知固然重要,它提供了必要的信息輸入,是司機的“眼睛與耳朵”,與它同樣重要的,還有被業(yè)界及科研機構不斷研究的認知,涉及到規(guī)劃、決策和應對復雜或緊急情況的能力,相當于司機的“大腦”。
而只有當大模型作為自動駕駛的駕駛員,在認知層面遠超于人類時,才能做出超出人類的決策能力,這時,感知、認知會不斷迭代,甚至超出人類認知的上限,自動駕駛才會迎來真正所謂的GPT、IPhone時刻。
北京大學計算機學院教授黃鐵軍在百人會上對當下自動駕駛發(fā)展階段進行了總結:
第一個階段:只關心感知精度,缺乏認知的階段,現(xiàn)在大部分車還處于這一階段,就是L2、L3還很難,因為你只關心感知,不關心認知,這是肯定有問題的。
第二個階段:特斯拉的FSD,但是他也不是真正的大模型,他只是用了Transformer,還是學人類的駕駛行為。但未來一定是對世界的深度認知,加上很強感知的時代。
不過目前,基于純視覺方案的端到端自動駕駛,仍被很多主機廠認為是跨越鴻溝的必經之路。
因為不需要大量的人工策略、只需要采集足夠多的優(yōu)質駕駛數據來訓練即可,可以通過規(guī)模化的方式不斷擴展數據來不斷提升系統(tǒng)的能力上限。
但這種簡單也隱藏了巨大風險。
完全基于視覺的端到端自動駕駛不具備傳統(tǒng)自動駕駛系統(tǒng)的“透明性”,傳統(tǒng)自動駕駛即模塊化方法,端到端自動駕駛是一體化方法,不產生中間結果,直接通過圖像輸入,直接輸出控制信號,但這種技術路線也存在徹底黑盒,解釋性差的問題。
同時,端到端模型的訓練需要處理大量的數據,包括多模態(tài)視覺數據和車輛控制信號等。
02.
當大模型訓練的“暴力美學”應用在自動駕駛上
端到端可以類比做GPT-4語言模型,通過收集海量的數據加上訓練而實現(xiàn)的。
以特斯拉為例,通過遍布全球的幾百萬輛量產車,可以采集到足夠豐富、足夠多樣的數據,再從中選出高質量數據,在云端使用數萬張GPU、以及自研的DOJO進行訓練和驗證,使得端到端自動駕駛能夠從paper變成product。
OpenAI的秘訣一直以來是屢試不爽的Scaling Law——當數據和算力足夠多,足夠大,就會產生智能涌現(xiàn)的能力。
直到Scaling Law在這次百人會中被諸多次提及,意味著自動駕駛的成熟需要“暴力美學”來催化,而背后是高昂的算力支出來支撐。
黃鐵軍在百人會上明確強調了大模型未來超越人類的關鍵不是靠概率,靠的正是對海量語料,數據背后精確的理解。
顧維灝表示,伴隨著人工智能和大模型的發(fā)展,自動駕駛迎來了第三個階段:數據驅動的時代。
或許可以這么理解:大部分代碼都不是工程師來寫,這些工程師從第二個階段的“軟件驅動的時代”來到了第三個階段的“數據驅動時代”,解放了過去寫軟件的雙手,所有的工程師都是在準備數據、準備環(huán)境、訓練模型、檢驗最后的結果、調整結構、調整參數等工作。
最近一段時間的發(fā)展,顧維灝認為或許是自動駕駛的3.0時代?!懊恳粋€時代里面的感知、認知和模型是什么樣方式來實現(xiàn)的,都完全不一樣。”他說。
智能駕駛1.0 時代,是以硬件驅動為主;2.0 時代,是以軟件驅動為主;3.0 時代,則是數據驅動為主的大模型時代。
“端到端一定是未來很重要的方向,但它不會這么快到來,”顧維灝表示。他認為還需要幾年的發(fā)展?!鞍堰^去的離散的部分逐漸地聚集化、模型化,把感知的模型聚集到一塊,把認知的模型聚集到一塊,控制的模型聚集到一塊,然后再來實踐車端模型和云端模型的聯(lián)動。”
在 3.0 時代中,顧維灝指出端到端是最重要的方向,目前行業(yè)的發(fā)展趨勢是一個從分散到聚集的過程。
在談到算力需求時,王曉剛認為,過去發(fā)展的過程當中,從2012年AlexNet出現(xiàn),深度學習神經網絡大規(guī)模的應用,對于算力的需求是上千倍的提升。隨著ChatGPT、GPT-4,甚至更大規(guī)模的大模型,我們有上億倍算力需求的提升。
如何分配技術和下一代技術算力的精力、資源也是一針見血的問題。
百度智能駕駛事業(yè)群組首席研發(fā)架構師王亮在百人會活動上接受媒體采訪時透露:“我們選擇純視覺路線,放棄了激光雷達把它拿掉也是資源的原因。我們希望把所有算力、數據、處理資源、人才、模型參數規(guī)模都給到純視覺,看準了就把資源all in上去,同時也會保留一批像滾筒式的迭代?!?/p>
王亮很明確的一點是,初速度決定了產品原型的研發(fā)速度,這點上激光雷達占優(yōu),能讓感知算法實現(xiàn)的難度大幅降低。
而視覺的初速度慢得多,從二維像素恢復三維信息是計算機視覺領的難題,不過一但技術進入軌道,圖像里天然蘊含的信息量優(yōu)勢會在其在迭代加速度上更迅猛。
特斯拉 CEO 埃隆·馬斯克(Elon Musk)去年在財報會上談到了數據對自動駕駛模型的重要性:“用 100 萬個視頻 case 訓練,勉強夠用;200 萬個,稍好一些;300 萬個,就會感到 Wow;到了 1000 萬個,就變得難以置信了?!?/p>
而只有當算法不斷被創(chuàng)新滿足,足夠高算力的智能駕駛芯片才會誕生。
03.
時代呼喚“端到端”到機器人領域
智駕時代變革起點是汽車“駕駛權”由人類向AI轉移,但遠不止于此。端到端模型的潛力如果繼續(xù)迭代下去,可能會做出物理世界的AGI。
目前,F(xiàn)SD V 12的算法體系同時應用在了人形機器人及汽車上,加速提升識別算法的泛化能力。
如果說各家公司將戰(zhàn)略目標放淺至5年來看,可能是推動端到端模型上量產車積累算法數據,但如果拉長,則是希望找到一條通過具體的實體與現(xiàn)實世界直接接觸和互動——即具身智能(Embodied AI),它不再僅僅是軟件和算法的集合。
如果你有參加2024年的GTC,會發(fā)現(xiàn)黃仁勛在GTC上的主要敘事也是圍繞具身智能,而不是LLM。
阿里云智能集團副總裁李強在百人會上的演講中,非常篤定的表達“具身智能”已成為大模型公司的下一重點共識,同時李強還提出了“具車智能”的概念。
而一個能承載更多想象的具車智能,最關鍵甚至起到決定性作用的技術底座一定是強大的基礎模型。
怎么誕生強大的基礎模型?李強總結為幾點:全規(guī)格和開源。他認為與友商大模型最核心的區(qū)別在于開源。從算力角度來看,李強更希望未來能夠為所有的模型公司,包括未來更多的開源模型一起提供一個異構的基礎設施。
而在具身智能的世界里,端到端自動駕駛又被視為一個子集,專注于智能體如何通過感知來指導行動,在自動駕駛的背景下,這意味著車輛需要理解周圍環(huán)境并據此做出駕駛決策。
這種尤其強調動態(tài)交互和深度學習的具身智能,往往比端到端自動駕駛系統(tǒng)更強調數據質量性和泛化性能力。不過,“暴力美學”是否可以同樣應用在機器人上,目前還沒有一家實現(xiàn)的公司。
接下來,讓我們一起等待機器人領域的Scaling Law時刻吧。
x
-
?“乾崑”落地,華為車BU開啟靳玉志時代 2024-04-28 11:44
-
吉利銀河混動系列至高優(yōu)惠 2.5 萬元,主銷價格下探至10-15萬元區(qū)間 2024-04-28 11:42
-
Nullmax打造的平臺化智能駕駛方案MaxDrive智能駕駛產品亮相北京車展 2024-04-28 11:32
-
寶馬宣布增加在華投資200億,推動“新世代”車型2026年國產 2024-04-26 22:40
-
吉利銀河混動系列至高優(yōu)惠 2.5 萬元,主銷價格下探至10-15萬元區(qū)間 2024-04-28 11:42
-
長城汽車一季報炸裂背后:戰(zhàn)略虧損或比盈利暴漲更長遠 2024-04-26 23:03