
在2月22日的商湯大模型生產(chǎn)力論壇上,商湯絕影CEO,商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛重磅發(fā)布了行業(yè)首個(gè)「與世界模型協(xié)同交互的端到端自動(dòng)駕駛路線R-UniAD」,通過構(gòu)建世界模型生成在線交互的仿真環(huán)境,以此進(jìn)行端到端模型的強(qiáng)化學(xué)習(xí)訓(xùn)練。這與春節(jié)開始持續(xù)受到市場(chǎng)關(guān)注的DeepSeek技術(shù)創(chuàng)新思路同歸一源:從模仿學(xué)習(xí)向強(qiáng)化學(xué)習(xí)升級(jí)演進(jìn),從而實(shí)現(xiàn)端到端自動(dòng)駕駛超越人類的駕駛表現(xiàn)。
「算法、算力和數(shù)據(jù)三者共同推動(dòng)著人工智能技術(shù)的螺旋式上升和進(jìn)步,隨著強(qiáng)化學(xué)習(xí)等算法引入到大模型訓(xùn)練的思路得到驗(yàn)證,新的尺度定律正在開啟,數(shù)據(jù)價(jià)值被進(jìn)一步深入挖掘,模型能力天花板被打開?!雇鯐詣偙硎?,強(qiáng)化學(xué)習(xí)的技術(shù)創(chuàng)新也同樣可以遷移到端到端自動(dòng)駕駛領(lǐng)域。
基于UniAD端到端自動(dòng)駕駛方案和「開悟」世界模型,商湯絕影R-UniAD將通過強(qiáng)化學(xué)習(xí)加速智駕跨越式演進(jìn)。在4月即將到來的上海車展上,商湯絕影將重磅發(fā)R-UniAD端到端自動(dòng)駕駛方案,并完成實(shí)車部署,持續(xù)引領(lǐng)端到端智駕技術(shù)的潮流。
強(qiáng)化學(xué)習(xí),全新端到端自動(dòng)駕駛技術(shù)路線的關(guān)鍵所在
2022年底,商湯絕影提出了行業(yè)首個(gè)感知決策一體化自動(dòng)駕駛通用模型UniAD,并在次年榮獲2023年國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(CVPR)最佳論文,同年8月,特斯拉CEO馬斯克直播試駕FSD V12,即端到端自動(dòng)駕駛技術(shù),越來越多的車企和科技公司開始跟進(jìn)端到端的技術(shù)路線。如今,數(shù)據(jù)驅(qū)動(dòng)的端到端自動(dòng)駕駛解決方案已成為行業(yè)共識(shí)。
端到端的自動(dòng)駕駛本質(zhì)是通過海量的高質(zhì)量人類駕駛數(shù)據(jù),來實(shí)現(xiàn)最佳的「模仿」駕駛效果。然而,基于模仿學(xué)習(xí)的技術(shù)范式可以做到接近人類但難以突破人類能力上限。同時(shí),受限于高質(zhì)量場(chǎng)景數(shù)據(jù)的稀缺性和駕駛數(shù)據(jù)質(zhì)量的參差不齊,端到端智駕方案要達(dá)到人類駕駛能力的天花板并不容易,動(dòng)輒千萬Clips的高質(zhì)量數(shù)據(jù)回流形成了規(guī)模門檻。
▲以模仿學(xué)習(xí)為主的端到端技術(shù)發(fā)展面臨的挑戰(zhàn)
特斯拉通過七百萬輛高階智駕量產(chǎn)車和超10萬P算力,已經(jīng)跨越了這個(gè)門檻,同時(shí)也構(gòu)筑了與國(guó)內(nèi)車企具有數(shù)量級(jí)差距的基礎(chǔ)設(shè)施壁壘。
商湯絕影認(rèn)為,這與人工智能的發(fā)展歷程非常相似。隨著互聯(lián)網(wǎng)上的數(shù)據(jù)紅利被“榨干”,大模型性能的提升只能依靠進(jìn)一步擴(kuò)大算力規(guī)模和增加模型參數(shù)。人工智能技術(shù)的發(fā)展遇到了瓶頸,一定程度上變成了算力的比拼,一部分人認(rèn)為,尺度定律(Scaling laws)失效了。
今年春節(jié)期間,DeepSeek-R1基于純強(qiáng)化學(xué)習(xí)的關(guān)鍵創(chuàng)新引發(fā)了廣泛的關(guān)注。通過少量高質(zhì)量數(shù)據(jù)的冷啟動(dòng),模型進(jìn)行多階段的強(qiáng)化學(xué)習(xí)訓(xùn)練,有效降低大模型訓(xùn)練的數(shù)據(jù)規(guī)模門檻,同時(shí)也讓尺度定律得以延續(xù),為模型變得更大更強(qiáng)鋪平了道路。更重要的是,強(qiáng)化學(xué)習(xí)能夠讓大模型自行涌現(xiàn)出長(zhǎng)思維鏈能力,顯著提升推理效果,甚至可能具備超越人類的思維能力。
王曉剛表示,基于強(qiáng)化學(xué)習(xí)的大模型技術(shù)路線可以遷移到端到端自動(dòng)駕駛算法的訓(xùn)練與研發(fā)之中。
▲基于強(qiáng)化學(xué)習(xí),商湯絕影提出「與世界模型協(xié)同交互的端到端技術(shù)路線」
從數(shù)據(jù)規(guī)模來看,多階段強(qiáng)化學(xué)習(xí)的訓(xùn)練方法能大幅降低端到端自動(dòng)駕駛數(shù)據(jù)規(guī)模門檻。R-UniAD就是通過高質(zhì)量數(shù)據(jù)進(jìn)行冷啟動(dòng),用模仿學(xué)習(xí)的方式訓(xùn)練出一個(gè)端到端基礎(chǔ)模型,再通過強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練。據(jù)測(cè)算,小樣本多階段學(xué)習(xí)的技術(shù)路線能讓端到端自動(dòng)駕駛的數(shù)據(jù)需求降低一個(gè)數(shù)量級(jí),讓車企合作伙伴有望換道超車特斯拉FSD。
從性能上限來看,純強(qiáng)化學(xué)習(xí)訓(xùn)練讓端到端智駕模型有望通過在提升性能的同時(shí),充分探索多元場(chǎng)景和駕駛風(fēng)格。未來,端到端智駕體驗(yàn)的上限不再是「類人」,而是可以擁有超越人類的駕駛表現(xiàn)。
商湯絕影發(fā)布「與世界模型協(xié)同交互的端到端自動(dòng)駕駛技術(shù)路線R-UniAD」
作為最專注汽車行業(yè)的AI公司,商湯絕影一直在探索和落地以AI的方式解決智駕問題,也持續(xù)著引領(lǐng)端到端自動(dòng)駕駛的創(chuàng)新潮流。
在UniAD榮獲CVPR最佳論文之后,2024年北京車展,商湯絕影展示了UniAD的實(shí)車上路成果,量產(chǎn)端到端智駕方案則預(yù)計(jì)會(huì)在今年年底交付落地。2月22日,商湯絕影率先發(fā)布「與世界模型協(xié)同交互的端到端自動(dòng)駕駛技術(shù)路線R-UniAD」,成為行業(yè)首個(gè)將基于世界模型的強(qiáng)化學(xué)習(xí)引入端到端智駕的研發(fā)與訓(xùn)練的AI公司。
商湯絕影的R-UniAD是「多階段強(qiáng)化學(xué)習(xí)」端到端自動(dòng)駕駛技術(shù)路線,具體分為三個(gè)階段,首先是依靠冷啟動(dòng)數(shù)據(jù)通過模仿學(xué)習(xí)進(jìn)行云端的端到端自動(dòng)駕駛大模型訓(xùn)練;然后基于強(qiáng)化學(xué)習(xí),讓云端的端到端大模型與世界模型協(xié)同交互,持續(xù)提升端到端模型的性能;最后云端大模型通過高效蒸餾的方式,實(shí)現(xiàn)高性能端到端自動(dòng)駕駛小模型的車端部署。
因?yàn)槎说蕉酥邱{模型是一個(gè)多模態(tài)具身模型,最關(guān)鍵的是要與依靠世界模型生成的仿真環(huán)境進(jìn)行在線交互,并獲得閉環(huán)獎(jiǎng)勵(lì)反饋,從而實(shí)現(xiàn)強(qiáng)化學(xué)習(xí),使得端到端模型的訓(xùn)練能夠充分探索各種可能性。也就是說,能夠生成高保真的場(chǎng)景數(shù)據(jù)、保證長(zhǎng)時(shí)推演一致性、并支持在線交互的強(qiáng)大世界模型是R-UniAD的核心基石。
早在2024年11月「絕影實(shí)力AI DAY」上,王曉剛就表示:「智駕高端局的競(jìng)爭(zhēng)不止是車端模型的比拼,端到端的決戰(zhàn),戰(zhàn)場(chǎng)在云端。」為此,商湯絕影全新升級(jí)并發(fā)布行業(yè)標(biāo)桿級(jí)別的世界模型——「開悟」世界模型。世界模型最基礎(chǔ)也是最核心的能力是生成高質(zhì)量視頻數(shù)據(jù),基于「開悟」,1個(gè)GPU產(chǎn)生的仿真數(shù)據(jù)相當(dāng)于500臺(tái)量產(chǎn)車的數(shù)據(jù)采集效果。
以絕影量產(chǎn)智駕方案和「開悟」世界模型為核心,實(shí)車采集的真實(shí)數(shù)據(jù)和云端生成的仿真數(shù)據(jù)在「車云一體」的新范式下進(jìn)行閉環(huán)流轉(zhuǎn),使得端到端智駕系統(tǒng)的訓(xùn)練更加全面、高效,大幅縮短了研發(fā)周期,降低了成本。
如今,「開悟」世界模型的能力進(jìn)一步提升,將支持實(shí)現(xiàn)端到端算法與世界模型仿真環(huán)境實(shí)時(shí)交互。
在現(xiàn)場(chǎng)演示中,商湯絕影展示了「開悟」世界模型與主車閉環(huán)交互的方式。通過場(chǎng)景庫文件導(dǎo)入一個(gè)BEV視角下的初始主車和他車位置,世界模型自動(dòng)生成主車視角下11V(11個(gè)攝像頭)的傳感器仿真數(shù)據(jù),端到端模型接收到這一數(shù)據(jù)后,生成自車下一時(shí)刻位置并進(jìn)行反饋,世界模型根據(jù)刷新的主車位置和預(yù)測(cè)的他車位置渲染新的11V傳感器仿真數(shù)據(jù)。
商湯絕影的量產(chǎn)端到端智駕方案預(yù)計(jì)將在年底交付,「開悟」世界模型也正式用于數(shù)據(jù)生產(chǎn),已經(jīng)搶占新技術(shù)路線的先機(jī)。而在4月的上海車展,商湯絕影將會(huì)展示「與世界模型協(xié)同交互的端到端自動(dòng)駕駛方案」的實(shí)車部署。
讓我們拭目以待。

x
-
極氪領(lǐng)克合并啟示錄 2025-02-27 12:43
-
超越特斯拉FSD?商湯絕影的強(qiáng)化學(xué)習(xí)突圍戰(zhàn) 2025-02-27 09:58
-
CES 2025之中國(guó)汽車產(chǎn)業(yè)鏈的科技春晚 2025-01-10 11:38
-
全系標(biāo)配Hi4,二代哈弗梟龍 MAX官圖發(fā)布 2025-02-24 13:28
-
上汽通用為中國(guó)車主吃下定心丸:合資要繼續(xù),本土團(tuán)隊(duì)獲得產(chǎn)品定義權(quán) 2025-02-24 19:21
-