智駕網(wǎng) 2024-09-01 23:05
商湯絕影創(chuàng)新中心李曉華:多模態(tài)大模型,打造下一代座艙大腦
分享
在9月1日“科技生態(tài)方向圓桌論壇一:20年新引擎——深化人工智能技術(shù)的垂直化應(yīng)用”中,商湯絕影創(chuàng)新中心高級總監(jiān)李曉華發(fā)表題為“多模態(tài)大模型 打造下一代座艙大腦”的演講。

由中國汽車技術(shù)研究中心有限公司、中國汽車工程學(xué)會、中國汽車工業(yè)協(xié)會、中國汽車報社共同主辦,天津經(jīng)濟(jì)技術(shù)開發(fā)區(qū)管理委員會特別支持,日本汽車工業(yè)協(xié)會、德國汽車工業(yè)協(xié)會、中國汽車動力電池產(chǎn)業(yè)創(chuàng)新聯(lián)盟、新能源汽車國家大數(shù)據(jù)聯(lián)盟聯(lián)合協(xié)辦的第二十屆中國汽車產(chǎn)業(yè)發(fā)展(泰達(dá))國際論壇(以下簡稱“泰達(dá)汽車論壇”)于2024年8月29日至9月1日在天津濱海新區(qū)舉辦。本屆論壇以“風(fēng)雨同舟二十載 攜手并肩向未來”為年度主題,邀請重磅嘉賓展開深入研討。


在9月1日“科技生態(tài)方向圓桌論壇一:20年新引擎——深化人工智能技術(shù)的垂直化應(yīng)用”中,商湯絕影創(chuàng)新中心高級總監(jiān)李曉華發(fā)表題為“多模態(tài)大模型 打造下一代座艙大腦”的演講。


以下為演講實錄:


大家上午好!我是來自商湯絕影的李曉華。大模型在車領(lǐng)域,無論是大語言模型還是多模態(tài)模型,都帶來了許多新的體驗。


首先,我想播放一個小視頻,來展現(xiàn)多模態(tài)大模型在車行業(yè)中所帶來的全新體驗。(播放視頻)


剛剛播放的這個視頻主要展示了多模態(tài)大模型如同一個助手,時刻關(guān)注著座艙內(nèi)以及車外發(fā)生的事情。例如,它能判斷車輛是否在公交車道行駛,是否有交警指揮,并能給出更好的建議。


接下來,我將為大家介紹一張多模態(tài)大模型的業(yè)務(wù)圖。我們可以將這張圖分為三層,最下面一層橙色部分是模型層,其中包括車端側(cè)的模型和云端的模型。車端側(cè)的模型可根據(jù)需求部署 2.1B、8B等規(guī)模的模型,用于進(jìn)行端側(cè)的多模態(tài)大模型推理。


在云端,則可以部署更大規(guī)模的模型,如 20B、100多B的模型。此外,云端除了多模態(tài)大模型外,還包括一些其他云類模型,如車書、醫(yī)療方面的模型,這些都適用于車領(lǐng)域的場景。上面藍(lán)色部分是引擎層,考慮到底層模型,包括記憶、推理框架等,使用起來相對復(fù)雜,因此我們構(gòu)建了引擎層。引擎層主要有兩個產(chǎn)品:

第一個是座艙大腦,它主要有以下幾個能力:


1.能夠很好地感知座艙內(nèi)的情況,例如識別人的穿著、性別,細(xì)致觀察座艙內(nèi)的細(xì)節(jié)特征,包括物品,如手機(jī)、寵物、帽子、眼鏡等,都能識別出來。


2.能夠感知一些行為,如打電話、吃東西等,并能有效地輸出。


3.能夠進(jìn)行環(huán)境推理和意圖推理,例如識別出兩個人在交流、在討論高興的事情等。


4.具有跨時空的記憶能力,能夠很好地記住座艙內(nèi)的人員以及共同經(jīng)歷的事情。就像剛才的 Demo 中第一個場景提到的 “去我們上次去的那個咖啡館”,它能記住上次與誰一起去的咖啡館,并且能識別出這次的人員是否與上次相同,這種能力可以作為座艙內(nèi)產(chǎn)品的輸出。


第二個產(chǎn)品是全時駕駛輔助,它利用多模態(tài)大模型的能力感知車外場景,包括道路條件,如是否有積水、挖坑、道路是否坑洼等,并能做出相應(yīng)推薦,例如車輛應(yīng)如何調(diào)節(jié)以適應(yīng)路況,以及光照、逆光等情況,它都可以作為行駛策略的輔助。此外,它還能提供決策輔助,感知周圍路況,如識別出眾多電動車、路邊攤販、救護(hù)車等,并做出決策輔助。最后,它還能提供一些判斷條件,包括司機(jī)的狀態(tài)、通行障礙等。這個產(chǎn)品主要感知車外能力,為駕駛提供輔助推薦。


下面,我將從技術(shù)角度介紹端云參考架構(gòu)。這張圖展示了我們的多模態(tài)模型可以單獨部署在端側(cè),也可以部分部署在端側(cè),部分部署在云側(cè),而語言類模型可以純粹部署在云側(cè)。從最左邊開始,用戶發(fā)出聲音后,通過語音轉(zhuǎn)成 SR 文本,包括 OMS 攝像頭等數(shù)據(jù),都將經(jīng)過數(shù)據(jù)處理模塊,對圖片、文字、聲音以及車的信號進(jìn)行處理。然后進(jìn)入觸發(fā)器模塊,該模塊主要考慮端云結(jié)合的情況,根據(jù)一些觸發(fā)信號,如開關(guān)門或用戶提問來進(jìn)行觸發(fā)。如果是純端側(cè)算力方案,則可以不斷觸發(fā)。接下來是進(jìn)入任務(wù)調(diào)度模塊,然后到端側(cè)模型。如果是端云一體的模型,我們會在端側(cè)主要對圖像進(jìn)行圖像特征向量化的提取,將端側(cè)的特征送到云端進(jìn)行推理生成。在云端做出推薦后,它可以進(jìn)入到行動詞,該行動詞具有車輛插件的能力以及其他智能體的配合,構(gòu)建了一個工作流。


接下來,我想講一下大模型在座艙合作的模式。首先,在部署方面,我們剛才提到可以部署在純云端,也可以采用端和云結(jié)合的方式。云端可以通過自研的推理框架,支持 100 多個算子庫,能夠高效地進(jìn)行端側(cè)模型計算。在生態(tài)開發(fā)方面,可以實現(xiàn)服務(wù)應(yīng)用的便捷開發(fā),并且通過安全沙箱實現(xiàn)端側(cè)與云側(cè)隱私安全的隔離。下一步是持續(xù)更新,通過數(shù)據(jù)閉環(huán),將用戶反饋的數(shù)據(jù)通過閉環(huán)進(jìn)行訓(xùn)練,通過私有化的 SFT 進(jìn)行微調(diào),以加強(qiáng)大模型的能力。最后,在合作模式上,我們前面介紹過,從模型層、產(chǎn)品引擎層到上層的應(yīng)用層,都可以進(jìn)行不同方式的合作。


最后,我想談一談車類產(chǎn)品離不開芯片平臺的支持。在過去的一年,我們在高通、英偉達(dá)的 Orin 基礎(chǔ)上完成了端側(cè)框架的聯(lián)調(diào)適配。今年,我們主要在 MTK8678 平臺上進(jìn)行模型算子的調(diào)節(jié)。后面,我們還會在英偉達(dá)的 Sora、Intel 等芯片上進(jìn)行多模態(tài)模型的部署。


今天我的分享就到這里,謝謝大家!

(完)


x

收藏 0
打賞
相關(guān)標(biāo)簽:
電話:010-65030507
郵箱:editor@autor.com.cn
地址:北京市朝陽區(qū)朝外大街乙6號朝外SOHO D座5097室
北京智駕時代傳媒科技有限公司          Copyright © 2014 - 2022
Autor.com.cn All Rights Reserved. 版權(quán)所有 AutoR智駕 智能汽車網(wǎng)
京ICP備14027737號-1      京公網(wǎng)安備 11010502038466號
電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證:京B-20211307
關(guān)注官方微信