的不斷突破顯著提升了智能輔助駕駛的感知性能。從卷積神經網絡(CNN)的引入,到循環(huán)神經網絡(RNN)的應用,再到結合鳥瞰圖(BEV)與Transformer(自注意力機制的神經網絡架構)的創(chuàng)新,再到當下的端到端結合VLM(視覺語言模型)統(tǒng)攬全局,AI不斷改善出行體驗。
時至今日,智能輔助駕駛技術和體驗的變革,正在迎來更大的機遇,甚至將迅速改寫以往的競速規(guī)則。自今年開始,一種全新的技術范式正在開啟落地,頭部玩家有了爆款證明,引領行業(yè)跟進對齊,隱隱成為共識趨勢。這種技術范式就是視覺語言動作模型(VLA,Vision-Language-Action)。
當特斯拉在2023年宣布FSD BetaV12(完全自動駕駛測試版)全面轉向端到端架構時,行業(yè)首次意識到,傳統(tǒng)“感知-決策-控制”的模塊化體系正在遭遇顛覆。隨著VLA模型的出現(xiàn),將這場變革推向了更深維度——這種融合視覺、語言理解與行動決策的AI架構,擁有更高的場景推理能力與泛化能力,正在重新定義智能輔助駕駛的底層邏輯。據(jù)此,不少智駕人士都將VLA視為當下端到端方案的2.0版本,2025年則被稱為“VLA上車元年”。
必一運動sport網頁版登錄
而在汽車制造方面,AI同樣發(fā)揮著巨大作用。從輔助工人操作的智能提醒,到跨系統(tǒng)自動協(xié)同的智能執(zhí)行,再到自主優(yōu)化流程的智能進階,AI正驅動汽車制造從傳統(tǒng)的流水線,向高效協(xié)同、自主優(yōu)化、數(shù)據(jù)驅動的“智能島”范式躍遷。
事實上,VLA模型最早見于機器人行業(yè),通過輸入給定的文本和視覺數(shù)據(jù),輸出可執(zhí)行的動作,天然便帶有AI與物理世界交互的基因。2023年7月28日,谷歌DeepMind推出了全球首個控制的VLA模型。如今這一模型概念正快速擴散到智駕領域。
過去,智能輔助駕駛行業(yè)基于規(guī)則算法,進行了十余年的艱辛探索。近兩年,引領的End-to-End(端到端)智能輔助駕駛,成為新的技術方向。配合端到端技術,行業(yè)玩家增加語言模型等來提升智駕能力上限,端到端+VLM一度被眾多主流公司推崇。
然而,隨著越來越多新能源車型NOA(城區(qū)導航輔助駕駛)的普及,用戶對智能輔助駕駛體驗的需求正從“能用”轉向“好用”。盡管傳統(tǒng)VLM或端到端方案在感知與決策方面有了顯著提升,但在復雜路況下仍存在局限,其中包括路況推理短視化、缺乏解釋能力和決策全局性不足等問題。
但不同于VLM相對獨立、低頻地為端到端提供駕駛建議的模式,在VLA架構下,端到端與多模態(tài)大模型的結合會更徹底,VLA成為新一代“端到端+VLM”的結合體,并有望快速趕超并取代前者。
中國自動駕駛產業(yè)創(chuàng)新聯(lián)盟調研員高超表示,VLA的核心突破在于其“世界模型”構建能力和“思維鏈”的推理能力。VLA可以從傳感器數(shù)據(jù)中提取豐富的環(huán)境信息,借助語言模型理解人類指令并生成可解釋的決策過程,最后將多模態(tài)信息轉化為具體的駕駛操作指令,真正推動智能輔助駕駛從“功能時代”邁向“體驗時代”。
“VLA有可能在未來兩年內改寫智能輔助駕駛市場的競爭格局。”在高超看來,VLA則將端到端與多模態(tài)大模型更徹底地融合,能夠根據(jù)感知直接生成車輛的運動規(guī)劃和決策,更接近“圖像輸入、控制輸出”的端到端智駕理想狀態(tài),而由此帶來的技術路線的分野也在引發(fā)產業(yè)鏈價值重估。
根據(jù)高盛最新報告,到2030年,VLA主導的端到端方案可能占據(jù)L4級市場60%份額,這意味著傳統(tǒng)一級供應商(Tier1)的價值鏈地位面臨重構。
電車巨頭成為這場變革的潛在受益者,這也在近期備受關注的一次測試成績中得到體現(xiàn)。公司CEO埃隆·馬斯克在2024年二季度財報會議上透露,F(xiàn)SDV12的干預頻次較V11下降76%。
在此背景下,國內車企和智駕玩家也開始暗自發(fā)力。在7月29日舉行的理想汽車發(fā)布會上,公司CEO李想動用大量篇幅,深入解讀了VLA司機大模型的關鍵作用和創(chuàng)新訓練方法。“VLA將開啟人類智能的嶄新時代,i8將成為第一款搭載VLA司機大模型的理想車型。”李想表示。
作為“車位到車位”的提出者,華為通過智駕3.0融合GOD(通用障礙物檢測)網絡與VLA模型,在無高精地圖區(qū)域實現(xiàn)厘米級定位;百度Apollo則依托文心大模型,將VLA的交通場景理解準確率提升至98.7%。
為此,傳統(tǒng)供應商巨頭選擇合縱連橫,多線押注。博世與微軟合作開發(fā)車用Copilot通用軟件系統(tǒng),試圖將VLA能力注入現(xiàn)有域控制器;大陸集團則斥資4億歐元收購AI初創(chuàng)公司Recogni,強化邊緣計算端的視覺處理能力——“雙軌戰(zhàn)略”折射出行業(yè)過渡期的典型特征:既要守住現(xiàn)有市場份額,又不甘錯過技術范式轉移的窗口期。
“VLA引發(fā)的技術地震正在重塑智能輔助駕駛產業(yè)格局,這場變革的終局或許不是某條技術路線的完勝,而是催生出分層市場。”中國乘用車產業(yè)聯(lián)盟秘書長張秀陽認為,VLA技術的應用不僅推動了企業(yè)在相關技術研發(fā)上的投入,還促使整個行業(yè)重新審視和制定相應的標準與規(guī)范。
張秀陽對中國證券報記者表示,在Robotaxi(無人駕駛出租車)領域,混合運營架構(有人+無人)可能長期共存;而在量產車市場,未來VLA模型有望成為高階智駕的新標配。這不是單純的技術競賽,而是整個汽車和智能輔助駕駛行業(yè)認知范式和技術范式的遷移。“當軟件定義汽車進入2.0時代,真正的較量才剛剛開始。”
提到汽車制造,人們最先映入腦海的就是“沖壓、焊裝、涂裝、總裝”四大工藝流程,實際上在汽車工業(yè)百余年歷史中,汽車制造方式并非一成不變,而是伴隨著科技的進步始終在不斷進化迭代。
記者觀察到,傳統(tǒng)汽車流水線模式弊端日益凸顯,換產耗時長,產能爬坡慢,質量波動大,產能不達標,更加無法應對小批量、多批次的定制化訂單。
神州數(shù)碼首席信息官李晨龍在接受中國報記者采訪時表示,傳統(tǒng)的信息化建設,如上馬MES(制造執(zhí)行系統(tǒng))、ERP(企業(yè)資源計劃)等,往往是直接套用了系統(tǒng)的流程,導致當把一個個應用系統(tǒng)拼在一起的時候,就會發(fā)現(xiàn)企業(yè)端到端的流程并不能很好地在這些系統(tǒng)串起來。這種源于設計與執(zhí)行的根源問題,使得流程中產生的數(shù)據(jù)質量難以保證,成為AI深度賦能制造的巨大障礙。
同時,汽車制造的復雜性和長價值鏈使得全面、自上而下的AI變革成本高昂,決策困難。李晨龍表示,面對這一挑戰(zhàn),“AI for Process”和“Twin-Drive(TD)雙驅動模型”為汽車制造業(yè)提供了破局之道。對于擁有清晰數(shù)智化戰(zhàn)略且具備一定基礎的大型主機廠,可采用自頂向下的方法,保證AI應用場景的全面覆蓋,避免出現(xiàn)場景遺漏或執(zhí)行斷點,確保各場景間形成有機串聯(lián),構建起完整的AI流程生態(tài)。
“以合作過的汽車客戶實踐為例,他們最多就是用到IPD流程(集成產品開發(fā))。我們要做的是端到端地把整個IPD流程給詳細解碼出來。通過流程梳理,確保Agent(智能體)是在一套流程上工作。通過將IPD流程分解到更細層級的業(yè)務活動,并在其中精準定義AI場景。”李晨龍表示。
李晨龍告訴記者,汽車行業(yè)對AI for Process理念的接受度很高。“我們溝通達到一定層級的時候,企業(yè)的高層普遍非常認可。雖然全面鋪開存在挑戰(zhàn),但聚焦關鍵流程或局部環(huán)節(jié)的AI賦能已經顯現(xiàn)成效。”他預測,隨著AI在制造流程中的滲透率不斷提升。未來,哪家車企的AI滲透率更高,誰的發(fā)展就會更快。