一级一级黄色片,粉嫩一区二区三区国产精品,国产精品永久免费视频,av1234,秋霞免费av,最新国产网站,国产原创中文av

當前位置: 首頁 » 資訊 » 芯智駕 » 車企 » 正文

基礎模型在推進自動駕駛汽車中的前瞻性作用

放大字體  縮小字體 發(fā)布日期:2024-12-05  來源:Research?16 Jul 2024 Vol 7 Art  作者:鑫欏資訊
摘要: 摘要:隨著人工智能的發(fā)展和深度學習的突破,大型基礎模型(FMs),如GPT、Sora等,在包括自然語言處理和計算機視覺在內(nèi)的許多領域都取得了顯著成果。FMs在自動駕駛中的應用具有相當大的前景。例如,它們可以有...

摘要:隨著人工智能的發(fā)展和深度學習的突破,大型基礎模型(FMs),如GPT、Sora等,在包括自然語言處理和計算機視覺在內(nèi)的許多領域都取得了顯著成果。FMs在自動駕駛中的應用具有相當大的前景。例如,它們可以有助于增強場景理解和推理。通過對豐富的語言和視覺數(shù)據(jù)進行預訓練,F(xiàn)Ms可以理解和解釋駕駛場景中的各種元素,并提供認知推理,為駕駛決策和規(guī)劃給出語言和行動指令。此外,F(xiàn)Ms可以基于對駕駛場景的理解來增強數(shù)據(jù),以提供長尾分布中的罕見場景,這些在常規(guī)駕駛和數(shù)據(jù)采集過程中難以覆蓋性挖掘。這種增強可以隨后進一步提高自動駕駛系統(tǒng)準確性和可靠性。FMs應用潛力的另一個證明是世界模型,以DREAMER系列為例,它展示了理解物理定律和動力學的能力。在自監(jiān)督學習范式下,從海量數(shù)據(jù)中學習,世界模型可以生成看不見但可信的駕駛環(huán)境,促進道路使用者行為預測的增強和駕駛策略的離線訓練。在本文中,我們綜合了FMs在自動駕駛中的應用和未來趨勢。通過利用FMs的強大功能,我們努力解決自動駕駛中長尾分布的潛在問題,從而提高該領域的整體安全性。1 引言自動駕駛作為人工智能中最具挑戰(zhàn)性的任務之一,受到了廣泛關注。傳統(tǒng)的自動駕駛系統(tǒng)采用模塊化開發(fā)策略[1,2],即感知、預測和規(guī)劃被分別開發(fā)并集成到車輛中。然而,模塊之間傳輸?shù)男畔⑹怯邢薜?,并且存在信息缺失。此外,傳播過程中存在累積誤差,模塊化傳輸?shù)挠嬎阈氏鄬^低。這些因素共同導致模型性能不佳。為了進一步減少誤差并提高計算效率,近年來,研究人員嘗試以端到端的方式訓練模型[3,4]。端到端意味著模型直接從傳感器數(shù)據(jù)中獲取輸入,然后直接為車輛輸出控制決策。雖然已經(jīng)取得了一些進展,但這些模型仍然主要依靠人工標記數(shù)據(jù)的監(jiān)督學習(SL)由于現(xiàn)實世界中駕駛場景的千變?nèi)f化,僅用有限的標記數(shù)據(jù)覆蓋所有潛在的情況具有挑戰(zhàn)性,這導致模型泛化能力較差,難以適應復雜多變的現(xiàn)實世界極端情況。
近年來,基礎模型(FMs)的出現(xiàn)為解決這一差距提供了新的思路。FMs通常被認為是在不同數(shù)據(jù)上訓練的大規(guī)模機器學習模型,能夠應用于各種下游任務,這可能不一定與其原始訓練目標直接相關。該術語由斯坦福大學于2021年8月提出,稱為“在廣泛數(shù)據(jù)上訓練的任何模型(通常使用大規(guī)模的自我監(jiān)督),可以通過微調(diào)適應到廣泛的下游任務”[5]。FMs的應用領域包括自然語言處理(Natural Language Processing,NLP)和計算機視覺(Computer Vision,CV),極具代表性的如BERT[6]和GPT-4[7],以及Sora[8]等。大多數(shù)FMs是基于一些經(jīng)典網(wǎng)絡架構構建的,例如,BERT和GPT-4是Transformer[9],Sora是基于Diffusion Transformer[10]。
與傳統(tǒng)深度學習不同,F(xiàn)Ms可以通過自監(jiān)督預訓練直接從海量未標記數(shù)據(jù)(如視頻、圖像、自然語言等)中學習,從而獲得更強的泛化能力和涌現(xiàn)能力(被認為已經(jīng)出現(xiàn)在大語言模型[LLM]中)?;诖?,在使用少量監(jiān)督數(shù)據(jù)進行微調(diào)后,F(xiàn)Ms可以快速適配并遷移到自動駕駛等下游任務中。憑借自監(jiān)督預訓練賦予的強大理解、推理和泛化能力,F(xiàn)Ms有望打破傳統(tǒng)模型的瓶頸,使自動駕駛系統(tǒng)能夠更好地理解和適應復雜的交通環(huán)境,從而提供更安全、更可靠的自動駕駛體驗。
1.1.   涌現(xiàn)能力
基礎模型(FMs)的一大重要特征是涌現(xiàn),Bommasani等人[5]將FMs的涌現(xiàn)特征或涌現(xiàn)能力描述為“如果能力不存在于較小的模型中,而是存在于較大的模型中,那么它就是涌現(xiàn)的”。例如,語言模型(LM)對下游任務多樣化的適應性,這是一種與初始訓練沒有直接聯(lián)系的新行為,隨著模型擴展超過一個未明確的閾值時突然出現(xiàn),轉(zhuǎn)變?yōu)長LM[11]。
目前,F(xiàn)Ms的涌現(xiàn)能力主要體現(xiàn)在大語言模型(Large Language Model, LLM)領域,在圖1[12]中可以看出,隨著模型大小、數(shù)據(jù)集大小以及用于訓練的計算浮點數(shù)的增加,LLM的損耗減小,為進行大規(guī)模模型訓練提供了支持,圖2[11]表明,當模型的參數(shù)量達到一定水平時,LLM的能力將得到質(zhì)的飛躍,在不同的任務中表現(xiàn)出涌現(xiàn)能力。

圖1 擴展定律

圖2 LLM 的涌現(xiàn)能力[11]。(A)至(H)代表不同的下游任務。(A) 三位數(shù)加減法和兩位數(shù)乘法;(B) 國際音標轉(zhuǎn)寫;(C) 恢復亂碼單詞;(D) 波斯語答題;(E) 如實回答問題;(F) 映射概念域。(G) 大規(guī)模多任務語言理解;(H) 上下文詞匯語義理解;每個點都是一個單獨的 LLM,虛線代表隨機表現(xiàn)。
LLM的涌現(xiàn)能力在上下文學習(In Context Learning,ICL)[11,13]中得到了很好的體現(xiàn),嚴格來說,它可以被視為提示學習的子類。上下文學習能力是LLM在特定上下文環(huán)境中學習的能力,主要思想是來自于類比中學習[14]。ICL或提示學習使LLM在特定上下文中獲得優(yōu)異的性能,而無需參數(shù)調(diào)整。
一種特殊類型的ICL是思想鏈(Chain-of-Thought, CoT)。用戶可以將復雜的問題分解為一系列推理步驟作為LLM的輸入。這樣,LLM可以執(zhí)行復雜的推理任務[15]。緊急能力在LLM中很常見;目前還沒有令人信服的解釋為什么這些能力會以這樣的方式出現(xiàn)。
Park等人[16]引入了模擬真實人類行為的生成代理,基于預輸入設置執(zhí)行日常活動,并以自然語言存儲日常記憶。作者將生成代理連接到LLM,創(chuàng)建了一個擁有25個智能代理的小社會,用LLM檢索記憶,并利用其涌現(xiàn)能力來規(guī)劃智能代理的行為。在實驗中,智能代理除了行為之外,還出現(xiàn)了越來越多的社會行為,充分展示了LLM的智能涌現(xiàn)。
1.2.   預訓練
FMs的實現(xiàn)基于遷移學習和規(guī)模化[5],遷移學習的思想[17,18]是將在一個任務中學習到的知識應用到另一個任務中,在深度學習中,遷移學習分預訓練和微調(diào)兩個階段,F(xiàn)Ms用海量數(shù)據(jù)進行預訓練,得到預訓練模型后,選擇特定的數(shù)據(jù)集進行微調(diào),以適應不同的下游任務。
預訓練是FMs獲得涌現(xiàn)能力的基礎。通過對海量數(shù)據(jù)進行預訓練,F(xiàn)Ms可以獲得基本的理解和生成能力。預訓練任務包括監(jiān)督學習(Supervised Learning,SL)、自監(jiān)督學習(self-supervised learning,SSL)等[19]。早期的預訓練依賴于SL,尤其是在CV中。為了滿足神經(jīng)網(wǎng)絡的訓練需求,構建了一些大規(guī)模的監(jiān)督數(shù)據(jù)集,如ImageNet[20]。然而,SL也有一些缺點,即需要大規(guī)模的數(shù)據(jù)標注。隨著模型大小和參數(shù)量的逐漸增加,SL的缺點變得更加明顯。在NLP中,由于文本標注的難度遠大于圖像標注,SSL因其不需要標注的特點逐漸受到學者們的青睞。
1.2.1.自監(jiān)督學習
SSL允許為后續(xù)任務學習未標記數(shù)據(jù)中的特征表示。SSL的顯著特點是它們不需要手動標記標簽,而是從未標記的數(shù)據(jù)樣本中自動生成標簽。
SSL通常涉及2個主要過程[21]:(a)自監(jiān)督訓練階段:訓練模型以解決設計的輔助任務,并在此階段根據(jù)數(shù)據(jù)屬性自動生成偽標簽,旨在讓模型學習數(shù)據(jù)的通用表示。(b)下游任務應用階段:經(jīng)過自監(jiān)督訓練后,模型學習到的知識可以進一步用于實際的下游任務(Downstream tasks)。下游任務使用SL方法,其中包括語義分割[22]、目標檢測[23]、情感分析[24]。由于自監(jiān)督訓練,模型在下游任務中的泛化能力和收斂速度將大大提高。
SSL方法一般分為3類[25]:基于生成的方法(Generative-based)、基于對比的方法(Contrastive-based)和基于對抗的方法(Adversarial-based)?;谏傻姆椒ǎ核紫仁褂镁幋a器對輸入數(shù)據(jù)進行編碼,然后使用解碼器重新獲得數(shù)據(jù)的原始形式。模型通過最小化誤差來學習?;谏傻姆椒òㄗ曰貧w模型(Auto-regressive models)、自編碼模型(Auto-encoding models)等[26]。基于對比的方法:它通過輔助任務構造正負樣本,通過比較與正負樣本的相似度來學習。這樣的方法包括SimCLR[27]等?;趯沟姆椒ǎ哼@種方法由一個生成器和一個鑒別器組成。生成器負責生成假樣本,而鑒別器適用于區(qū)分這些假樣本和真實樣本[25],一個典型的例子是生成對抗網(wǎng)絡(GANs)[28]。
1.2.2.SSL的輔助任務
輔助任務也可以稱為自監(jiān)督任務,因為它們依賴數(shù)據(jù)本身來生成標簽。這些任務是旨在使模型學習與特定任務相關的表示,從而更好地處理下游任務。
在CV中,根據(jù)數(shù)據(jù)屬性設計輔助任務的方法主要有4大類[21]:基于生成的方法,基于上下文的方法,基于自由語義標簽的方法和跨模態(tài)的方法。其中,基于生成的方法主要涉及圖像或視頻生成任務[29,30];基于上下文的輔助任務主要是利用圖像或視頻的上下文特征設計的,如上下文相似性、空間結構、時間結構等[31-33];在基于自由語義標簽的輔助任務中,利用自動生成的語義標簽訓練網(wǎng)絡[34];而基于跨模態(tài)的輔助任務需要考慮視覺和語音等多種模態(tài)[35]。
在NLP中,最常見的輔助任務包括[36]中心和鄰近詞預測(Center and neighbor word prediction)、下一個和鄰近句預測(Next and neighbor sentence prediction)、自回歸語言建模(Autoregressive Language Modeling)、句子排列(Sentence Permutation)、掩碼語言建模(Masked Language Modeling)等。其中,Word2Vec[37]模型使用中心詞預測作為輔助任務,而BERT模型使用下一個句子預測和掩碼語言建模作為輔助任務。這些模型被訓練來學習語料庫的表達式并應用于下游任務。
1.3.   微調(diào)
微調(diào)是基于已經(jīng)訓練好的模型對特定任務進行進一步訓練的過程,以使其適應任務的特定數(shù)據(jù)和要求。通常,已經(jīng)在大規(guī)模數(shù)據(jù)上預訓練作為基礎模型,然后在特定任務上進行微調(diào)以提高性能。目前,在LLM領域,微調(diào)方法包括2種主要方法:指令調(diào)整和對齊調(diào)整[38]。
指令微調(diào)旨在對指令描述的一組數(shù)據(jù)集上的預訓練模型進行微調(diào)[39]。指令微調(diào)一般包括2個階段。首先,需要收集或創(chuàng)建指令格式化的實例。然后,使用這些實例對模型進行微調(diào)。指令微調(diào)允許LLM在以前未見過的任務上表現(xiàn)出強大的泛化能力。經(jīng)過預訓練和微調(diào)后得到的模型在大多數(shù)情況下都能很好地工作;然而,可能會出現(xiàn)一些特殊情況。例如,在LLM的情況下,訓練后的模型可能會出現(xiàn)偽造虛假信息或保留來自語料庫的有偏見的信息。為了避免這樣的問題,提出了人類對齊微調(diào)的概念。目標是使模型的行為符合人類的期望[40]。與指令微調(diào)相比,這種對齊需要考慮完全不同的標準。
GPT系列是典型的FM,它的訓練過程同樣也包括預訓練和微調(diào)兩階段,以ChatGPT為例,ChatGPT的預訓練過程采用自監(jiān)督預訓練[41],給定無監(jiān)督語料庫,使用標準語言建模方法優(yōu)化其最大似然估計(MLE),GPT使用了多層Transformer解碼器架構[42],從而產(chǎn)生預訓練模型。
ChatGPT的微調(diào)階段由以下3個步驟組成[40],首先,對獲得的預訓練模型進行監(jiān)督微調(diào)(Supervised fine-tuning,SFT);其次,收集比較數(shù)據(jù)以訓練獎勵模型(Reward Model, RM);以及第三,利用近端策略優(yōu)化(PPO)算法對SFT模型進行微調(diào),使獎勵最大化[43],后兩個步驟加在一起就是利用人類反饋的強化學習(RLHF)[44]。
1.4.   FMs在自動駕駛中的應用
自動駕駛的最終目標是實現(xiàn)能夠完全替代人類駕駛的駕駛系統(tǒng),而評價的基本標準是像人類駕駛員一樣駕駛,這對自動駕駛模型的推理能力提出了非常高的要求。我們可以看到,基于大規(guī)模數(shù)據(jù)學習的FMs具有強大的推理和泛化能力,在自動駕駛中具有巨大的潛力。在為自動駕駛賦能中,可以利用FMs增強場景理解,給出語言引導的命令,生成駕駛動作。此外,還可以通過強大的生成能力來增強FMs,用于數(shù)據(jù)增強,包括擴展現(xiàn)有的自動駕駛數(shù)據(jù)集和直接生成駕駛場景。特別是,世界模型(FMs的一種)可以學習物理世界的內(nèi)部運作,并預測未來的駕駛場景,這對自動駕駛具有實質(zhì)性的重要意義。
因此,有必要對FMs在自動駕駛中的應用進行全面審查。本文對此進行了回顧。

· 在“有監(jiān)督的端到端自動駕駛”部分,提供了最新有監(jiān)督的端到端自動駕駛的簡要概述,以便讀者更好地了解背景。

· “基于語言和視覺模型的類人駕駛”部分回顧了語言和視覺FMs在增強自動駕駛方面的應用。

· “基于世界模型的自動駕駛預測”部分回顧了世界模型在自動駕駛領域探索中的應用。

· “基于基礎模型的數(shù)據(jù)增強”部分回顧了FMs在數(shù)據(jù)增強中的應用。


在上述概述的基礎上,“結論和未來方向”部分介紹了使用FMs增強自動駕駛的挑戰(zhàn)和未來方向。
2 有監(jiān)督的端到端自動駕駛自動駕駛研究中“預訓練+微調(diào)”的研究思路不僅在引入大型模型后才出現(xiàn),而是已經(jīng)被研究了很長時間。用一個更熟悉的術語來說,就是端到端自動駕駛。在過去的幾年里,一些學者已經(jīng)通過各種方式對預訓練骨干進行了優(yōu)化,包括Transformer架構和SSL方法。注意,這里的預訓練骨干是指將每個模態(tài)輸入轉(zhuǎn)換為下游任務(如目標檢測、軌跡預測、決策規(guī)劃等)可用的特征表示的模型。基于Transformer架構開發(fā)端到端框架也進行了許多研究嘗試,取得了優(yōu)異的成果。因此,為了更全面地總結底層模型在自動駕駛中的應用,我們認為有必要介紹基于預訓練骨干網(wǎng)的端到端自動駕駛相關研究。在本節(jié)中,我們總結了關于端到端自動駕駛解決方案的預訓練骨干網(wǎng)的最新研究。這些方法的流程在圖3中簡要說明。
2.1.   預訓練Backbone
在端到端建模中,從原始數(shù)據(jù)中提取低級信息的特征在一定程度上決定了后續(xù)模型性能的潛力,優(yōu)秀的預訓練Backbone可以賦予模型更強大的特征學習能力。ResNet[45]和VGGNet[46]等預訓練卷積網(wǎng)絡是端到端模型中使用最廣泛的視覺特征提取骨干。這些預訓練網(wǎng)絡經(jīng)常被訓練為利用目標檢測或分割作為提取廣義特征信息的任務,它們的競爭性能已經(jīng)在許多工作中得到驗證。ViT[47]首先將transformer架構應用于圖像處理,并取得了出色的分類結果。Transformer以其更簡單的架構和更快的推理速度,具有處理大規(guī)模數(shù)據(jù)的優(yōu)化算法的優(yōu)勢。自注意力機制非常適合處理時間序列數(shù)據(jù)。它能夠?qū)Νh(huán)境中物體的時間運動軌跡進行建模和預測,有利于融合來自多個來源的異構數(shù)據(jù),如LiDAR點云、圖像、地圖等。以LSS[48]、BEVDet[49]、BEVformer[50]、BEVerse[51]等為代表的另一類預訓練骨干網(wǎng),通過提取環(huán)繞攝像頭拍攝的圖像并通過模型學習將其轉(zhuǎn)換為鳥瞰圖(BEV)特征,將局部圖像特征從二維(2D)視點索引到3D空間,從而擴展了可用性。近年來,BEV因其能夠更準確地描述駕駛場景而引起了廣泛的興趣,利用預訓練Backbone輸出等BEV特征的研究不僅限于相機,多模態(tài)感知的提取和融合以BEVFusion[52]為代表的BEV特征進一步為自動駕駛系統(tǒng)提供了更廣闊的視野。然而,需要指出的是,盡管transformer架構帶來了巨大的性能增強,但這種Backbone仍然使用SL方法構建預訓練模型,這些方法依賴于海量標記數(shù)據(jù),數(shù)據(jù)質(zhì)量也極大地影響了模型的最終結果。
在相機和點云處理域中,一些工作通過無監(jiān)督或SSL方法實現(xiàn)預訓練Backbone。Wu等[53]提出了PPGeo模型,該模型使用大量未標記的駕駛視頻分2個階段完成視覺編碼器的預訓練,并且可以適應不同的下游端到端自動駕駛任務。Sautier等[54]提出了BEVContrast,用于汽車LiDAR點云上3D Backbone的自監(jiān)督,它定義了BEV平面中2D單元級別的對比度,保留了PointContrast[55]中的簡單性,同時在下游駕駛任務中保持了良好的性能。特別是,雖然“掩碼+還原”的SSL方法也被認為是建模世界的有效方式,Yang等[56]提出了Unipad,它是基于SSL方法實現(xiàn)的,用于掩碼自動編碼和3D渲染。這些多模態(tài)數(shù)據(jù)的一部分被隨機鍵出來進行掩碼并轉(zhuǎn)換到體素空間,其中RGB或深度預測結果通過渲染技術在這樣的3D空間中生成,其余的原始圖像被用作SL的生成數(shù)據(jù)。該方法的靈活性使得能夠很好地集成到2D和3D框架中以及下游任務,如深度估計、目標檢測、分割,以及在模型上進行微調(diào)和訓練的許多其他任務表現(xiàn)出色。

圖3 帶有預訓練Backbone的端到端監(jiān)督式自動駕駛系統(tǒng)。多模態(tài)傳感信息被輸入到預訓練Backbone以提取特征,然后進入由各種方法構建的自動駕駛算法框架,以實現(xiàn)規(guī)劃/控制等任務,從而完成端到端自動駕駛任務。
2.2.   有監(jiān)督的端到端自動駕駛模型
端到端自動駕駛建模的早期工作主要基于各種類型的深度神經(jīng)網(wǎng)絡,通過模仿學習[57-61]或強化學習[62-64]的方法構建,陳等[3]的工作從方法論的角度分析了端到端自動駕駛面臨的關鍵挑戰(zhàn),指出了用Transformer等基礎模型為端到端自動駕駛賦能的未來趨勢,一些學者嘗試用Transformer構建端到端自動駕駛系統(tǒng),得到了不錯的效果。例如,已經(jīng)有Transfuser[65,66]、NEAT(端到端自動駕駛的神經(jīng)注意力領域)[67]、Scene Transformer[68]、PlanT[69]、Gatform[70]、FusionAD[71]、UniAD[72]、VAD(高效自動駕駛的矢量化場景表示)[73]、GenAD[74]以及許多基于Transformer架構開發(fā)的端到端框架。Chitta等人[65,66]提出了Transfuser,它將來自LiDAR的RGB圖像和BEV視圖作為輸入,使用多個Transformer融合特征圖,并通過單層門控循環(huán)單元(GRU)網(wǎng)絡預測接下來4步的軌跡點,隨后通過縱向和橫向比例-積分-微分(PIDs)來控制車輛運行。NEAT[67]進一步將BEV場景映射到軌跡點和語義信息,然后使用中間注意力圖壓縮高維圖像特征,這使得模型可以專注于駕駛相關區(qū)域,忽略駕駛任務無關的信息。Renz等人[69]提出的PlanT使用簡單的對象級表示(車輛和道路)作為Transformer編碼器的輸入,并將周圍車輛的速度預測作為次要任務來預測未來的航路點軌跡。Hu等人[72]提出的UniAD增強了解碼器的設計,并實現(xiàn)了將全棧自動駕駛任務整合到一個統(tǒng)一的框架中,以提高自動駕駛性能,盡管每個任務仍然依賴不同的子網(wǎng)絡。這項工作還獲得了CVPR 2023最佳論文獎,這表明了對端到端自動駕駛范式的學術認可。然而,這些模型往往需要密集的計算。為此,江等人[73]提出了一種方法,將駕駛場景完全向量化,并學習實例級結構信息,以提高計算效率。與之前的模塊化端到端規(guī)劃相比,Zheng等人[74]提出了一種生成式端到端,將自動駕駛建模為軌跡生成。
而且,Wang等人[75]提出的Drive Anywhere不僅實現(xiàn)了端到端的多模態(tài)自動駕駛還與LLM相結合,能夠基于可通過圖像和文本查詢的表示提供駕駛決策。Dong等人[76]生成的基于圖像的動作命令和解釋,并通過構建基于Transformer的特征提取模型進行解釋。Jin等人[77]提出了ADAPT模型,通過端到端模型直接輸出帶有推理語言描述的車輛控制信號。這是第一個基于動作感知transformer的駕駛動作字幕架構。它在完成駕駛控制任務的同時,添加了自然語言敘述,以指導自動駕駛控制模塊的決策和行動過程。它還幫助用戶時刻獲取車輛的狀態(tài)和周圍環(huán)境,并更好地了解自動駕駛系統(tǒng)所采取行動的基礎,提高了決策的可解釋性。從中我們亦可窺見Transformer架構在增強端到端駕駛決策可解釋性方面的潛力。
3 基于語言和視覺模型的類人駕駛隨著LLMs BERT、GPT-4和Llama[78];視覺語言模型(VLMs)CLIP[79]、ALIGN[80]和BLIP-2[81];和多模態(tài)大語言模型(M-LLMs)GPT-4V[82]、LLaVA[83]和Gemini[84]以及其他FM的顯著研究進展,其強大的推理能力被認為為實現(xiàn)人工通用智能迎來了新的曙光[85],對社會的方方面面產(chǎn)生了顯著而深遠的影響。在自動駕駛中,語言和視覺等FMs也顯示出巨大的潛力,有望提高自動駕駛模型對駕駛場景的理解和推理能力,為自動駕駛實現(xiàn)類人駕駛。
我們介紹了基于語言和視覺FMs來增強自動駕駛系統(tǒng)對駕駛場景理解,以及推理給出語言引導指令和動作指令的相關研究,如圖4所示。關于增強對駕駛場景理解的相關工作在“駕駛場景理解”部分介紹,關于給出語言引導指令的推理在“語言引導指令”部分介紹,關于推理生成駕駛動作在“動作生成”部分介紹。

圖4 利用 FMs 增強自動駕駛,其中 FMs指的是大語言模型和視覺語言模型。FMs可以學習感知信息,并利用其強大的理解駕駛場景和推理能力,給出語言指令和駕駛操作,從而增強自動駕駛。
3.1.  駕駛場景理解
Vasudevan等人[86]的研究發(fā)現(xiàn),通過獲取言語描述和凝視估計可以有效增強模型對場景的理解和對物體的定位能力。Li等人[87]提出了一種生成高級語義信息的圖像字幕模型,以提高其對交通場景的理解。他們的工作驗證了語言和視覺特征可以有效增強對駕駛場景的理解。
Sriram等人[88]提出了一種將語義分割結果與自然語言命令相結合的自主導航框架。在CARLA模擬器和KITTI數(shù)據(jù)集[89]中驗證了自然語言命令作為汽車驅(qū)動的有效性。Elhafsi等人[90]通過將觀察到的視覺信息轉(zhuǎn)換為自然語言描述并將其傳遞給LLM,利用其強大的推理能力來識別語義異常。在VLM應用的背景下,Chen等人[91]將圖像和文本特征轉(zhuǎn)移到基于CLIP的3D點云網(wǎng)絡中,以增強模型對3D場景的理解。Romero 等[92]基于CLIP的擴展模型VIVA[93]構建了一個視頻分析系統(tǒng),旨在通過利用VLM的強大理解來提高查詢精度。Tian等人[94]采用VLM來描述和分析駕駛場景,從而增強了對駕駛場景的理解。除了直接對場景數(shù)據(jù)的理解增強,也有學者探索了對感知特征進行增強。Pan等人[95]設計了Ego-car提示,以使用CLIP中的LM來增強獲得的BEV特征。Dewangan等人[96]提出了一種增強BEV地圖的方法,通過VLMs(Blip-2[81]、Minigpt-4[97]和Instructblip[98])檢測BEV中每個對象的特征,并通過語言表征來獲得語言增強的BEV地圖。然而,現(xiàn)有的VLM受限于2D域,缺乏空間感知和長時間域外推的能力。為了解決這個問題,Zhou等人[99]提出了一個模型,即Embodied Language Model(ELM),它增強了對長時間域和跨空間駕駛場景的理解。這是通過使用不同的預訓練數(shù)據(jù)和選擇自適應Token來實現(xiàn)的。
3.2.   語言引導指令
在這里,我們回顧了通過FMs給出語言指令的研究,主要是描述性指令,如“前方紅燈,你應該減速”、“前方路口,請注意行人”等。Ding等人[100]使用視覺編碼器對視頻數(shù)據(jù)進行編碼,然后將視頻數(shù)據(jù)輸入到LLM中,生成相應的駕駛場景描述和建議。特別是,這項工作還提出了一種方法,使高分辨率特征圖和獲得的高分辨率信息融合到M-LLM中,以進一步增強模型的識別、解釋和定位能力。Fu等人[101]探索了利用LLM像人類一樣理解駕駛環(huán)境的潛力,利用LLaMA-Adapter[102]描述場景數(shù)據(jù),然后通過GPT-3.5給出語言命令。Wen等人[103]提出了DiLu,這是一種基于先前工作的知識驅(qū)動范式,可以基于常識性知識做出決策并積累經(jīng)驗。文章特別指出,DiLu具備指導真實世界數(shù)據(jù)的經(jīng)驗獲取能力,具有自動駕駛系統(tǒng)實際部署的潛力。為了進一步提高基于LLM的自動駕駛的安全性,Wang等人[104]使用基于MPC的驗證器對軌跡規(guī)劃進行評估并提供反饋,然后融合提示學習,使LLM能夠進行上下文安全學習,這從整體上提高了自動駕駛的安全性和可靠性。為了豐富數(shù)據(jù)輸入以獲得更準確的場景信息,Wang等人[105]利用多模型LLM使自動駕駛系統(tǒng)能夠獲得語言命令。同時,針對語言命令和車輛控制命令之間的差距,本工作對決策狀態(tài)進行了對齊操作。
前面提到的工作更多的是在數(shù)據(jù)集和仿真環(huán)境的背景下進行的,在實車測試方面已經(jīng)有了一些探索性的工作,Wayve提出了LINGO-1[106],一種基于視覺-語言-行動的大模型的自動駕駛交互大模型,其中模型可以自我解讀,并在駕駛時進行視覺回答,它引入了人類駕駛體驗,可以通過自然語言描述解釋駕駛場景中的各種因果要素,以類人理解的方式獲取駕駛場景中的特征信息,學習并給出交互式語言命令。Cui等人[107]創(chuàng)新性地將LLM置于云端,輸入人類命令,并利用LLM的推理能力生成執(zhí)行代碼。然而,該工作存在延遲問題,在自動駕駛的實時性能要求方面有改進的空間。
當前研究中將LLM納入自動駕駛系統(tǒng)的流程如圖4所示,主要通過場景理解、高級語義決策和軌跡規(guī)劃來實現(xiàn)。在本節(jié)中,我們總結了高級決策應用,并認為研究過程有一些相似之處。為了更清楚地說明它們是如何工作的,我們使用最近的典型研究工作DriveMLM[105]作為示例在圖5中進一步說明。
DriveMLM通過使用M-LLM模擬模塊化自動駕駛系統(tǒng)的行為規(guī)劃模塊,該模塊基于處理后的感知信息和命令要求,在逼真的模擬器中執(zhí)行閉環(huán)自動駕駛。DriveMLM還生成其駕駛決策的自然語言解釋,從而增加系統(tǒng)的透明度和可信度。

圖5 關于LLM在自動駕駛系統(tǒng)決策中的應用,圖中顯示了一個典型架構,參考DriveMLM [105]。
3.3.   動作生成
正如“語言引導指令”部分所描述的,學術界和工業(yè)界已經(jīng)嘗試將GPT語言知識嵌入到自動駕駛決策中,以語言指令的形式增強自動駕駛的性能,以促進FMs在自動駕駛中的應用。早在FMs在LLM領域取得突破之前,就有一些工作試圖通過類似的研究思路來提高自動駕駛的性能。例如,Casas等人[108]提出的MP3框架使用高層語義信息作為決策訓練指導,這些信息與感知數(shù)據(jù)一起構成輸入,以構建算法來實現(xiàn)運動預測。
語言大模型在自動駕駛領域的應用研究方興未艾,GPT系列作為transformer架構目前最為成功的變體,或許能夠在多個層面為提升綜合表現(xiàn)帶來新的突破。從語言知識層面來看,LLM是FMs代表;然而,語言描述和推理并不是自動駕駛系統(tǒng)直接應用的。考慮到大模型有望真正部署在車端,最終需要落在規(guī)劃或控制指令上;即FMs最終應該從動作狀態(tài)層面賦能自動駕駛。盡管如此,如何將語言決策量化為自動駕駛系統(tǒng)可用的動作命令,如規(guī)劃和控制,仍然面臨著巨大的挑戰(zhàn)。一些學者已經(jīng)進行了初步探索,但仍有很大的發(fā)展空間。此外,一些學者探索了通過類似GPT的方法構建自動駕駛模型,該方法直接輸出基于LLM的軌跡甚至控制命令。在表1中,我們簡要概述了一些代表性工作。
表1 利用 LLM 生成自動駕駛規(guī)劃和控制的工作

Sha等人[109]提出了LanguageMPC,它采用GPT-3.5作為需要人類常識理解的復雜自動駕駛場景的決策模塊。通過設計認知路徑來實現(xiàn)LLM中集成推理的,Sha等人提出了將LLM決策轉(zhuǎn)化為可操作的駕駛控制命令的算法,從而提高了車輛處理復雜駕駛行為的能力。Jain等人[110]的研究對明確的語言命令借助視覺感知實現(xiàn)導航定位并進一步規(guī)劃軌跡。Omama等人[111]構建了一種名為ALT-Pilot的基于多模態(tài)地圖的導航和定位方法,該方法可用于導航到任意目的地,而無需高清LiDAR地圖,證明了現(xiàn)成的視覺LMs可用于構建語言增強的地形地圖。Pan等人[95]在訓練階段提出了VLP方法,以提高具有LLM強大推理能力的自動駕駛系統(tǒng)視覺感知和運動規(guī)劃的上下文推理,并在開環(huán)端到端運動規(guī)劃任務中取得了優(yōu)異的性能。
一些學者還嘗試通過類似GPT的方法直接構建自動駕駛模型,即利用LLM構建端到端的自動駕駛規(guī)劃器,直接輸出預測軌跡、路徑規(guī)劃甚至控制命令,旨在有效提高自動駕駛模型對未知駕駛場景的泛化能力。
Pallagani等人[112]構建了Plansformer,它既是一個LLM,也是一個規(guī)劃器,顯示了從多種規(guī)劃任務中展現(xiàn)了大語言模型微調(diào)后作為規(guī)劃器的巨大潛力。Wang等人[113]構建了BEVGPT模型,該模型將道路上當前環(huán)境信息作為輸入,然后輸出一個序列,其中包括未來的車輛決策指令和自動駕駛車輛可以遵循的空間路徑。一些工作[114-119]將文本提示和道路上當前環(huán)境的信息作為輸入,然后輸出文本響應或解釋,以及包括未來車輛決策指令和自動駕駛車輛可以遵循的空間路徑的序列。其中,Cui等人[117]利用GPT-4輸入自然語言描述和環(huán)境感知數(shù)據(jù),使LLM直接輸出駕駛決策和操作命令。此外,他們在參考文獻[118]中對高速公路超車和變道場景進行了實驗。[118]比較了LLM提供的具有不同提示的駕駛決策,研究表明鏈式思維提示有助于LLM做出更好的駕駛決策。
一些學者也嘗試了不同的想法。Seff等人[120]提出了MotionLM,它將運動預測作為語言建模任務,通過將連續(xù)軌跡表示為運動tokens的離散序列來學習多模態(tài)分布,利用單一標準語言建模目標來預測路網(wǎng)參與者的未來行為。Mao等人[121]提出了GPT-Driver模型,通過將規(guī)劃者的輸入和輸出表示為語言標記,并利用LLM通過坐標位置的語言描述來生成駕駛軌跡,從而將運動規(guī)劃任務重新表述為語言建模問題。此外 ,他們[122]提出了Agent Driver,它利用LLM引入了可通過函數(shù)調(diào)用訪問的通用工具庫,用于常識的認知記憶和用于決策的經(jīng)驗知識,以及能夠進行CoT推理、任務規(guī)劃、運動規(guī)劃和自我反思的推理機器,以實現(xiàn)更細致入微的、類似人類的自動駕駛方法。Ma等人[123]提出了Dolphins,它能夠執(zhí)行諸如理解場景、行為預測和軌跡規(guī)劃等任務。這項工作證明了視覺LM能夠全面理解復雜和開放世界長尾駕駛場景,解決一系列自動駕駛任務的能力,以及包括上下文學習、無梯度的即時適應和反思性錯誤恢復在內(nèi)的緊急類似人類的能力。
考慮到視覺語言模型(VLM)的規(guī)模挑戰(zhàn),Chen等人[124]基于數(shù)字矢量模態(tài)比圖像數(shù)據(jù)更緊湊的想法,將矢量化2D場景表示與預訓練的LLM融合,以提高LLM對綜合駕駛情況的解釋和推理能力,給出場景解釋和車輛控制命令。Tian等人[94]提出DriveVLM,它通過CoT機制,不僅能夠生成圖像序列中呈現(xiàn)的場景的描述和分析,以做出駕駛決策指導,還可以進一步實現(xiàn)與傳統(tǒng)自動駕駛流程相結合的軌跡規(guī)劃。所提出的工作還為VLM在空間推理和計算方面固有的挑戰(zhàn)提供了可能的解決方案,實現(xiàn)了現(xiàn)有自動駕駛方法和基于大型模型的方法之間的有效過渡。
與上一個小節(jié)一樣,對于LLM應用于自動駕駛系統(tǒng)軌跡規(guī)劃直接生成的研究工作,我們以圖6中最近的一項典型研究工作LMDrive[119]為例,希望能更清楚地說明它是如何工作的。LMDrive基于Carla模擬器,模型訓練由預訓練和命令微調(diào)2個階段組成。在預訓練階段,預測頭被添加到視覺編碼器中以執(zhí)行預訓練任務。預訓練完成后,預測頭被丟棄,視覺編碼器被凍結。在指令微調(diào)階段,為每個行駛段配置導航指令和通知指令,通過LLaMA指令編碼的時間序列對視覺tokens進行處理,并與文本令牌一起輸入到LLM中,得到預測tokens。2-MLP適配器之后,輸出的是汽車未來軌跡的規(guī)劃和指令是否完成的標志,規(guī)劃的軌跡通過橫向和縱向PID控制器完成閉環(huán)仿真。

圖6 關于 LLM 在自動駕駛系統(tǒng)規(guī)劃中的應用,圖中顯示了一個典型架構,參考LMDrive [119]。
這種類型的研究思路比單純的知識嵌入制作自動駕駛模型更接近人類駕駛。隨著大模型的發(fā)展,也許有潛力成為未來的主要發(fā)展方向之一。運動規(guī)劃作為智能機器人領域的基本主題之一[125],通過LLM將語言決策量化為自動駕駛系統(tǒng)可用的規(guī)劃甚至控制等動作指令意義非凡,例如通過LLM為自動駕駛系統(tǒng)提供規(guī)劃甚至控制。然而,應該注意的是,由于大模型本身未解決的陷阱,這些新框架在可靠性方面也存在問題,如“幻覺”(LLM可能會生成與來源或事實信息相沖突的內(nèi)容)。關于大型模型本身的問題以及自動駕駛中繼承的挑戰(zhàn)的具體細節(jié)將在“結論和未來方向”部分詳細討論4 基于世界模型的自動駕駛預測世界模型(World models,WMs)是指世界的心理模型。它可以被解釋為一種人工智能模型,包含對其運行的環(huán)境的整體理解或表示。這種模型能夠模擬環(huán)境以做出預測或決策。在最近的文獻[126,127]中,“世界模型”一詞已在與強化學習聯(lián)系中被提及。這一概念在自動駕駛中也獲得了關注,因為它能夠理解和闡明駕駛環(huán)境的動態(tài),下文將詳細介紹。LeCun[128]在他的立場文件中指出,人類和動物的學習能力可能植根于他們學習世界模型的能力,使他們能夠內(nèi)化和理解世界是如何運作的。他指出,人類和動物已經(jīng)展示出一種能力,即通過觀察少量事件,無論與手頭的任務相關還是無關,就能獲得關于世界運行的大量背景知識。世界模型的思想可以追溯到Dyna,由Sutton[129]在1991年提出,觀察世界的狀態(tài)并相應地采取適當?shù)男袆优c世界進行交互學習[130]。Dyna本質(zhì)上是監(jiān)督條件下的強化學習形式。之后,研究人員也進行了許多嘗試。Ha和Schmidhuber [126]試圖通過利用無監(jiān)督方法——變分自編碼器(VAE)對輸入特征進行編碼,并利用循環(huán)神經(jīng)網(wǎng)絡(RNN)來學習狀態(tài)的演變。Hafner等人[131]提出了循環(huán)狀態(tài)空間模型(RSSM),該模型結合強化學習實現(xiàn)了融合隨機性和確定性的多步預測?;赗SSM架構,Hafner等人相繼提出了DreamerV1[132]、DreamerV2[133]、DreamerV3[134],在隱式變量中學習實現(xiàn)圖像預測生成。Gao等人[135]考慮到隱式中存在冗余信息,通過提出語義屏蔽循環(huán)世界模型(SEM2)來擴展Dreamer系列的框架,學習相關驅(qū)動狀態(tài)。Hu等人[136]去除了預測獎勵,提出了一種基于模型的模仿學習(MILE)方法來預測未來狀態(tài)。
可以看出,世界模型與強化學習、模仿學習和深度生成模型高度相關。然而,在強化學習和模仿學習中利用世界模型一般需要標記數(shù)據(jù),所提到的SEM2和MILE方法都是在監(jiān)督范式內(nèi)進行的。也有人嘗試基于標記數(shù)據(jù)的局限性將強化學習和無監(jiān)督學習(UL)結合起來[137,138]。由于與SSL的密切關系,深度生成模型越來越受歡迎,該領域的研究人員進行了許多嘗試。下面,我們將主要回顧生成世界模型在自動駕駛中的探索性應用;流程如圖7所示,“深度生成模型”部分介紹了各類深度生成模型的原理及其在生成驅(qū)動場景中的應用,“生成方法”部分介紹了生成世界模型在自動駕駛中的應用,“非生成方法”部分將介紹一類非生成方法。

圖7 利用世界模型增強自動駕駛。世界模型首先通過觀察交通環(huán)境學習內(nèi)在演變規(guī)律,然后通過連接適應不同駕駛任務的不同解碼器來增強自動駕駛功能。

 

4.1.   深度生成模型
深度生成模型通常包括VAEs[139,140]、生成對抗網(wǎng)絡(GANs)[28,141]、流模型[142,143]和自回歸模型(ARs)[144-146]。
VAEs結合了自編碼器和概率圖形模型的思想來學習底層數(shù)據(jù)結構和生成新樣本。Rempe等人[147]使用VAE學習交通場景的先驗分布,并模擬事故多發(fā)場景的生成。GANs由生成器和判別器組成,它們利用對抗性訓練相互競爭和增強,最終實現(xiàn)生成逼真樣本的目標。Kim等人[148]使用GAN模型觀察未標記視頻幀的序列及其關聯(lián)的動作對,以模擬動態(tài)交通環(huán)境。流模型通過一系列可逆變換,將簡單的先驗分布轉(zhuǎn)換為復雜的后驗分布,從而生成相似的數(shù)據(jù)樣本。Kumar等人[149]使用流模型實現(xiàn)多幀視頻預測。ARs是一類序列分析方法,基于序列數(shù)據(jù)之間的自相關性,描述現(xiàn)在和過去的關系,模型參數(shù)的估計通常是利用最小二乘法和最大似然估計來完成的。例如,GPT使用最大似然估計進行模型參數(shù)訓練。Feng等人[150]實現(xiàn)了基于自回歸迭代的車輛未來軌跡的生成。Swerdlow等人[151]實現(xiàn)了基于自回歸transformer的街景圖像生成。擴散模型是一種典型的自回歸方法,它從純噪聲數(shù)據(jù)中學習逐步去噪的過程。擴散模型憑借其強大的生成性能,是當前深度生成模型中的新SOTA。[152-154]等工作證明了擴散模型具有很強的理解復雜場景的能力,視頻擴散模型可以生成更高質(zhì)量的視頻。[155,156]等工作利用擴散模型生成了復雜多樣的駕駛場景。
4.2.   生成式方法
基于深度生成模型的強大能力,利用深度生成模型作為世界模型來學習駕駛場景以增強自動駕駛已成為一種流行趨勢,以下部分將回顧利用深度生成模型作為世界模型,在自動駕駛中的應用。在表2中,我們提供了一些代表性工作的簡要概述。
表2 利用世界模型進行預測的工作

4.2.1.基于點云的模型
Zhang 等人[157]在Maskgit[158]的基礎之上,并將其重構(recast)為離散擴散模型,用于點云預測。該方法利用VQ-VAE[159]對觀測數(shù)據(jù)進行標記化,以進行無標簽學習。Karlsson 等人[160]使用分層VAE構建世界模型,使用潛在變量預測和對抗建模生成偽完整狀態(tài),將部分觀察與偽完整觀測值匹配以預測未來的狀態(tài),并在KITTI-360[161]數(shù)據(jù)集上對其進行評估。特別的,它利用預訓練的基于視覺的語義分割模型從原始圖像中進行推斷。Bogdoll 等人[162]構建了多模態(tài)自動駕駛生成式世界模型MUVO,利用原始圖像和LiDAR數(shù)據(jù)來學習世界的幾何表示。該模式以動作為條件,實現(xiàn)了3D占用預測,并可直接應用于下游任務(如規(guī)劃)。類似地,Zheng等人[163]使用VQ-VAE來標記3D占用場景,并構建3D占用空間來學習可以預測自我意識車輛運動和駕駛場景演變的世界模型。為了獲得更細粒度的場景信息,Min等人[164]使用的未標記image-LiDAR來預訓練,以構建可以生成4D幾何占用的世界模型。
4.2.2.基于圖像的模型
為解決預測駕駛場景未來變化的難題,Wayve提出了一種生成世界模型GAIA-1[165]。GAIA-1使用transformer作為世界模型來學習并預測輸入視頻、文本和動作信號的下一個狀態(tài),然后生成逼真的駕駛場景。對于視頻流的學習,GAIA-1采用了SSL,可以學習規(guī)?;臄?shù)據(jù)而獲得全面的環(huán)境理解。Wang 等人[166]設計了一個2階段訓練策略。首先,采用擴散模型來學習駕駛場景并獲得對結構化交通的理解。然后利用視頻預測任務構建了一個世界模型——DriveDreamer。值得注意的是,通過整合歷史駕駛行為,這種方法能夠生成未來的駕駛動作。Zhao等人[167]通過結合LLM,在DriveDreamer框架之上構建了DriveDreamer-2,根據(jù)用戶描述,LLM生成相應的Agent軌跡,以及HDMap信息可控地生成駕駛視頻。Wang等人[168]通過聯(lián)合建模未來的多視圖和多幀來生成駕駛視頻。這種方法大大提高了生成結果的一致性,并在此基礎上生成了端到端的運動規(guī)劃。
在業(yè)內(nèi),在2023年CVPR自動駕駛研討會上,特斯拉研究員Ashok Elluswamy介紹了他們在利用生成式大模型生成未來駕駛場景方面的工作[169]。在演示中看到,特斯拉生成式大模型生成的視頻與從真實車輛中捕獲的視頻非常接近。它還可以生成類似標注的語義信息,表明該模型也具有一些語義層面的理解和推理能力。特斯拉將他們的工作命名為“Learning a General World Model”,可以看出他們的理解是構建一個通用的世界模型。通過從真實車輛中采集的大量視頻數(shù)據(jù)中學習,特斯拉意在為自動駕駛構建一個大型FM,它可以理解世界的動態(tài)演變。
4.2.3.視頻預測
視覺是人類獲取有關世界信息的最直接和最有效的手段之一,因為圖像數(shù)據(jù)中包含的特征信息極其豐富。之前的眾多工作[132-134,138,170]都通過世界模型完成了圖像生成的任務,證明了世界模型對圖像數(shù)據(jù)具有良好的理解和推理能力。然而,這些主要集中在圖像生成上,在能夠更好地體現(xiàn)世界動態(tài)演變的視頻預測任務中仍然有所欠缺。視頻預測任務需要對世界演化有更深入的理解,也需要對下游任務有更強的指導意義。在研究工作[160,165]中,它們都有效地預測了生成的未來交通場景,其中SSL可能是關鍵。之前的工作也對此進行了探索。Wichers等人[171利用原始圖像]訓練了一個模型,并提出了一種結合低級像素空間和高級特征空間(如,地標)的分層長期視頻預測方法,與工作[134]相比,實現(xiàn)了更長時間的視頻預測。Endo等人[172]在SSL范式下構建了一個模型,用于從單幀圖像中預測未來的交通場景以預測未來。Voleti等人[173]基于具有概率條件分數(shù)的去噪擴散模型,通過隨機屏蔽未標記的過去幀或未來幀來訓練模型,這允許逐塊自回歸生成任意長度的視頻。Finn等人[174]提出了在無監(jiān)督條件下與世界進行物理交互,并通過預測前一幀像素運動的分布來實現(xiàn)視頻預測。Micheli等人[175]驗證了利用自回歸Transformer作為世界模型的有效性,并通過SSL訓練參數(shù)來實現(xiàn)游戲圖像的預測。Wu等人[176]構建了一個以對象為中心的世界模型,以學習對象之間復雜的時空交互,并生成高視覺質(zhì)量的未來預測。
受到LLM的啟發(fā),Wang等人[177]將世界建模視為無監(jiān)督的視覺序列建模。使用VQ-GAN將視覺輸入映射為離散的標記[178],然后使用時空轉(zhuǎn)換器預測掩碼tokens,以學習其中的物理演變規(guī)律,從而獲得在各種場景下生成視頻的能力。類似于LLM的tokens,OpenAI研究人員將視覺數(shù)據(jù)轉(zhuǎn)換為patches,以提出視頻生成模型Sora。為了解決視覺數(shù)據(jù)的高維性,他們將視覺數(shù)據(jù)壓縮到一個較低維的潛在空間中,然后在這個潛在空間中進行擴散生成,然后將這個表示映射回像素空間,實現(xiàn)視頻生成。通過從互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)中學習,Sora實現(xiàn)了視頻域中的scaling law,Sora可以基于不同的提示生成連貫的高清視頻。同年,谷歌提出了一種生成式交互模型Genie[179],使用未標記的互聯(lián)網(wǎng)游戲視頻進行訓練。特別是,Genie提出了一種潛在動作模型來推斷每一幀之間的潛在動作,并通過訓練構建了潛在動作的碼本。使用時用戶選擇初始幀和指定的潛在動作,并自回歸生成未來幀。隨著模型大小和批量大小的增加,Genie也出現(xiàn)了scaling result。相比之下,Sora旨在生成具有高保真、可變持續(xù)時間和分辨率的視頻內(nèi)容。雖然視頻質(zhì)量不如Sora先進,但Genie針對構建生成式交互環(huán)境進行了優(yōu)化,用戶可以在其中逐幀操作以生成視頻。
前面的研究證明了世界模型在增強自動駕駛方面是有效的。世界模型可以直接嵌入到自動駕駛模型中,以完成各種駕駛任務。此外,還探索了學習從大規(guī)模視覺數(shù)據(jù)構建通用世界模型,如Sora和Genie。這些FMs可以用于數(shù)據(jù)生成(將在“基于基礎模型的數(shù)據(jù)增強”部分討論)。此外,基于FMs的泛化能力,它們可以用于執(zhí)行大量下游任務,甚至可以用于模擬世界。
4.3.   非生成式方法
與生成式世界模型相比,LeCun[128]通過提出基于能量模型(Energy-based Model)的聯(lián)合提取和預測架構(Joint Extraction and Prediction Architecture,JEPA)來闡述世界模型的不同概念。這是一種非生成式的自監(jiān)督架構,因為它不直接從輸入x預測輸出y,而是將x編碼為sx以預測表示空間中的sy,如圖8所示。這有一個優(yōu)點,即它不必預測關于y的所有信息,并且可以消除不相關的細節(jié)。
圖 8 生成法與非生成法的結構比較 [184]。(A) 生成式架構通過解碼器網(wǎng)絡,以附加變量 z(可能是潛在變量)為條件,從兼容信號 x 重構信號 y;(B) 聯(lián)合嵌入式預測架構通過預測器網(wǎng)絡,以附加變量 z(可能是潛在變量)為條件,從兼容信號 x 預測信號 y 的嵌入。

JEPA架構自提出以來,以優(yōu)異的性能被幾位學者應用于不同領域。在計算機視覺領域中,Skenderi等人[180]提出了Graph-JEPA,這是一種用于圖域的JEPA模型。它將輸入圖劃分為子圖,然后預測目標子圖在上下文子圖中的表示。Graph-JEPA在圖分類和回歸問題上都獲得了優(yōu)異的性能。在音頻領域,F(xiàn)ei等人[181]提出了A-JEPA,它將掩碼建模原理應用于音頻。經(jīng)過實驗驗證,A-JEPA已被證明在語音和音頻分類任務中表現(xiàn)良好。Sun等人提出了JEP-KD[182],它采用先進的知識蒸餾方法來增強視覺語音識別(Visual Speech Recognition,VSR)的有效性,縮小其與自動語音識別(Automatic Speech Recognition, ASR)之間的性能差距。
在CV領域,Bardes等人[183]提出了MC-JEPA,它采用JEPA架構和SSL方法來實現(xiàn)光流和內(nèi)容特征的共同學習,從而從視頻中學習動態(tài)內(nèi)容特征。從視頻來看,MC-JEPA在各種任務中表現(xiàn)良好,包括光流估計以及圖像和視頻的分割。META[184]提出了I-JEPA,用于學習高度語義的圖像表示,而無需依賴于手動數(shù)據(jù)增強。將I-JEPA與Vision Transformers結合使用,在各種任務中產(chǎn)生了強大的下游性能,包括線性分類、物體計數(shù)和深度預測。META在I-JEPA的基礎上,提出V-JEPA[185]將JEPA應用于視頻領域。該方法將掩碼預測與JEPA架構相結合,訓練了一系列以特征預測為SSL目標的V-JEPA模型。實驗結果表明,這些模型在一系列CV下游任務中表現(xiàn)出優(yōu)異的性能,包括動作識別、動作分類和目標分類。
迄今為止,以JEPA為代表的非生成式模型雖然并沒有在自動駕駛領域得到直接的應用,但卻存在巨大的潛力。首先,非生成世界模型不是在像素空間中預測視頻,而是在潛在空間中進行特征預測。這消除了許多不相關的細節(jié)。例如,在自動駕駛的場景預測任務中,我們對當前道路上其他交通參與者的未來運動更感興趣。此外,對于不在自動駕駛車輛當前道路上的其他車輛,例如,比如說旁邊與當前道路平行的高架上的其他車輛,我們不考慮它們未來的運動軌跡。JEPA模型消除了這些不相關的細節(jié),并降低了問題的復雜性。此外,V-JEPA已經(jīng)展示了它在視頻中學習特征的能力。通過分析足夠多的駕駛視頻,預計V-JEPA將廣泛用于生成駕駛場景和預測未來環(huán)境狀態(tài)等任務。5 基于基礎模型的數(shù)據(jù)增強
隨著深度學習的不斷發(fā)展,以預訓練和微調(diào)為基礎架構的FMs的性能正在提高。FMs正在引領從規(guī)則驅(qū)動的轉(zhuǎn)變數(shù)據(jù)驅(qū)動的學習范式。數(shù)據(jù)作為模型學習的一個關鍵方面的重要性是顯而易見的。大量數(shù)據(jù)被用于自動駕駛模型的訓練過程,以促進模型在不同駕駛場景下的理解和決策能力。然而,現(xiàn)實數(shù)據(jù)的收集是一個費時費力的過程,因此數(shù)據(jù)增強對于提高自動駕駛模型的泛化能力至關重要。
數(shù)據(jù)增強的實現(xiàn)需要考慮兩個方面:一方面,如何獲取大規(guī)模數(shù)據(jù),使反饋到自動駕駛系統(tǒng)的數(shù)據(jù)具有多樣性和廣泛性,另一方面,如何獲取盡可能多的高質(zhì)量數(shù)據(jù),使用于訓練和測試自動駕駛模型的數(shù)據(jù)具有準確性和可靠性,相關工作也大致選擇了兩個方向來增強自動駕駛數(shù)據(jù),一是豐富現(xiàn)有數(shù)據(jù)集的數(shù)據(jù)內(nèi)容,增強駕駛場景的數(shù)據(jù)特征,二是通過仿真生成多層次的駕駛場景。下面將對基于FMs增強數(shù)據(jù)的相關工作進行綜述,在“自動駕駛數(shù)據(jù)集的擴展”部分,我們描述了擴展數(shù)據(jù)集的相關工作,在“駕駛場景的生成”部分,我們描述了生成駕駛場景的相關工作。表3簡要概述了一些代表性工作。
表3 有關數(shù)據(jù)增強的工作

5.1.   擴展自動駕駛數(shù)據(jù)集
現(xiàn)有的自動駕駛數(shù)據(jù)集大多是通過記錄傳感器數(shù)據(jù),然后對數(shù)據(jù)進行標注來獲得的。這樣獲得的數(shù)據(jù)的特征通常是低級的,更多地存在于數(shù)字表示層面,對于自動駕駛場景的視覺空間特征表征來說是不夠的。自然語言描述被視為增強場景表示的有效方式[79];Flickr30k[186]、RefCOCO[187]、RefCOCOg[188]和CLEVR-Ref[189]使用簡潔的自然語言描述來確定圖像中相應的視覺區(qū)域。Talk2Car[190]融合了圖像、雷達和激光雷達數(shù)據(jù),構建了第一個包含自動駕駛汽車自然語言命令的對象引用數(shù)據(jù)集。然而,Talk2Car數(shù)據(jù)集一次只允許引用一個對象。CityFlow-NL[191]通過自然語言描述構建了用于多目標跟蹤的數(shù)據(jù)集,ReferKITTI[192]通過在相應任務中利用語言查詢實現(xiàn)了對任意目標跟蹤的預測。FMs在其高級語義理解、推理和解釋能力下,為豐富和擴展自動駕駛數(shù)據(jù)集提供了新思路。Qian等人[193]通過語言模型編碼問題描述,并與傳感器數(shù)據(jù)進行特征融合獲取回答,創(chuàng)建了3D多視圖駕駛場景下的自動駕駛視覺問答數(shù)據(jù)集NuScenes-QA,在語言提示的使用方面取得了重大進展。Wu等人[194]在NuScenes-QA的基礎上進行了拓展,通過語言元素采集、組合,再調(diào)用LLM生成描述構建了數(shù)據(jù)集NuPrompt。該數(shù)據(jù)集提供更精細的匹配3D實例和每個提示,這有助于更準確地表征自動駕駛儀圖像中的物體。Sima等人[115]考慮到交通要素的相互作用,通過用BLIP-2擴展nuScenes數(shù)據(jù)集[195]構建了Graph Visual Question Answering,可以更好地闡明對象之間的邏輯依賴關系和駕駛任務的層次結構。除了直接擴展增強的自主數(shù)據(jù)集,一些學者還整合了LLM的CoT能力和視覺模型的跨模態(tài)能力,構建了一個自動標注系統(tǒng)OpenAnnotate3D[196],可用于多模態(tài)3D數(shù)據(jù)。通過利用基礎模型的高級理解、推理和解釋能力來擴展數(shù)據(jù)集,有助于更好地評估自動駕駛系統(tǒng)的可解釋性和控制性,從而提高自動駕駛系統(tǒng)的安全性和可靠性。一些代表性工作的比較如表4所示。
表4 擴展數(shù)據(jù)集的比較,“-"表示無法獲得

5.2.   生成駕駛場景
駕駛場景的多樣性對于自動駕駛來說具有相當重要的意義,自動駕駛模型要獲得更好的泛化能力,必須學習種類繁多的場景。然而,現(xiàn)實情況是駕駛場景符合長尾分布(在其中很大一部分觀察或?qū)嵗性诜植嫉奈膊?,遠離中心或均值。)自動駕駛車輛的“長尾問題”是,自動駕駛車輛能夠處理所經(jīng)常遇到的正常場景,但面對一些罕見或極端情況下的邊緣場景應對不佳或無法應對。為了解決長尾問題,關鍵是獲得盡可能多的極端情況。盡管如此,將收集限制在真實場景中是低效的。例如,在邊緣場景挖掘的工作CODA[197]中,100萬數(shù)據(jù)中只有1,057個有效數(shù)據(jù)。
鑒于上述情況,大規(guī)模和高質(zhì)量駕駛場景數(shù)據(jù)的生成需要主動生成大量駕駛場景的能力。傳統(tǒng)方法可以分為兩大類:基于規(guī)則的和數(shù)據(jù)驅(qū)動的。基于規(guī)則的方法[198-201]需要使用預定義的規(guī)則,不足以表征復雜環(huán)境,模擬的環(huán)境較為簡單,并且表現(xiàn)出有限的泛化能力。相比之下,數(shù)據(jù)驅(qū)動方法[202-205]利用駕駛數(shù)據(jù)來訓練模型,使其能夠不斷學習和適應。然而,數(shù)據(jù)驅(qū)動方法通常需要大量標記數(shù)據(jù)進行訓練,阻礙了駕駛場景生成的進一步發(fā)展。此外,這種方法可控性不強,不適合自定義生成。最近,F(xiàn)Ms取得了巨大的成功,通過FMs生成更高質(zhì)量的駕駛場景也引起了重要的研究關注。一方面,基于FMs強大的理解和推理能力,可以增強數(shù)據(jù)生成的多樣性和準確性。另一方面,可以設計不同的提示進行可控生成。
5.2.1.基于LLMs和VLMs
針對一些長尾場景永遠無法在多視角鏡頭中收集的事實,Yang等人[206]融合了語言提示、BEV sketch和多視角噪聲來設計一個兩階段生成網(wǎng)絡BEVControl,用于合成逼真的街道場景圖像。盡管如此,BEVControl不足以對前景和背景細節(jié)信息進行建模。為了解決獲得大規(guī)模BEV表示的困難,Li等人[207]開發(fā)了一個時空一致的擴散框架DrivingDiffsion,以自回歸生成由3D布局控制的逼真多視圖視頻。通過將本地提示輸入引入視覺模型,可以有效地增強生成數(shù)據(jù)的質(zhì)量。對于可控生成,Wen等人[208]集成了語言提示、圖像條件和BEV序列,設計了一個可控模塊,以提高駕駛場景生成的可控性。Gao等人[209]通過將文本提示與相機位姿、道路地圖和對象框融合控制相結合來設計3D幾何控制,以生成多樣化的道路場景。
基于LLMs和VLMs強大的理解和推理能力,將其直接嵌入或引導模型生成駕駛場景也成為研究熱點。Marathe等人[210]通過提示利用VLM有效地生成了包含16個極端天氣的數(shù)據(jù)集。盡管如此,由于數(shù)據(jù)選擇中存在預選定現(xiàn)象,該模型存在一些擴展約束。Chen等人[124]通過對強化學習智能體收集的控制命令和LLM生成的問題答案進行配對直接構建一個新的數(shù)據(jù),實現(xiàn)了數(shù)字矢量模態(tài)與自然語言的結合。Zhong等人[211]提出了一種基于場景級擴散的語言引導交通仿真模型CTG++,可以生成符合指令的、逼真、可控的交通場景。Wang等人[75]利用自然語言描述作為概念表述與LLM集成,通過利用其強大的常識推理能力來豐富生成場景的復雜性。人類駕駛員的行為也是駕駛場景的重要組成部分,jin 等人[212]一種基于LLM的城市環(huán)境中的生成式駕駛代理模擬框架SurrealDriver,通過分析和學習真實駕駛數(shù)據(jù),SurrealDriver可以捕捉駕駛員的行為模式和決策過程,并生成與真實駕駛中相似的行為序列。
5.2.2.基于世界模型
為了實現(xiàn)駕駛場景的可控性生成,Wang等人[166]結合文本提示和結構化交通約束,用文本描述來引導像素點的生成。為了獲得更準確的動態(tài)信息,Wang 等人[168]將駕駛動作融入可控架構,利用文本描述、布局和自我動作來控制視頻生成。然而,這些方法引入了更多的結構信息,這限制了模型的交互性。為了解決這個問題,Zhao等人[167]提出了一種將LLM與世界模型相結合的新穎方法。這種方法涉及使用LLM將用戶查詢轉(zhuǎn)換為代理的軌跡,然后用于生成HDMap,再引導駕駛視頻的生成。
利用駕駛場景的FMs可以實現(xiàn)高效和準確的可控性生成。這將能夠為模型提供多樣化的訓練數(shù)據(jù),這對于提高自動駕駛系統(tǒng)的泛化能力很重要。一些代表性工作的比較如表5所示。此外,生成的駕駛場景可用于評估不同的自動駕駛模型,以測試和驗證其性能。當然,我們也應該能夠看到,隨著Sora和Genia等各種大規(guī)模FMs的出現(xiàn),自動駕駛視頻的生成提供了新的潛在思路。模型不限于駕駛領域,而是可以利用從通用視頻領域訓練中獲得的模型用于遷移學習。雖然目前該領域的技術還不完善,但我們相信,未來隨著相關技術的突破,我們甚至可以利用它們生成我們需要的各種駕駛場景,真正學習一個模擬世界的世界模型。
表5 nuScenes 數(shù)據(jù)集的視頻生成性能,-"表示不可獲得。FID 指示器和 FVD 指示器分別提供圖像和視頻質(zhì)量的反饋。

6 結論和未來方向
本文對FMs在自動駕駛領域的應用做了較為全面的綜述。在“基于語言和視覺模型的類人駕駛”部分,詳細總結了LLMs和VLMs等基礎模型應用于自動駕駛的最新工作。在“基于世界模型的自動駕駛預測”部分,我們展示了世界模型在自動駕駛領域的探索性應用。在“基于基礎模型的數(shù)據(jù)增強”部分,詳細介紹了FMs數(shù)據(jù)增強的最新工作??傮w而言,F(xiàn)Ms可以在增強數(shù)據(jù)和優(yōu)化模型方面有效地輔助自動駕駛。
為了評估FMs在自動駕駛中的有效性,我們在表6中比較了不同的FMs和傳統(tǒng)方法在運動規(guī)劃中的有效性。由于LLM和VLM的相對成熟,可以觀察到基于它們的增強自動駕駛的方法總體上得到了改進。相比之下,基于WMs的方法仍在進一步探索中,發(fā)表的工作相對較少。盡管如此,通過前面的分析,我們也可以看到世界模型擅長學習物理世界的演變規(guī)律,在增強自動駕駛方面有巨大潛力。
表6 nuScenes 驗證數(shù)據(jù)集上的運動規(guī)劃性能

挑戰(zhàn)和未來方向. 盡管如此,從以前的研究中可以明顯看出,基于FMs的自動駕駛技術還不夠成熟。這種現(xiàn)象可以歸因于幾個因素。FMs存在幻覺問題[213,214],以及學習視頻這一高維連續(xù)模式仍然存在局限性。此外,還應考慮推理延遲[215,216]引起的部署問題以及潛在的倫理影響和社會影響。
幻覺. 幻覺錯誤問題在自動駕駛中主要表現(xiàn)為的誤識別,如目標檢測錯誤,可能造成嚴重的安全事故。幻覺問題的產(chǎn)生主要是由于數(shù)據(jù)集樣本有限或模型受到不平衡或噪聲數(shù)據(jù)的影響,需要利用擴展數(shù)據(jù)和對抗性訓練來增強穩(wěn)定性和泛化能力。
實際部署. 如前所述,當前關于自動駕駛中的FM的大多數(shù)研究都是基于開源數(shù)據(jù)集實驗[95,121]或仿真環(huán)境中的閉環(huán)實驗[105,119],這對于實時性的考慮是不夠的。此外,一些研究[215,216]強調(diào)大型模型具有一定的推理延遲,這可能會導致自動駕駛應用中的重大安全問題。為了進一步探索FM對于自動駕駛中實時應用的有效性,我們進行了一項實驗[217]。我們使用低秩自適應(LoRA)[218]來微調(diào)LLaMA-7B[78],微調(diào)的LLM可以推理生成駕駛語言命令。為了驗證其在駕駛場景下的實時性能,我們分別在單個GPU A800和單個GPU 3080上進行推理,生成6個tokens所需的時間分別為0.9秒和1.2秒,有效驗證了FM的車端部署是可能的。同時,Tian等人的DriveVLM[94]工作也在NVIDIA Orin平臺上實現(xiàn)了二級部署推理,進一步支持了車載FM的可行性。未來,隨著邊緣計算和車載計算能力的提升[219],可能會逐步走向向車端、路端和云端的混合部署模式過渡,進一步提高實時響應能力和隱私保護水平。
AI 對齊. FMs深入到包括自動駕駛在內(nèi)的各個行業(yè)是一個主要趨勢。盡管如此,隨著相關研究的繼續(xù),人類社會面臨的風險也在繼續(xù)。先進AI系統(tǒng)表現(xiàn)出不良行為(例如欺騙)是一個令人擔憂的原因,尤其是在自動駕駛這種直接關系到人身安全的領域領域,需要認真討論和思考。對此,已經(jīng)提出了AI Alignment并得到發(fā)展。AI Alignment的目標是使AI系統(tǒng)的行為與人類的意圖和價值觀保持一致。這種方法側重于AI系統(tǒng)的目標,而不是它們的能力[220]。AI Alignment有助于先進AI系統(tǒng)在各個領域?qū)嵤r的風險可控、操作穩(wěn)健性、人類倫理性和可解釋性[221],這是一個龐大的涉及眾多AI相關領域的研究體系。由于本文集中在自動駕駛領域,并沒有深入研究風險原因和解決方案的細節(jié),我們在此不再進一步闡述。在自動駕駛領域,需要注意的是,在推動FMs應用的同時,研究人員必須在AI Alignment的指導下建立合理的技術倫理。這包括關注算法公平、數(shù)據(jù)隱私、系統(tǒng)安全和人機關系等問題。此外,促進技術發(fā)展和社會價值觀的統(tǒng)一以避免潛在的倫理和社會風險至關重要。
視覺涌現(xiàn)能力. FMs隨著模型的擴大出現(xiàn)涌現(xiàn)能力,并在NLP方面取得了成功。然而,在自動駕駛的背景下,由于有限的可用數(shù)據(jù)和擴展的上下文長度問題,這方面的研究面臨著額外的開放性挑戰(zhàn)。這些挑戰(zhàn)導致對宏觀駕駛場景的理解不足,從而使該領域的長期規(guī)劃復雜化。駕駛視頻是一種高維連續(xù)模態(tài),數(shù)據(jù)量極大(與文本數(shù)據(jù)相比要大幾個數(shù)量級)。因此,訓練視覺大模型需要更宏觀的場景分布,來嵌入足夠的視頻幀來推理復雜的動態(tài)場景,這需要更強大的網(wǎng)絡結構和訓練策略來學習這些信息。Bai等人[222]在最近的一項研究中提出了一種兩階段方法,其中圖像被轉(zhuǎn)換為離散的tokens以獲得“視覺句子”,然后進行自回歸預測,類似于LM[13]的標準方法。另一個有希望的解決方案可能在于世界模型 ,正如“基于世界模型的自動駕駛預測”部分所述,世界模型可以通過觀察少量與任務相關或不相關的事件來學習世界的內(nèi)在進化規(guī)律。然而,世界模型在探索性應用中也有一定的局限性,在探索性應用中,模型預測結果的不確定性,以及學習什么樣的數(shù)據(jù)可以捕獲世界運作的內(nèi)在規(guī)律仍值得進一步探索。
綜上所述,雖然將FMs應用于自動駕駛有許多挑戰(zhàn)需要解決,但其潛力已經(jīng)開始顯現(xiàn),未來我們將繼續(xù)監(jiān)測FMs應用于自動駕駛的進展。

 

 

 

 
關于我們:ICC鑫欏資訊成立于2010年,主要服務于炭素、鋰電、電爐鋼3大行業(yè),是中國領先的專業(yè)產(chǎn)業(yè)研究和顧問公司。鑫欏資訊以研究為中心,提供媒體資訊、研究咨詢、數(shù)據(jù)庫和市場營銷等解決方案。
鑫欏鋰電專注于鋰電池原材料、鋰電池及其下游等相關產(chǎn)業(yè)鏈跟蹤,對市場價格、行情動態(tài)等資訊的搜集與研究,常年跟蹤行業(yè)內(nèi)400多家生產(chǎn)企業(yè),擁有完善的產(chǎn)業(yè)數(shù)據(jù)庫。根據(jù)企業(yè)需求提供定制報告,為企業(yè)提供專業(yè)化服務。
鑫欏鋰電以研究為中心,服務于行業(yè)企業(yè)、金融機構(一二級市場私募基金/券商/銀行等)、高校/科研院所、政府等,為客戶提供的獨特洞見、分析和資源,幫助客戶高效決策,以實現(xiàn)高質(zhì)量的業(yè)務增長。

[ 資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關閉窗口 ]

 

 
資訊瀏覽
市場報價
 
聯(lián)系我們
| 版權隱私 | 使用協(xié)議 | 網(wǎng)站服務 | 聯(lián)系方式 | 關于我們
電話:021-50184981   電子郵箱:service@iccsino.com   地址:上海市浦東新區(qū)商城路506號新梅聯(lián)合廣場B座21樓D  郵編:200122  滬ICP備2022024271號-1