受訪嘉賓:
智己汽車CMO 李微萌
智己汽車副CTO 郭輝
智己汽車智駕中心總監(jiān) 賀錦鵬
智己智駕項目總監(jiān) 王康
Momenta CEO 曹旭東
Q:如何評價端到端?智己與Momenta的端到端和友商比較有什么差別?
曹旭東:今年,端到端大模型概念很火。實際上,行業(yè)里端到端大模型是多條途徑,包括橫向、縱向,但真正做到這些的并不多。一些所謂的端到端大模型,只輸出橫向,沒有縱向輸出。但我們的端到端是比較完整體的端到端:首先是一段式,感知和規(guī)控是完全打通的;其次,我們端到端軌跡同時控制橫向與縱向,相當(dāng)于橫縱向通過大模型同時得到很好的優(yōu)化,在智能性、舒適性、安全性上都能達(dá)到了更高的天花板水平。
我們有一個概念,叫做有直覺 “有直覺”就是“車隨心動”,想到什么,車就做了,而且非常絲滑。當(dāng)你看到一個場景,你覺得這個車應(yīng)該那樣開的時候,它立刻馬上那樣開了,這就非常直覺。
智己聯(lián)合Momenta打造的一段式端到端智駕大模型,不光是擁有“人的直覺”,而且擁有“海量的好司機(jī)直覺”。我們收集了海量數(shù)據(jù),從中篩選好司機(jī)的駕駛行為,同時還有一些好的指標(biāo),比如,智駕的橫向避讓比人避讓的多還是少?比人加速的多還是少?最終基于海量的數(shù)據(jù)分布,運用老司機(jī)、好司機(jī)的駕駛行為指導(dǎo)智駕學(xué)習(xí)。當(dāng)然,不僅僅是老司機(jī)、好司機(jī)的行為,還有絕大部分被認(rèn)可的駕駛行為習(xí)慣。
Q:智己的一段式端到端大模型實現(xiàn)機(jī)制是什么樣的?
李微萌:一段式端到端的技術(shù)路線非常好。五、六年前,大家還不覺得城市NOA這么快實現(xiàn)的時候,更多專注于高速高架NOA的研發(fā)。那時候有兩個技術(shù)流派:一個技術(shù)流派是rule-based(基于規(guī)則),另一個技術(shù)流派就是我們和Momenta所堅定走的Data-Driven(數(shù)據(jù)驅(qū)動)的技術(shù)路線。今天,為什么有人是兩段式端到端,我們直接做了一段式端到端?我們覺得一段式端到端一定是未來領(lǐng)先的。智駕到最后一定是像人一樣開車,人開車的時候不會先認(rèn)識這是瓶子,再做規(guī)劃。
當(dāng)年為什么有人選擇rule-based,因為它可以快速的變成汽車的賣點給到用戶。但是Data-Driven(數(shù)據(jù)驅(qū)動)要的訓(xùn)練量很大,一開始的起步?jīng)]有那么的好,沒有那么快,需要不停的累計學(xué)習(xí)。當(dāng)時rule-based都已經(jīng)把這些場景做出來了,可以做好。但今天我們來看,當(dāng)年選擇Data-Driven(數(shù)據(jù)驅(qū)動)是對的,因為智駕一定會實現(xiàn)城區(qū)NOA,以及L3、L4也會實現(xiàn)。
曹旭東:我們和智己對于數(shù)據(jù)驅(qū)動特別有信仰,Transformer在2018年就出來了,到2020年已經(jīng)用Transformer做Planning(規(guī)劃)。那時候,行業(yè)里很多人說用Planning做Planning,或者數(shù)據(jù)驅(qū)動做Planning,肯定是不太可能的。放到當(dāng)時場景,有理由的,那時候發(fā)現(xiàn)用Deep Learning Planning(深度學(xué)習(xí)規(guī)劃)做Planning,在有些場景會有驚艷的表現(xiàn),但是也會在很多場景有很多匪夷所思的問題。我們研發(fā)體系和智己打磨,2021、2022年,到2023年初,我們才真正的把智己Deep Learning Planning(深度學(xué)習(xí)規(guī)劃)做到量產(chǎn)。
現(xiàn)在回過去看,那時候我們做到的相當(dāng)于現(xiàn)在行業(yè)里兩段式端到端,只不過那時候沒有流線的數(shù)據(jù)。為什么先做兩段式,因為開發(fā)難度更小一些,先把兩段式先做出來,在去年成功量產(chǎn)。我們用Deep Learning 做Planning比特斯拉更早,特斯拉今年上半年才上了端到端,Planning變成深度學(xué)習(xí)。今年,我們已經(jīng)有兩段式,再加上背后一整套研發(fā)體系的支撐,在今年成功實現(xiàn)一段式端到端。一段式端到端的優(yōu)點天花板更高,缺點是研發(fā)難度更大,包括怎么Debug問題的可解釋性以及怎么高效的解決問題,它需要很強(qiáng)的研發(fā)體系支撐才有可能做到。
賀錦鵬:兩段式端到端和一段式端到端,行業(yè)各種各樣的解釋方式,有說各種各樣模型堆疊在一起屬于兩段式或者多段式。我們在2023年蘇州發(fā)布會講過了”認(rèn)知智能“和”感知智能“同樣重要,基于這個前提,我們做了幾種Planning的Deep Learning(深度學(xué)習(xí))。那時候沒有用兩段式端到端的名詞,結(jié)果兩個模型的顯示傳遞,現(xiàn)在行業(yè)所提到兩段式端到端,不管什么樣的技術(shù),最終目的是能夠擬人,并超越人。
《新機(jī)器智能》作者霍金斯被稱為腦科學(xué)領(lǐng)域的科技怪人,他提出人腦運行機(jī)理類似于經(jīng)驗+預(yù)測大模型,跟我們當(dāng)前大家所做的一段式端到端基本理念是一樣,經(jīng)驗是做的訓(xùn)練、大數(shù)據(jù),海量的優(yōu)質(zhì)的數(shù)據(jù),預(yù)測是端到端本身的輸出。不管對自己行為預(yù)測還是對周邊障礙物預(yù)期目標(biāo)軌跡的輸出,也是完全暗合了人腦腦科學(xué)發(fā)展領(lǐng)域和趨勢。這是我們認(rèn)為的“為什么一段式端到端上限更高”,同時我們不排斥在有些模擬推理上工作內(nèi)容也會疊加在端到端上。
Q:智己的“快慢系統(tǒng)”、“短期記憶和長期記憶”,與其他車企的區(qū)別是什么?
賀錦鵬:我認(rèn)為現(xiàn)階段大家比的是對行業(yè)技術(shù)趨勢的理解,以及資源投入。如何實現(xiàn)快速迭代?各家會有差異化,這個答案不是標(biāo)準(zhǔn)答案。就行業(yè)趨勢而言,是相同的,頭部幾家都在做一段式端到端大模型;難點是海量、優(yōu)質(zhì)的數(shù)據(jù),以及怎么做快速迭代。在相同趨勢的基礎(chǔ)上,智己提出額外內(nèi)容,通過“快系統(tǒng)”“慢系統(tǒng)”相互配合,通過仿真人腦,用“直覺推理+邏輯分析”的方式正確處理問題??煜到y(tǒng)即直覺推理,善于直覺與經(jīng)驗快速處理問題,形成決策。這是我們認(rèn)為有差異點的地方。后續(xù)我們也會和Momenta在增大云端總體算力,增強(qiáng)大模型的快速產(chǎn)出的能力。
Q:智己與Momenta的合作模式,兩家如何配合?
郭輝:智己與Momenta的合作堪稱行業(yè)典范,智駕領(lǐng)域強(qiáng)強(qiáng)聯(lián)合模式建立起領(lǐng)先優(yōu)勢,把大家的優(yōu)勢組合起來,轉(zhuǎn)化成最好的產(chǎn)品,給到用戶極致的體驗,這才是我們的終極目標(biāo)。在整個合作過程中,Momenta基于深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò),以及數(shù)據(jù)方面的知識和能力,為智己帶來了非常大的幫助。從智己角度來講,我們在工程化方面的經(jīng)驗,包括對整車的理解,包括怎么能夠讓智駕系統(tǒng)在車上實現(xiàn)十萬輛乃至更大規(guī)模的技術(shù)落地,我們要做大量的工作,無論從整車層級的系統(tǒng)性開發(fā),抑或是硬件和底軟相關(guān)的開發(fā)和驗證,以及到最后測試過程中如何做好數(shù)據(jù)閉環(huán),這些都非常重要。
曹旭東:智己和Momenta雖然是兩個公司,但是勝似一個團(tuán)隊,整個合作迭代效率非常高。剛剛和郭博在聊,我們重點在討論兩個事,一個是如何超越智駕摩爾定律,之前說智駕摩爾定律兩年十倍,但是我們追求是遠(yuǎn)比這個要高,可能兩年一百倍甚至更快的速度,怎么實現(xiàn)這個目標(biāo)?實現(xiàn)這個目標(biāo)需要兩邊非常高的迭代效率,整個數(shù)據(jù)閉環(huán)的效率提升,可能從以月為單位加速到以周為單位,再以周為單位加速到天為單位,兩邊團(tuán)隊通過多年的合作形成默契后,這個效率提升放在任何一家公司,內(nèi)部的團(tuán)隊能夠達(dá)到這樣的效率,都是非常鳳毛麟角的,只有這個行業(yè)最高端的一部分的企業(yè)能夠做到。
賀錦鵬:我們在2023年,花了八個月時間開通全國高速高架NOA;城市NOA 2024年初在上海首發(fā),到9月底全新LS6上市開通全國無圖城市NOA,在這個過程中經(jīng)歷過技術(shù)方案的切換,從原來的高精地圖方案切換成輕地圖或者無圖,這個技術(shù)方案的變更非常大,挑戰(zhàn)也非常大,八個月的周期,我們完成了全國無圖的開通。從結(jié)果來看,雙方的合作達(dá)到了預(yù)期目標(biāo),也證明早期決策是非常正確的。
關(guān)于主機(jī)廠如何平衡與開發(fā)商的關(guān)系,整車企業(yè)要不要做全棧,行業(yè)里有各種各樣的聲音。在早期的經(jīng)典汽車時代,日本豐田、本田都是自研自造。后期,部分零配件自研團(tuán)隊成為獨立的公司,開始做零部件。我們現(xiàn)在講的汽車產(chǎn)業(yè)鏈和產(chǎn)業(yè)協(xié)同都是在這個時期形成。這就有點像三國時代,分分合合,分久必合,合久必分。我們認(rèn)為,如何能夠快速迭代,達(dá)到市場預(yù)期,就是最好的方案。
用端到端做L4是不是偽命題?
郭輝:從智己的角度來看,我們搭建的是全級別的智駕平臺,支撐IM AD的智駕系統(tǒng)快速迭代。所以我們從一開始就選擇了數(shù)據(jù)驅(qū)動這一條路。我們的L2、L3、L4采取了共平臺開發(fā)策略,共享數(shù)據(jù)池和一段式端到端大模型。我們也是全國首個同時具備L2、L3、L4智能駕駛量產(chǎn)能力的品牌。
我們的理解是從L2到L3、L4,在技術(shù)上有相同的部分,也有不同的部分。我們剛才講的是技術(shù)上的相同部分,在硬件架構(gòu)上L2++、L3、L4完全可以做增量。舉例,在今天L2++智能輔助駕駛上,現(xiàn)在是12個攝像頭,加上三個毫米波雷達(dá),加上一個激光雷達(dá),增加冗余的攝像頭,可以滿足L3級自動駕駛需求。如果到L4級自動駕駛,需要增加三個激光雷達(dá),當(dāng)然也包括執(zhí)行器要做一些增量配置,控制器的冗余配置也要做增量。此外,在架構(gòu)上,還要做算法和安全增強(qiáng),來做增量,我們有著非常清晰的路徑。反過來說,L2++輔助駕駛,以及L3和L4級自動駕駛在技術(shù)上也有不同的部分,以L3級自動駕駛為例,核心是做好高速高架場景。L4級自動駕駛要求會更高,包含城區(qū)場景下能夠脫手脫眼。從技術(shù)路徑上,我們也會有不同,比如加更多的安全增強(qiáng),這都是在合作中要考慮的。
曹旭東:補(bǔ)充一點,有一個說法L2++做得越好,距離L4越遠(yuǎn),完全是偽概念,這個偽概念是曾經(jīng)一小部分L4公司為了增加自己的所謂技術(shù)壁壘創(chuàng)造出來的概念,已經(jīng)被證偽了?,F(xiàn)在說的人已經(jīng)不多了,甚至做L4的公司不好意思提這個說法了。
Q:智己在L3-L4方向上,是否參與了標(biāo)準(zhǔn)的制定?
王康:隨著IM AD在自動駕駛行業(yè)里分量和地位不斷提升,影響力不斷擴(kuò)大。很多國家相關(guān)部門、國家級檢測機(jī)構(gòu)均跟我們進(jìn)行了高頻交流,包括去年L3準(zhǔn)入等行業(yè)標(biāo)準(zhǔn)的起草,我們都有深度參與。我們不僅要聚焦產(chǎn)品,同時也希望為中國自動駕駛不斷向前發(fā)展,多做點貢獻(xiàn)。
Q:智己的技術(shù)特點和競品有什么不同?
郭輝:在智能化賽道,核心抓手是智能駕駛,可以認(rèn)為它是技術(shù)底座。對于智己來講,我們的品牌優(yōu)勢是靈蜥數(shù)字底盤。就以我們的“云臺車身”為例,依托智駕系統(tǒng)對環(huán)境的精準(zhǔn)感知,能夠識別大曲率的彎道,對底盤進(jìn)行智能調(diào)整,讓乘客獲得舒適平穩(wěn)的駕乘體驗。這是典型的跨域融合的例子,數(shù)字底盤也會用到智駕感知能力,同時在人駕情況下提供舒適的駕駛體驗。這個例子說明了,我們可以把數(shù)字底盤和智能駕駛的優(yōu)勢融合在一起。當(dāng)然,前提是我們的智駕技術(shù)要非常優(yōu)秀,要在第一梯隊,要有突出的表現(xiàn)。
賀錦鵬:補(bǔ)充一下,比如我們有靈蜥數(shù)字底盤,在城市開啟高階智駕,遇到調(diào)頭工況時會用到靈蜥數(shù)字底盤的智慧四輪轉(zhuǎn)向,讓調(diào)頭更輕松,實現(xiàn)更小半徑的調(diào)頭,我們認(rèn)為智駕體驗是否讓用戶感到舒適,有沒有頓挫、均要有好的底盤來做“手腳,眼、腦”的協(xié)調(diào)工作,只有做到這樣,才能算是真正好用的智能駕駛。
Q:智己LS6上市一個月表現(xiàn)怎么樣?Model Y要改款了,你們擔(dān)心嗎?
李微萌:訂單超三萬多。這個月交付量會達(dá)到八千左右,下個月破萬。中國品牌合圍Model Y,合力把它拉下神壇,肯定是中國品牌最開心的事情。中國品牌各自把自己的看家本領(lǐng)拿出來,互相促進(jìn)變得更好,讓消費者有更大的獲益。