首頁(yè) > 購(gòu)物 > 正文

Nature封面罕見(jiàn)給了自動(dòng)駕駛，仿真效率2000倍提升，清華自動(dòng)化校友出品全球快消息

2023-03-23 14:57:48來(lái)源：36kr

前滴滴首席科學(xué)家劉向宏帶隊(duì)

Nature正刊封面報(bào)道自動(dòng)駕駛重要進(jìn)展。

證明自動(dòng)駕駛算法的安全可靠，專(zhuān)業(yè)估算仿真里程甚至要超過(guò)千億公英里。

那么，有沒(méi)有在保證可靠性的前提下，大幅降低模擬路測(cè)時(shí)間和成本的方法呢？

【資料圖】

最新自動(dòng)駕駛仿真測(cè)試方法，可以將模型迭代效率提升2000倍！

這項(xiàng)研究背后的團(tuán)隊(duì)，來(lái)自密歇根大學(xué)的劉向宏教授的實(shí)驗(yàn)室，主要作者清一色華人團(tuán)隊(duì)，出自清華大學(xué)自控系。

自動(dòng)駕駛仿真提效2000倍

如今很多無(wú)人車(chē)公司都青睞仿真測(cè)試提升系統(tǒng)可靠性。甚至有的創(chuàng)業(yè)公司直接打出“仿真為主，路試為輔”的旗號(hào)。

他們的理由是：仿真測(cè)試效率更高。但沒(méi)說(shuō)的潛臺(tái)詞其實(shí)是：仿真測(cè)試不依賴(lài)車(chē)隊(duì)，成本低。

因?yàn)槟M測(cè)試150億英里的Waymo，至今搞不定可商用落地的無(wú)人駕駛。仿真的效率問(wèn)題是尚未實(shí)現(xiàn)飛躍的巨大挑戰(zhàn)，用仿真是因?yàn)槭″X(qián)，至于什么時(shí)候能拿出結(jié)果，誰(shuí)也說(shuō)不好。

基于此，這項(xiàng)最新研究提出的觀點(diǎn)是：

傳統(tǒng)仿真測(cè)試環(huán)境，多基于真實(shí)路測(cè)數(shù)據(jù)生成。而真實(shí)路況下的各種長(zhǎng)尾場(chǎng)景其實(shí)是小概率事件，這就導(dǎo)致仿真路測(cè)里程中，有效場(chǎng)景比例不高，實(shí)際效果和實(shí)車(chē)路測(cè)差別不大。

而他們基于密集強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)網(wǎng)絡(luò)D2RL，可以將目前基于NDE（自然駕駛環(huán)境）的仿真模擬效率提升2000倍。

具體來(lái)說(shuō)，在雙車(chē)道400m場(chǎng)景中，D2RL生成的場(chǎng)景直接跳過(guò)（刪除）傳統(tǒng)仿真過(guò)程中95.7%的事件和99.78%步驟，最大可能給出系統(tǒng)高價(jià)值訓(xùn)練場(chǎng)景。

這樣一來(lái)，算法碰撞率達(dá)成同樣的收斂標(biāo)準(zhǔn)下，NDE環(huán)境需要訓(xùn)練1.9X108次，D2RL需要9.1X104次，效率提升2100倍。

而在3車(chē)道、更長(zhǎng)距離的實(shí)驗(yàn)中，得出的效率提升效果基本都在2000倍左右。

另外，研究人員將一套開(kāi)源自動(dòng)駕駛算法Autoware23搭載在林肯MKZ上進(jìn)行了4 公里左右的實(shí)際路測(cè)，并將實(shí)際道路場(chǎng)景建模，并使用D2RL進(jìn)行模擬。兩條路線分別在156和117次測(cè)試后達(dá)到收斂，而與之相比的是在NDE條件下，達(dá)成相同的標(biāo)準(zhǔn)分別需要2.5×107次和2.1×107次。

同樣效率提升2000倍左右。

也就是說(shuō)，使用D2RL網(wǎng)絡(luò)進(jìn)行自動(dòng)駕駛算法的模擬仿真訓(xùn)練，能大大縮短自動(dòng)駕駛的開(kāi)發(fā)周期。

在自動(dòng)駕駛之外，D2RL還可以用在其他AI可靠性驗(yàn)證中，如醫(yī)療機(jī)器人和航空航天系統(tǒng)。

怎么做到的？

從上面的實(shí)驗(yàn)結(jié)果表格中可以看出，D2RL之所以提升效率的主要手段，就是對(duì)系統(tǒng)生成仿真場(chǎng)景的過(guò)程進(jìn)行“提純”，盡量少生成價(jià)值不大的常規(guī)場(chǎng)景，保留高價(jià)值數(shù)據(jù)。

研究團(tuán)隊(duì)認(rèn)為，無(wú)人車(chē)仿真系統(tǒng)的效率問(wèn)題，本質(zhì)上是高維空間（多維向量空間）中的一個(gè)罕見(jiàn)事件估計(jì)問(wèn)題。

如何識(shí)別并剔除高維向量空間中非安全關(guān)鍵的點(diǎn)，是D2RL的核心任務(wù)。

D2RL是一種密集強(qiáng)化學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)，其基本思想是識(shí)別和去除多向量空間的非安全關(guān)鍵數(shù)據(jù)，并保留安全關(guān)鍵數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

由于聲稱(chēng)場(chǎng)景中只有非常小的一部分?jǐn)?shù)據(jù)是安全關(guān)鍵的，剩余數(shù)據(jù)的信息將被大大地密集化。

D2RL方法的本質(zhì)是刪除非關(guān)鍵狀態(tài)，并連接關(guān)鍵狀態(tài)來(lái)重新編輯馬爾科夫決策過(guò)程，然后只對(duì)編輯過(guò)的馬爾科夫過(guò)程進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練。

因此，對(duì)于任何訓(xùn)練場(chǎng)景，最終的獎(jiǎng)勵(lì)都是沿著編輯過(guò)的馬爾可夫鏈反向傳播的。

直觀地說(shuō)，D2RL訓(xùn)練的對(duì)象，是仿真測(cè)試場(chǎng)景中的BV（非自動(dòng)駕駛背景車(chē)輛），要求他們?cè)谔囟ǖ臅r(shí)空下執(zhí)行特定的動(dòng)作，與自動(dòng)駕駛車(chē)輛（AV）形成對(duì)抗性訓(xùn)練。

獎(jiǎng)勵(lì)函數(shù)為：

其中x表示每個(gè)測(cè)試情節(jié)的變量，IA(x) 是AV碰撞事件的指標(biāo)函數(shù)，后兩項(xiàng)則是AV目標(biāo)策略和目標(biāo)行為的重要性函數(shù)。

獎(jiǎng)勵(lì)越高表示測(cè)試環(huán)境越有效。這樣的獎(jiǎng)勵(lì)設(shè)計(jì)是通用的，也適用于其他具有高維變量的罕見(jiàn)事件估計(jì)問(wèn)題。

為了確定學(xué)習(xí)機(jī)制，團(tuán)隊(duì)進(jìn)一步研究了行為策略和目標(biāo)策略之間的關(guān)系。

他們發(fā)現(xiàn)AV的最佳行為政策在訓(xùn)練過(guò)程中收集的數(shù)據(jù)幾乎是與目標(biāo)策略相反。這表明，如果使用傳統(tǒng)強(qiáng)化學(xué)習(xí)中的on-policy策略，AV的目標(biāo)行為策略將偏離最佳。這可能會(huì)誤導(dǎo)訓(xùn)練過(guò)程。

為了解決這個(gè)問(wèn)題，團(tuán)隊(duì)設(shè)計(jì)了一個(gè)off-policy學(xué)習(xí)機(jī)制，即設(shè)計(jì)一個(gè)通用的行為策略，并在訓(xùn)練過(guò)程中保持不變，用來(lái)平衡AV的策略和行為。

最終，D2RL可以在訓(xùn)練過(guò)程中使獎(jiǎng)勵(lì)最大化，有效地提高AV的碰撞率。

作者團(tuán)隊(duì)介紹

本研究的第一作者封碩，目前在美國(guó)密歇根大學(xué)安娜堡分校做博士后。

封碩本科和博士學(xué)位都在清華大學(xué)自動(dòng)化系獲得，研究方向是優(yōu)化控制、互聯(lián)和自動(dòng)駕駛評(píng)估以及交通數(shù)據(jù)分析。

封碩所在的Traffic Lab實(shí)驗(yàn)室，由劉向宏教授領(lǐng)導(dǎo)。

Sun Haowei，密歇根大學(xué)土木與環(huán)境工程專(zhuān)業(yè)在讀博士生，同樣在Traffic Lab實(shí)驗(yàn)室。研究興趣是車(chē)聯(lián)網(wǎng)和自動(dòng)駕駛汽車(chē)的測(cè)試和評(píng)估。Sun Haowei本科畢業(yè)于清華大學(xué)自動(dòng)化系。

本文通訊作者劉向宏博士現(xiàn)任美國(guó)密歇根大學(xué)土木與環(huán)境工程系終身職正教授、密歇根大學(xué)交通研究所(UMTRI)研究教授，北京航空航天大學(xué)客座教授、兼職博士生導(dǎo)師。

他在國(guó)內(nèi)最被外界熟悉的身份是滴滴前首席科學(xué)家。

劉向宏1993年本科畢業(yè)于清華大學(xué)汽車(chē)工程系，2000年在威斯康星大學(xué)麥迪遜分校取得博士學(xué)位。

劉教授是交通工程領(lǐng)域論文引用率最高的學(xué)者之一，他發(fā)明的用于精確測(cè)量交叉路口的排隊(duì)長(zhǎng)度和旅行時(shí)間的SMART-Signal系統(tǒng)于2012年取得美國(guó)國(guó)家專(zhuān)利，并已在美國(guó)明尼蘇達(dá)州和加州得到廣泛應(yīng)用。