據(jù)外媒報道,加州大學伯克利分校的AI研究人員表示,他們開發(fā)了一種AI技術(shù),可幫助自動駕駛汽車在陌生的現(xiàn)實世界中行駛,并且其性能優(yōu)于送貨機器采用的導(dǎo)航方法。該導(dǎo)航系統(tǒng)名為LaND(Learning to Navigate from Disengagements),學習脫離(Disengagement)事件的導(dǎo)航系統(tǒng),然后預(yù)測何時會發(fā)生系統(tǒng)脫離情形。
(圖片來源:https://venturebeat.com)
脫離是指自動系統(tǒng)遇到具有挑戰(zhàn)性的條件,必須將控制權(quán)交還給人工操作員的情形。在衡量自動駕駛汽車系統(tǒng)的能力方面,脫離事件是一個備受爭議的指標,有人稱其已經(jīng)過時。AI研究人員通常將脫離視為故障排除或?qū)Ш较到y(tǒng)調(diào)試的信號,但LaND卻將其作為訓(xùn)練數(shù)據(jù)的一部分。
工程師們表示,通過此種方式,可以讓機器人從測試過程中收集的數(shù)據(jù)集中學習。雖然其他系統(tǒng)直接從機載傳感器收集的訓(xùn)練數(shù)據(jù)中學習,但研究人員表示,這可能需要大量的標注數(shù)據(jù),而且成本更高。
研究人員表示,“研究結(jié)果表明,LaND可以成功地在各種真實的人行道環(huán)境中學習導(dǎo)航,其表現(xiàn)優(yōu)于模仿學習和強化學習方法。如果機器人能夠成功地學習執(zhí)行動作,避免出現(xiàn)脫離情形,將能成功地完成預(yù)期任務(wù)。重要的是,傳統(tǒng)的強化學習算法使用特定任務(wù)獎勵功能,與傳統(tǒng)的強化學習算法不同,我們的方法根據(jù)脫離信號,推斷任務(wù),甚至不需要知道任務(wù)是什么。然而,與標準的強化學習算法類似,我們的方法也在不斷改進,會強化避免解除的行為。”LaND利用強化學習,而非尋求獎勵,將系統(tǒng)脫離事件作為直接從輸入傳感器學習的方式,同時考慮方向盤角度,以及是否啟用自動模式等因素。
該團隊通過在人行道上駕駛機器人,收集訓(xùn)練數(shù)據(jù),來打造LaND。當機器人駛?cè)虢值?、車道或其他布滿障礙物的環(huán)境時,由人類安全駕駛員陪同機器人重新設(shè)定路線,或在短時間內(nèi)接管駕駛。在這一訓(xùn)練期間,研究人員共收集了近35000個數(shù)據(jù)點,生成了近2000個系統(tǒng)脫離場景。
初步實驗表明,與深度強化學習算法和模仿學習的常用方法之一行為克隆相比,系統(tǒng)脫離之前,LaND在人行道上行駛的距離更長。研究人員稱,未來,LaND可與現(xiàn)有導(dǎo)航系統(tǒng),尤其是導(dǎo)航模仿學習方法相結(jié)合。研究如何讓機器人在需要人工干預(yù)時,提醒操作人員,可以降低成本。