據(jù)外媒報道,近日,特斯拉申請了一項專利,計劃從其龐大的消費者車隊中獲取訓練數(shù)據(jù),以訓練其自動駕駛神經(jīng)網(wǎng)絡。
(圖片來源:electrek.co)
該項專利的發(fā)明人、特斯拉AI和自動駕駛軟件負責人Andrej Karpathy描述了在應用中為深度學習訓練收集數(shù)據(jù)的問題。Karpathy表示,“用于自動駕駛等應用的深度學習系統(tǒng)是通過訓練機器學習模型來開發(fā)的。通常,深度學習系統(tǒng)的性能至少在一定程度上受到訓練模型的訓練集質(zhì)量的限制。在許多情況下,重要的資源被投入到收集、管理和注釋訓練數(shù)據(jù)上。創(chuàng)建訓練集所需的工作很重要,而且常常很繁瑣。此外,收集特定應用場景的數(shù)據(jù)通常很困難,因此機器學習模型需要不斷改進?!?/p>
特斯拉開發(fā)自動駕駛系統(tǒng)的方式與其他大多數(shù)公司大不相同。大多數(shù)公司利用規(guī)模相對較小的測試車輛車隊收集數(shù)據(jù),并測試其系統(tǒng)。而特斯拉利用其成千上萬的消費者車輛組成的車隊,這些車輛配備一系列傳感器,收集道路和駕駛數(shù)據(jù),并在“影子模式”下測試其自動駕駛系統(tǒng)。
車隊收集的數(shù)據(jù)對特斯拉訓練自動駕駛神經(jīng)網(wǎng)絡非常有價值。但是,收集并提供給神經(jīng)網(wǎng)絡的內(nèi)容都必須非常謹慎。Karpathy在專利申請中指出,“隨著機器學習模型變得越來越復雜,比如更深層次的神經(jīng)網(wǎng)絡,大型訓練數(shù)據(jù)集的需求也相應增加。與較淺的神經(jīng)網(wǎng)絡相比,較深的神經(jīng)網(wǎng)絡可能需要更多的訓練實例,以確保其通用性。例如,神經(jīng)網(wǎng)絡可能經(jīng)過訓練,因此相關數(shù)據(jù)非常精確,但是可能仍然無法很好地應對未見過的案例。而在該案例中,神經(jīng)網(wǎng)絡可能會受益于訓練數(shù)據(jù)中的其他例子。”
因此,Karpathy解釋了其專利方法,將潛在的訓練數(shù)據(jù)從源頭分類,然后再進行傳輸。Karpathy解釋說,“示例方法包括接收傳感器,并將神經(jīng)網(wǎng)絡用于傳感器數(shù)據(jù)。將觸發(fā)器分類器應用于神經(jīng)網(wǎng)絡的中間結(jié)果,以確定傳感器數(shù)據(jù)的分類器評分。再根據(jù)至少部分分類器得分,決定是否通過計算機網(wǎng)絡傳輸至少部分傳感器數(shù)據(jù)。一旦確定,傳感器數(shù)據(jù)就會被傳輸并用于生成訓練數(shù)據(jù)。”