研究人的步態,了解人體勻稱性,了解腳的位置,利用這些信息,美國密歇根大學研究人員就能訓練無人駕駛汽車,讓它們識別并預測行人的移動,精準度比現有技術更高。
研究人員用汽車攝像頭、激光雷達、GPS收集信息,捕捉人類移動視頻,然后在3D計算機模型中重建。有了這些資料,研究人員開發一個“受生物力學啟發的遞歸神經網絡”,給人類動作分類。
有了神經網絡,當一個或者幾個行人離汽車還有一段距離(最遠50碼),汽車就能預測他們的姿勢和未來位置。這樣的距離已經可以覆蓋十字路口了。
密歇根大學機械工程助理教授Ram Vasudevan說:“在這一領域,此前一般只是關注靜態圖像,不會關心人是如何在3D世界移動的。當汽車投入使用,與現實世界交流時,我們必須對行人的前進方向進行預測,并與汽車的前進方向保持一致。”
如果想讓汽車具備一定的預測能力,要求網絡理解人類活動的細節:比如步態的節奏、四肢對稱鏡像、行走時腳的位置會給穩定帶來怎樣的影響。
在無人駕駛研發中,目前大多機器學習技術處理的是2D圖像,也就是靜態圖片。向計算機展示大量與停車標志有關的照片,最終讓它識別現實世界的停車標志,實時響應。
不過密歇根大學用視頻訓練神經網絡,視頻只有幾秒長,系統深入理解前半段視頻,然后做出預測,看看預測是否符合后半段視頻,精準度如何。
密歇根大學造船和海洋工程系副教授Matthew Johnson-Roberson說:“現在我們對系統進行訓練,讓它識別動作,做出預測,不是簡單識別一樣東西,比如是不是停車標志,而是預測下一步行人的身體會變成怎樣,再接下來又怎樣,然后繼續預測下一步。”
解釋神經網絡的運作原理時,Vasudevan打了個比方:“如果行人正在玩手機,你應該知道他的注意力不集中,分散了。姿勢,正在觀看什么,這些信息會告訴你他們的注意力等級如何,還能告訴你接下來他們能做什么。”
事實證明,新系統可以增強無人駕駛汽車的識別預測能力。
Johnson-Roberson說:“在我們的預測中,如果是一秒之后的預測,中位平均誤差大約是10厘米,如果是6秒之后的預測,誤差不到80厘米。用其它方法預測,誤差中值最高可達7米,所以用我們的系統預測行人位置,精準度高很多。“
在預測下一步行動時會涉及到選項,為了控制選項數量,研究人員將人類身體的物理約束考慮進去,比如人是無法飛翔的,最快的步伐速度也有是限制的。
為了創建數據集,給神經網絡用,研究人員將一輛Level 4無人駕駛汽車放在幾個十字路口。汽車攝像頭和激光雷達瞄準十字路口,一次可以記錄多天的數據。
在實驗室,研究人員已經從傳統姿勢數據集收集信息,用來增強現實世界收集的數據。最終他們開發的系統可以讓無人駕駛汽車變得更強大。
密歇根大學研究工程師杜小小(Xiaoxiao Du)說:“對于多樣化應用和跨學科合作,我們保持開放態度,我們希望能創造一個更安全、更健康、更高效的宜居環境,或者為此做出貢獻。”