據(jù)外媒報(bào)道,近日,日本三菱電機(jī)(Mitsubishi Electric Corporation)公司宣布其研發(fā)了全球首款能夠與人類進(jìn)行高度自然其直觀互動(dòng)的技術(shù),該技術(shù)基于場(chǎng)景感知能力,能夠?qū)⒍嗄B(tài)感知信息翻譯成自然語(yǔ)言。該款新技術(shù)名為場(chǎng)景感知交互(Scene-Aware Interaction),整合了三菱電機(jī)的專有Maisart緊湊型AI技術(shù),可以分析多模態(tài)感知信息,通過(guò)依賴于上下文情境生成的自然語(yǔ)言與人類實(shí)現(xiàn)高度自然且直觀的交互。
(圖片來(lái)源:三菱電機(jī))
該技術(shù)基于多模態(tài)感知信息,如攝像頭捕捉的圖像和視頻、麥克風(fēng)錄下的音頻信息以及激光雷達(dá)測(cè)量的定位信息,以識(shí)別情境中的物體。為了對(duì)這些不同類別的信息進(jìn)行優(yōu)先排序,三菱電機(jī)研發(fā)了注意力多模態(tài)融合技術(shù)(Attentional Multimodal Fusion),能夠自動(dòng)加權(quán)突出的單模態(tài)信息,為準(zhǔn)確描述場(chǎng)景而選擇適當(dāng)詞匯。在采用通用測(cè)試集的基準(zhǔn)測(cè)試中,注意力多模態(tài)融合技術(shù)采用音頻和視覺(jué)信息來(lái)取得基于共識(shí)的圖像描述評(píng)價(jià)(CIDEr)得分,發(fā)現(xiàn)比僅使用視覺(jué)信息的得分高出29%。三菱電機(jī)將注意力多模態(tài)融合與場(chǎng)景理解技術(shù)和基于情境的自然語(yǔ)言生成技術(shù)相結(jié)合,實(shí)現(xiàn)了強(qiáng)大的端到端場(chǎng)景感知交互系統(tǒng),在不同場(chǎng)景下,都可以與用戶實(shí)現(xiàn)高度直觀的交互。
(圖片來(lái)源:三菱電機(jī))
場(chǎng)景感知交互技術(shù)可用于汽車導(dǎo)航應(yīng)用,為駕駛員提供直觀的路線導(dǎo)航。例如,系統(tǒng)不再指示駕駛員“在50米內(nèi)右轉(zhuǎn)”,而是提供場(chǎng)景感知型指導(dǎo),如“在郵箱前右轉(zhuǎn)”或“跟著灰色的車向右轉(zhuǎn)”。此外,該系統(tǒng)還會(huì)在預(yù)測(cè)到附近有物體的行進(jìn)路徑與車輛的行進(jìn)路徑相交時(shí),生成語(yǔ)音警報(bào),如“有行人正在過(guò)馬路”。為了實(shí)現(xiàn)這一功能,該系統(tǒng)會(huì)分析場(chǎng)景,識(shí)別出場(chǎng)景中隱藏的視覺(jué)路標(biāo)以及動(dòng)態(tài)元素,然后利用此類東西識(shí)別物體和事件,為導(dǎo)航生成直觀的句子指導(dǎo)。
(圖片來(lái)源:三菱電機(jī))
利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行物體識(shí)別、視頻描述、自然語(yǔ)言生成和口語(yǔ)對(duì)話等技術(shù)最近取得了很多進(jìn)展,可以讓機(jī)器能夠更好地理解周圍的環(huán)境,并更自然、更直觀地與人類互動(dòng)。場(chǎng)景感知交互技術(shù)預(yù)計(jì)具有廣泛的適用性,包括用于車載信息娛樂(lè)系統(tǒng)的人機(jī)接口、在建筑物中與機(jī)器人交互以及工廠自動(dòng)化系統(tǒng)、監(jiān)控人類健康狀況的系統(tǒng)、為人類解釋復(fù)雜場(chǎng)景的監(jiān)測(cè)系統(tǒng)、鼓勵(lì)保持社交距離的系統(tǒng)、在公共場(chǎng)所支持無(wú)觸摸操作設(shè)備的系統(tǒng)等等。