作為人工智能界的翹楚,科大訊飛面對當(dāng)前的業(yè)態(tài),正在思考用戶對智能座艙是什么樣的期待,主機(jī)廠對他們又是什么樣的期待,他們?nèi)绾伟押玫募夹g(shù)應(yīng)用到座艙的空間中。就這些問題,田雨分享了他對AI助力智能座艙的升級的觀點。
科大訊飛股份有限公司智能座艙產(chǎn)品線總監(jiān) 田雨
賦能座艙:科大訊飛得天獨厚
截止至2021年10月,科大訊飛共奪得38項國際人工智能大賽冠軍。其中包括:由著名的語言數(shù)據(jù)聯(lián)盟(LDC)于2018年發(fā)起的DIHARD,被譽(yù)為該領(lǐng)域最“困難的”挑戰(zhàn)賽。2021年1月,科大訊飛獲得2021年國際說話人角色分離比賽DIHARD-3冠軍。
2021年8月,科大訊飛憑借在道路目標(biāo)檢測領(lǐng)域多年的技術(shù)探索,刷新了Cityscapes 3D目標(biāo)檢測任務(wù)的全球最好成績,得到檢測分?jǐn)?shù)42.9。是科大訊飛繼2017年、2018年參與測評之后,第三次參加Cityscapes比賽并刷新世界紀(jì)錄。
2020年CHiME-6科大訊飛再次以顯著優(yōu)勢獲得冠軍,大幅刷新了該項賽事歷史最好成績。面向萬物互聯(lián)時代語音交互等真實場景下的語音識別任務(wù),通過算法創(chuàng)新將錯誤率從46.1%降低到30.5%。
科大訊飛作為汽車智能化領(lǐng)域的先行者,自2003年開始,深耕汽車智能化領(lǐng)域,使人工智能技術(shù)在汽車產(chǎn)品上得到了深度應(yīng)用。目前合作已覆蓋90%以上的中國自主品牌和合資品牌車廠,累計前裝搭載量突破 3600萬套。
智能交互:從語音命令到自然交互
談到交互,其本質(zhì)就是信息的輸入和輸出,人有五感,包括了聽、嗅、看、聞和觸覺,其中信息的輸入靠的是聽覺,信息的輸出主要靠語言。
將信息交互的過程放到車內(nèi)可以看到,從感知對應(yīng)聽和看,經(jīng)過了認(rèn)知,個人進(jìn)行理解,最終通過說和顯示進(jìn)行表達(dá)出來。所以交互可以歸納成聽、說、看、顯四個核心的技術(shù)。科大訊飛結(jié)合視覺,把看和顯示進(jìn)行補(bǔ)齊,就有了多模的=交互,加上視覺以后有更多想象的空間。
有了聽、說、看、顯的技術(shù)之后,用戶還需要結(jié)合一個一個的場景進(jìn)行交互的設(shè)計,所以就成為了交互管理。
引入多模,科大訊飛也有了如下幾個提升點:
第一,實現(xiàn)駕駛員和乘客的人員分布的檢測,可以知道車上有幾個人,大家都在什么位置,這樣可以實現(xiàn)所謂的分區(qū)的交互。每個座位上的每個乘客或者駕駛員都有自己個性化的交互訴求,讓交互更加個性。
第二,更好的多模語音的分離。在高噪的場景下,結(jié)合視覺,去檢測口唇,讓識別率在高噪的環(huán)境下變得可用。在實時體驗時,在真正高速、高噪的情況下副駕不一定聽清楚什么樣的指令,但是結(jié)合多模視覺就可以聽音識別。
第三,做到情緒的感知,通過圖像,包括語言、文字、內(nèi)容的理解對車路路政這樣的場景可以做很好的識別,目前識別率基本上達(dá)到了95%。
第一代的合成引擎發(fā)展到XTTS1、2、3,目前到3.0的狀態(tài),已經(jīng)是非常自然的聽感。從業(yè)務(wù)上看,一方面對語種,包括方言的合成,科大訊飛明年可以適應(yīng)30個國家的語種,這樣對自主品牌去走向世界出海的需求得到滿足。
此外,科大訊飛正在進(jìn)行運營方式上的探索,部署個性化TTS的合成。在TTS引擎里面加入情感化的因素,包括語氣、語調(diào),能夠反映出人物性格的一種音色,通過聲音商城的方式,用用戶在線訂閱的方式進(jìn)行交互。
如何達(dá)到自然交互,其涉及到一系列技術(shù)體系的創(chuàng)新和融合。首先要解決噪聲環(huán)境下要對口音,包括語言的發(fā)聲友好,支持強(qiáng)噪聲下不同方言的口音,讓引擎也可以支持方言和普通話的免切換。其次是情緒合成,在自然對話過程中對語義進(jìn)行更好的理解。最后在自然對話的過程中,人和人之間的交流是帶著上下文的場景,要讓交互就算放到上下文的語境里面去也可以得到支持。
目前科大訊飛在180多個場景里融合了以上的交互技術(shù)。
此外,想要打造情感有很多方式,科大訊飛認(rèn)為人設(shè)是其中的一條路線,對于人設(shè)來講,除了人物的形象,還包含了肢體動作以及微表情,有了這些技術(shù)之后再和用戶產(chǎn)生互動,能夠最好的刺激用戶,讓用戶產(chǎn)生所謂的情感連接。這部分是訊飛視覺技術(shù)的應(yīng)用,其基于視線的檢測,包括DMS的功能,在車內(nèi)的應(yīng)用以及相當(dāng)成熟。
田雨認(rèn)為:從交互層面而言,過去是單點語音播報,現(xiàn)在通過虛擬助手帶形象的人物,融合了多模交互的能力,讓汽車交互更加有趣和自然。
智能聲場:從播放聲音到聽享空間
車內(nèi)座艙目前發(fā)生了很大的變化,包括越來越多的屏幕,越來越多的智能化部件。但從車內(nèi)聲音角度來說,其實這么多年并沒有發(fā)生實質(zhì)的改變。
目前用戶對座艙的聲音有了新需求:
第一個是在座艙的聽感一定要變得更加舒適,聽感的享受要變得更強(qiáng)。第二是在座艙內(nèi)要有更多個性化的交互和分區(qū)的交互,讓座艙能讓大家聽的更加個性。第三是座艙能主動對用戶進(jìn)行一些關(guān)懷。第四是在駕駛過程中,個性化的滿足。
基于這些的思考,科大訊飛打造座艙內(nèi)的聽響空間,包括360度的環(huán)繞立體聲,把真實的現(xiàn)場還原到車內(nèi);結(jié)合多音區(qū)的交互,打造VRP的專屬聽感。
在落地方面,科大訊飛經(jīng)過三年的努力,3D環(huán)繞聲算法已經(jīng)研制完成,在忙聽的測試中,各項指標(biāo)都優(yōu)于行業(yè)的頭部精品,同時主觀的聽感也優(yōu)于其他企業(yè)。同時,科大訊飛也在研究主動降噪的算法,在隱性的噪聲降噪中,目前可以達(dá)到20db的峰值,降噪的幅度也可以從20赫茲-500赫茲。業(yè)界現(xiàn)在最好的算法降噪幅度也是300赫茲,但科大訊飛可以做到500赫茲。此外,其正在研究車內(nèi)通信的交流補(bǔ)償技術(shù),在一些高配的車上已經(jīng)提供了這種功能。
科大訊飛在做語音行業(yè)里面,降噪技術(shù)一直處于業(yè)內(nèi)頭部,在錄音識別完以后將聲音消除干凈。另外對音效的把控力也是行業(yè)前列,在很準(zhǔn)確的方位上把它進(jìn)行呈現(xiàn),也不用像現(xiàn)在的技術(shù),要在整車內(nèi)進(jìn)行還原,而且播放出來的聲音也不會有其他干擾,這樣的技術(shù)讓整車的聲音有更好的體現(xiàn)。
視覺上有黃金分割點,其實在聽覺空間里也存在這樣的位置,在車內(nèi)的聽覺感受之所以不好,是因為沒有把用戶放到這樣一個黃金點位上。現(xiàn)在有了多模的視覺,就可以精準(zhǔn)的捕捉到用戶在哪,它的最佳位置在哪里,打造聽覺皇帝位。做到用戶在哪,哪里就是皇帝位。當(dāng)視覺尋找到用戶在哪,然后動態(tài)進(jìn)行音效的調(diào)節(jié),可以讓聽感變的很好。當(dāng)引入了多模的皇帝位的設(shè)計后,一定能夠提升在車內(nèi)的最佳聽感。
智能服務(wù):從提供功能到全程服務(wù)
科大訊飛認(rèn)為服務(wù)升級未來會有三個方向,第一是服務(wù)主動化,服務(wù)如果不夠主動就不能稱之為服務(wù),服務(wù)就需要被用戶去調(diào)用和索取。如何做到服務(wù)的主動化,如何在用戶困難時遞一個枕頭讓他們這么舒適,這需要結(jié)合到第二個方向——服務(wù)場景化,真正去結(jié)合一個細(xì)分的場景去提供所謂主動的服務(wù)。第三個方向即服務(wù)個性化。
要做到這樣的服務(wù)升級,就離不開核心內(nèi)容,即場景平臺,又或是場景引擎。無論是車端數(shù)據(jù),還是環(huán)境數(shù)據(jù),包括用戶的數(shù)據(jù)。在感知到場景平臺之后,進(jìn)行數(shù)據(jù)的處理,經(jīng)過場景模型和業(yè)務(wù)配置,分發(fā)到不同的端,包括車機(jī)、手機(jī)和智能家居進(jìn)行智能推薦決策。
感知數(shù)據(jù)包含了用戶的數(shù)據(jù)和車的數(shù)據(jù),有車內(nèi)的車外的以及用戶行為的數(shù)據(jù)。本身這些數(shù)據(jù)一方面是響應(yīng)對數(shù)據(jù)合規(guī)的要求進(jìn)行隱私化保護(hù),另外是在技術(shù)架構(gòu)方面也會利用好邊緣計算能力,把更多的車身和用戶本身數(shù)據(jù)在本地處理好,去達(dá)到用戶隱私保護(hù)的效果。
有了數(shù)據(jù)之后,就涉及到場景。從整個大的場景閉環(huán)來看,用戶由新手到慢慢成長為老司機(jī),從上車、行車、到達(dá)到停車都會有一系列的細(xì)分場景,之后去提供對應(yīng)的服務(wù)。這種服務(wù)被稱為基礎(chǔ)的探針服務(wù),結(jié)合每一次用戶的具體反饋,需要那樣形式的呈現(xiàn)時,就會把它變成各種個性化的服務(wù)。除此之外,科大訊飛也為主機(jī)廠提供了完善的工具鏈,在云端有場景的配置平臺,能夠快速的定制和模擬場景的效果。
對于車主而言真正和車相關(guān)和用車相關(guān)的能力,還比較欠缺。以往在遇到這些問題時,首要選擇是打電話進(jìn)行廠外求助,科大訊飛正在探索一種方式讓這些服務(wù)都融合到車內(nèi),圍繞整個購車的周期旅程,其設(shè)計了如下的產(chǎn)品功能:
第一是去吸收厚厚的幾本手冊,一輛車以前都會有很厚的說明書,科大訊飛通過閱讀理解把知識進(jìn)行結(jié)構(gòu)化的抽取,通過知識圖譜的構(gòu)建,在前端通過交互技術(shù),以智能問答的形式,找答你所問,
第二是把整個用車生命周期中的高頻場景進(jìn)行了提煉。對應(yīng)的會呈現(xiàn)知識錦囊,雨天行車、新手上路,這些場景的用戶可能會遇到什么樣的問題,需要什么樣的服務(wù)都提前準(zhǔn)備好。
第三是智能引導(dǎo),解決用戶的學(xué)習(xí)成本和感知的問題。當(dāng)一個新手在開了兩次高速之后,第三次上高速就會高速他,有一個功能其實和這個場景非常匹配,此時用戶自然而然的能在場景里使用對應(yīng)功能,然后真正的實現(xiàn)產(chǎn)品的價值。
如此服務(wù)至少有兩個層面的好處,第一個可以切實解決用戶在用車過程中的問題。第二點是反向?qū)Ξa(chǎn)品的設(shè)計人員可以第一時間連接到用戶的想法,反過來可以對產(chǎn)品進(jìn)行更好的改進(jìn)。
田雨從三方面闡述了科大訊飛對于智能座艙的思考,利用AI的好技術(shù),讓座艙在交互空間和服務(wù)上全面升級,讓整個智能駕駛出行達(dá)到更加的安全、智能、具有樂趣的目的。