亚洲人成人无码网WWW国产,完整观看91福利电影国产,狠狠躁天天躁中文字幕av,亚洲一级aa无码大片

推廣 熱搜: 汽車  汽車銷量排行榜  suv銷量排行榜  新能源汽車  新能源汽車前十名品牌  寶馬x5優(yōu)惠  保時捷卡宴  保時捷718  8月汽車銷量排行榜  保時捷918 

2021HMI大會丨竹間智能瞿捷:多模態(tài)情感交互探索與實踐-超級汽車網(wǎng)

   日期:2022-04-21     作者:汽車網(wǎng)  聯(lián)系電話:瀏覽:956    

2021年4月13日,由蓋世汽車、慕尼黑上海電子展聯(lián)合主辦的“2021中國汽車人機交互HMI創(chuàng)新大會”隆重召開。本次大會旨在聚集汽車HMI領(lǐng)域的杰出人才、UX/UI設(shè)計師以及前瞻規(guī)劃研究人員分享全方位汽車人機交互領(lǐng)域的創(chuàng)新理念、技術(shù)趨勢、行業(yè)焦點、現(xiàn)實挑戰(zhàn)及應(yīng)用解決方案。會議期間,竹間智能科技(上海)有限公司/汽車行業(yè)負責人瞿捷發(fā)表了“多模態(tài)情感交互探索與實踐”的主題演講。

2021HMI大會丨竹間智能瞿捷:多模態(tài)情感交互探索與實踐

以下為演講實錄:

大家下午好,我們竹間智能主要是做IOT方向的,在座很多都是新朋友,那一開始我會放一個小短片,讓大家對我們有一個初步的了解。   

我們是2015年在上海成立的一家AI公司,專注在AI領(lǐng)域,AI賽道很大,我們聚焦在AI的NLP技術(shù)方向上,目前公司有350人左右,在北上深,成都,廣州都有分支機構(gòu)。大家做HMI肯定不會陌生,因為智能座艙里面現(xiàn)在主流都在講智能語音交互,我們是智能語音交互底層的能力,NLP本身是比較底層的技術(shù)。我今天用比較淺顯的語言跟大家解釋一下,我們到底在做什么樣的事情。我們把NLP分成兩個大的方向:短文本NLP,長文本NLP。我們發(fā)現(xiàn)人和人交互其實都是這樣的短句,我們用NLP技術(shù)落地很多人機交互的場景。

今天為什么會過來呢?因為座艙里也有大量語音助理交互的場景。人機交互場景不單只是在智能終端上,負責IOT方向,我們?nèi)粘.斨锌吹酱罅繖C器人替代人工的工作,不管是打電話到銀行,還是接到銀行的電話。另外我們服務(wù)過的華為、恒大、碧桂園這樣的企業(yè)也在引入機器人員工的概念,用機器人去替代人的場景,這是短文本NLP里面主要落地的方向。今天我們主要聚焦在終端交互,智能終端交互上。

長文本舉一個簡單的例子,這樣大家比較好理解。比如說4S店都有DMS系統(tǒng),里面都會記錄下來大量維修工單信息,它可能會很長,可能300字,500字,甚至更長,這些在服務(wù)器里我是不知道到底在記錄什么樣的事項。那質(zhì)量部門希望說通過NLP長文本模型幫助他挖掘這些數(shù)據(jù)的價值,預(yù)測這些數(shù)據(jù)的標簽,目前這個項目可以幫助他達到95%標簽預(yù)測準確率,預(yù)測什么呢?預(yù)測這個文本在描述什么,是描述發(fā)動機故障,還是變速箱的故障,描述發(fā)動機的故障是異響,還是漏油等等。

細心的朋友可能會關(guān)注到竹間的應(yīng)用Inspired,靈感來源于我們老板,2015年前在微軟,看到一部電影《Her》,電影講述男主角跟虛擬助理談戀愛的故事,而且談的無法自拔。當時就有一個很強的想法,說做人機交互這個場景沒有情緒情感,沒有溫度永遠都不可能成功,未來就是情緒情感的一個落地方向,所以才會在2015年毅然從微軟出來,圍繞NLP方向成立了竹間這個公司。

另外我們從2015年開始也是業(yè)內(nèi)比較早期針對情緒情感方向去做探索和研究的,所以今天我想分享兩部分內(nèi)容,一部分是基于我們之前情緒情感做過的一些事。

首先文本情緒可以看到有很多,模型能處理的有22個,除了表征情緒之外,文本里面還有很多評價類的情緒,我說你跑的好慢,這個酒店好干凈,今天物流發(fā)的好快,本身看上去沒有帶表征的情緒,但是本身帶有評價情緒的評價,以及隱含的情緒,車里經(jīng)常會有,比如說今天路怎么那么堵啊,本身帶有一點焦躁焦慮或者不滿的情緒在里面,所以整個情緒表現(xiàn)力就會比較強。

其實早期我們會找到很多語言學家和心理學家定一些標準的規(guī)范,找到大量標準人員去做標注決策,達到對于這個情緒的理解是普適性的,大家都認可的方向。當然做了很多事情,目前有積累的是已經(jīng)做到了標準情緒模型的輸出。

基于標準情緒模型輸出之外,目前放在對話管理平臺上,也把情緒模塊做成了一個標準,這個引擎如何來用?在我們模塊里面是這么來定義的。我們定義了內(nèi)置情緒模型,就是把已經(jīng)訓練好的情緒模型配置在對話管理平臺上,如果客戶對情緒沒有特別高的要求,可以直接跑我們的情緒模型輸出情緒標簽。第二種是依托于原來積累的算法和模型可以自己喂一些情緒語料。比如說焦躁,在我們22種里面沒有,那它理解可以通過情緒引擎模塊自己定義一個情緒模型。第三種是如果22種情緒模型里面已經(jīng)有了這種情緒,比如說不滿,但是這個場景里面有些語調(diào),認為這些語調(diào)也是不滿的,那它可以基于現(xiàn)有情緒模型去增加語料,疊加式新增新的模型。

這個界面是對話管理平臺產(chǎn)品,里面涉及到各類的出話模塊,問答管理模塊,任務(wù)引擎模塊,機器人技能模塊,意圖引擎模塊,情緒引擎模塊,今天展示的是情緒引擎模塊里面,我們的同事自己訓練了一個情緒模型,這個里面包含了中性的情緒,愉快的情緒,憤怒的情緒。因為這個場景是基金理財?shù)?,有一句話“我今天基金怎么又跌了?”但是他在這個場景里面希望把它定義為憤怒的情緒,偵測到這個語言之后如何給他安撫。

 如果機器人檢測到憤怒情緒模型,他會出一句安撫的話術(shù),你先消消氣,我們來看看怎么解決這個問題。其實它又觸發(fā)另外一個模塊“基金漲跌都是正?,F(xiàn)象,建議您再多觀察一段時間”,這是文本情緒模塊落地的一個小的應(yīng)用場景。

語音情緒會比較泛一點,大部分人講話還是以中性為主的。比如說評率的特征,比如說平均音高,尾音下降等等。我們當時找了聲學工程師以及心理學專家還是做標注規(guī)范,對于數(shù)據(jù)做一些標注。再處理聲音的時候如何達到比較高的準確率,我們用了一個二分類的方式,比如說高興生氣定義為比較激動的聲音,中性和難過是相對比較低沉的原因,用了這樣的二分類工具識別高興/生氣,中性/難過。下面是聲音情緒應(yīng)用場景,大家看一下。   

這個案例是我們拿聲音情緒在呼叫中心里面的商業(yè)化落地的場景,也是實際客戶在使用的。聲音情緒質(zhì)檢相比NLP內(nèi)容質(zhì)檢有上來好處呢?效率會比較快,之前我們跟中國聯(lián)通做過一個項目,一般一通四五分鐘錄音兩三秒鐘就可以跑出它的情緒特征值。

第三類是視覺情緒,經(jīng)常會有客戶問我,你跟四小龍有什么差別?其實我們早期研究方向也只是在人臉情緒上,所以早期也是做了大量標注,將近有1400萬張人臉數(shù)據(jù)標注,我們現(xiàn)在做了九種人臉情緒,包括東方人臉,西方人臉都做了人臉情緒的標注和模型訓練。目前我們通過Titna X Maxwell GPU大概2毫秒就可以識別出來。

這類技術(shù)我們認為是可以商業(yè)化的,只是目前在車上面沒有找到更好的商業(yè)化落地的場景。

我們之前給教育行業(yè)有做過,曠視有做過一個教育行業(yè)的偵測,針對于學生課堂行為狀態(tài)的分析,結(jié)合學生專注力,眼球?qū)W⒊潭龋^的姿勢等等去判斷上課的情緒跟蹤。像這樣的案例,我們也交付了,重點用的也是基于視覺的技術(shù)。

單一模態(tài)的情感識別存在的偏差,比如說你好討厭,可能是生氣,也可能是撒嬌。你真是個天才,可能是夸獎,也可能是諷刺。對,你沒錯,你的女朋友真的不生氣了嗎?所以我們在做多模態(tài)融合用了兩種做法,一種是我們把這三個模型做了融合模型,把產(chǎn)品單獨拿出來做一個融合模型,這是一種做法做多模態(tài)融合情緒輸出。第二種比較簡單一點,直接通過三個模態(tài)的權(quán)重去判斷,我們大家都知道聲音情緒的權(quán)重會比視覺的高,視覺的情緒權(quán)重要比文本的高,基本上都會遵循一個權(quán)重值,看這三個模態(tài)加在一起具體是什么樣的情緒輸出。   

以上是情緒這塊積累的經(jīng)驗,也希望下來之后會有更多機會跟大家做一些探討。下面兩張片子講一下我們對多模態(tài)人機交互的理解。這張片子主要分為輸入,處理以及輸出。輸入進來之后,中間我們叫NLP處理過程,竹間做人機交互這么多年,我們會把它分成兩個層面。第一個層面叫做對話中控管理,主要解決的是大意圖的識別。輸出處理,包括情感的,虛擬形象的部分,這是我們理解的多模態(tài)語音交互涉及的全鏈路要做得事情,這里全鏈路涉及的方很多,有視覺,聲音,圖像,NLP,3D渲染等技術(shù)。

這個小的DEMO很簡單,但它打通了上面我說的環(huán)節(jié),包括情緒情感,中控判斷,結(jié)合情感中控上做不同觸發(fā)的分發(fā)和技能分發(fā),剛才看到虛擬形象動作跟他情緒相關(guān)。語音助理竹間做了蠻多落地的,我們現(xiàn)在覺得在車端或者其他終端有這么一些事情是可以做得,首先是智能語音要有長期記憶,短期記憶。語音理解要提供個性化回應(yīng),根據(jù)不同用戶回應(yīng)做到千人千面。還有識別身份ID的區(qū)分,以及做到主動交互,滿足在車艙內(nèi)對智能語音助手搜索行為的變化。后面三點是要建數(shù)據(jù)管理平臺,我要知道車端終端語音交互侵略怎么樣,評價體系怎么樣,交互評價體系怎么樣。另外還要建開發(fā)者生態(tài),快速引入開發(fā)者,他的服務(wù)放出去,讓開發(fā)者生態(tài)到他的平臺上面把語音技能豐富起來。可視化運營平臺能力,目前來看大部分在做語音交互場景更多還是以來于Tier1來做,Tier1本身會把它做得偏重,語音本身具有互聯(lián)網(wǎng)屬性和運營屬性,我個人認為最終可能還是要回到主機廠自己來做,自己搭建這樣的運營平臺去做可視化的運營。

最后這是我們對人機交互的理解,首先是聽得懂,現(xiàn)在語音助理大部分都能聽得懂,至少知道我講什么,但是連續(xù)對話能力比較弱,所以第一層要做到精準理解用戶意圖,實現(xiàn)連續(xù)對話,領(lǐng)域跳轉(zhuǎn),上下文理解。第二層是能思考,在聽得懂同時可以用用戶畫像標簽,多模態(tài)交互聯(lián)動實現(xiàn)主動交互場景。第三層是有溫度,當然這個過程當中需要加入情緒情感的技術(shù),加入數(shù)字人,情感TTS/聲音復(fù)刻來做到千人千面的落地應(yīng)用。

竹間本身提供的是底層平臺能力(NLP),基于這個平臺能力會有一個應(yīng)用平臺,就是基于交互平臺會有一個Bot Factory平臺,產(chǎn)生一個應(yīng)用就是語音助手,目前在智能座艙上還沒有非常落地的案例,但是目前在手機廠商,OPPO,華為,小米,VIVO等等都有語音交互的案例,如果有興趣可以到門外展臺跟我們進行交流。

這就是我大概想跟大家分享的內(nèi)容,謝謝。   

 
打賞
 
更多>相關(guān)資訊

最新發(fā)布
推薦資訊
點擊排行
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  使用協(xié)議  |  版權(quán)隱私  |  網(wǎng)站地圖  |  排名推廣  |  廣告服務(wù)  |  積分換禮  |  RSS訂閱  |  違規(guī)舉報
聯(lián)系電話:  微信: