想象一下有一只橘貓,然后再想象一下這只貓是煤灰色的,現(xiàn)在,再想象一下,這只貓正在長城上昂首闊步。做出上述想象時,人們大腦中的一系列神經(jīng)元會快速激活,并根據(jù)之前對世界的認知,想出各種各樣的圖片。換句話說,人類很容易想象一個具有不同屬性的物體。但是,盡管深度神經(jīng)網(wǎng)絡(luò)上在執(zhí)行某些任務(wù)是能夠取得與人類一樣或超越人類的表現(xiàn),但是,計算機在“想象”技能方面仍在與人類處于較量中。
據(jù)外媒報道,美國南加州大學(xué)的一支研究團隊研發(fā)了一種人工智能(AI)技術(shù),能夠利用與人類類似的能力想象擁有不同屬性、之前從未見過的物體。該支團隊由Laurent Itti教授、博士生Yunhao Ge、Sami Abu-El-Haija和Gan Xin組成。研究人員表示:“我們受人類視覺泛化能力的啟發(fā),嘗試在機器中模擬人類的想象力。人類能夠根據(jù)形狀、姿勢、位置、顏色等屬性將所學(xué)的知識分開,然后再把此類知識結(jié)合起來想象一個新的物體。
新AI系統(tǒng)靈感(圖片來源:南加州大學(xué))
AI的泛化問題
例如,假設(shè)你想創(chuàng)建一個能夠生成車輛圖片的AI系統(tǒng)。在理想情況下,你能夠為該算法提供一些車輛的圖片,然后其能夠生成各種顏色、不同角度的各種汽車,如保時捷、龐蒂亞克、皮卡等。
這也是AI長期追求的目標(biāo)之一,即創(chuàng)建能夠外推的模型,這也意味著,只要給出一些例子,該模型能夠提取出基本的規(guī)則,并將此類規(guī)則應(yīng)用到各種新穎、之前從未見過的例子中。但是,機器通常只訓(xùn)練像素等樣本特征,而不會考慮到物體的屬性。
想象力的科學(xué)
在此次新研究中,研究人員利用一種稱為分離(Disentanglement)的概念試圖克服此種限制。例如,分離能夠用于生成深度偽裝(deepfakes),將人類的面部運動和身份分離,然后合成新的圖片和視頻,用另一個人替代原來的人,但是還是原來的面部運動,類似于換臉技術(shù)。
新方法訓(xùn)練圖像以及被組合的圖像(圖片來源:南加州大學(xué))
類似上述方法,不像傳統(tǒng)的算法一樣只采用一個樣本,新方法采用了一堆樣本照片并挖掘兩者之間的相似性,以實現(xiàn)“可控分離表征學(xué)習(xí)”(controllable disentangled representation learning)。
然后,該方法會重新組合知識,以實現(xiàn)“可控新圖像合成”,或者人們所說的想象。例如,以變形金剛為例,它能夠采用威震天汽車的外形,但是采用黃色大黃蜂的顏色和姿勢以及紐約時代廣場的背景。最后是一輛黃色大黃蜂顏色的威震天汽車在時代廣場行駛,即使在訓(xùn)練過程中并沒有人看到此種樣本。
然后,該方法會重新組合知識,以實現(xiàn)“可控新圖像合成”,或者人們所說的想象。例如,以變形金剛為例,它能夠采用威震天汽車的外形,但是采用黃色大黃蜂的顏色和姿勢以及紐約時代廣場的背景。最后是一輛黃色大黃蜂顏色的威震天汽車在時代廣場行駛,即使在訓(xùn)練過程中并沒有人看到此種樣本。
理解這個世界
雖然分離不是一個新概念,研究人員表示,該框架能夠與幾乎任何類型的數(shù)據(jù)或知識兼容,擴大其應(yīng)用范圍。例如,通過將敏感屬性從等式中移動,分離種族和性別相關(guān)知識,以實現(xiàn)更公平的AI。
在醫(yī)學(xué)領(lǐng)域,該技術(shù)能夠通過將藥物的功能從其他屬性中分離,然后在重新組合以合成新的醫(yī)藥,從而幫助醫(yī)生和生物學(xué)家發(fā)現(xiàn)更有用的藥物。賦予機器想象力還能夠幫助創(chuàng)造更安全的AI,例如,讓自動駕駛汽車在訓(xùn)練中想象并避開之前未看到的危險場景。