借助AI 人類能聽懂動(dòng)物的“喜怒哀樂”?
借助AI 人類能聽懂動(dòng)物的“喜怒哀樂”?
目前來看,相關(guān)研究僅僅只是在一定程度上實(shí)現(xiàn)了人與動(dòng)物之間簡單的信息傳遞,離實(shí)現(xiàn)真正的跨物種交流,恐怕還有很長的一段路要走。從短期來看,要想實(shí)現(xiàn)跨物種交流還很難,但越來越多的研究無疑正在為其打開一扇扇大門。
譚茗洲 遠(yuǎn)望智庫人工智能事業(yè)部部長、圖靈機(jī)器人首席戰(zhàn)略官
在《安徒生童話》等文學(xué)作品,以及不少優(yōu)秀的影視作品中都反映了同一個(gè)主題——人與動(dòng)物的交流互動(dòng)。如今,世界各地的學(xué)者們試圖通過人工智能等途徑打破人與動(dòng)物的語言屏障,真正實(shí)現(xiàn)跨物種的溝通,甚至情感交流。
近日,一個(gè)由丹麥哥本哈根大學(xué)、瑞士蘇黎世聯(lián)邦理工學(xué)院,以及法國國家農(nóng)業(yè)、食品和環(huán)境研究所等研究人員組成的國際研究小組,開發(fā)出一款人工智能產(chǎn)品,可以翻譯家豬在各種場景中發(fā)出的聲音,成功解碼了其叫聲中所傳遞的“喜怒哀樂”。該研究成果發(fā)表在最新一期的《科學(xué)報(bào)道》期刊上。那么,人工智能是否可以實(shí)現(xiàn)人與動(dòng)物的溝通?算法具體是如何分辨動(dòng)物情緒的?目前,人類要通過AI理解動(dòng)物語言,還需克服哪些困難?
已通過算法研究多種動(dòng)物語言
動(dòng)物和人一樣也會(huì)有自己的情緒。它們會(huì)快樂、難過、恐懼、憤怒,但受限于語言和表達(dá)方式,動(dòng)物的情緒較難為人所知。其實(shí),在我們聽起來大同小異的動(dòng)物叫聲中,或許隱藏著它們不一樣的情緒。
上述論文顯示,研究人員為了訓(xùn)練AI翻譯豬的語言,專門錄下了411頭家豬發(fā)生于19種不同場景中的7000多次叫聲。算法執(zhí)行結(jié)果表明,豬積極情緒的呼叫聲比負(fù)面情緒的呼叫聲更短且振幅更低。研究人員稱,這種算法的準(zhǔn)確率高達(dá)92%,可以基本準(zhǔn)確地從豬叫聲中辨別其情緒。
無獨(dú)有偶,此前劍橋大學(xué)一個(gè)科研團(tuán)隊(duì)讓AI僅根據(jù)綿羊的面部表情來識(shí)別這只羊是否處于困境之中。AI系統(tǒng)首先根據(jù)綿羊疼痛的面部表情,列出與不同疼痛程度相關(guān)的幾個(gè)“面部動(dòng)作單元”(AU),然后在480張綿羊照片中標(biāo)記了這些AU——鼻孔變形、每只耳朵的旋轉(zhuǎn)和眼睛的縮小等,以此來判斷綿羊的處境。
“其實(shí),借助算法研究動(dòng)物的語言,以及人與動(dòng)物之間的溝通,早有先例。之前就有研究寵物狗、貓的項(xiàng)目,這些研究的目的在于讓人類便于跟它們更好地相處?!?月4日,遠(yuǎn)望智庫人工智能事業(yè)部部長、圖靈機(jī)器人首席戰(zhàn)略官譚茗洲在接受科技日報(bào)記者采訪時(shí)指出。
例如,為了實(shí)現(xiàn)人寵溝通,日本著名聲學(xué)專家鈴木松美博士利用基于機(jī)器學(xué)習(xí)的動(dòng)物翻譯技術(shù),曾經(jīng)發(fā)明過一款“寵物狗翻譯器”。寵物主人只需要將一枚迷你麥克風(fēng)別在衣領(lǐng)上,所收集到的寵物叫聲便會(huì)傳輸?shù)椒g器中進(jìn)行語音識(shí)別和轉(zhuǎn)換,進(jìn)而向主人傳達(dá)寵物想要表達(dá)的意思,了解它們的情緒。
“此外,還有研究人員研究簡單動(dòng)物的群體智慧,如蜜蜂、螞蟻的溝通方式,這些研究對于軍事戰(zhàn)術(shù)、設(shè)備等有一定的仿生借鑒意義;還有對海豚、鯨魚這類動(dòng)物組織化能力的跨學(xué)科研究,這類研究對于探究生物進(jìn)化史非常有價(jià)值。”譚茗洲進(jìn)一步解釋。
不懂語言也能獲得翻譯能力
動(dòng)物有自己的語言嗎?如果有的話,它們會(huì)聊些什么?了解動(dòng)物可以說是人類的一個(gè)長久研究課題,目前AI正在幫我們探尋答案。譚茗洲表示:“動(dòng)物沒有人類所特有的語言系統(tǒng),所以研究人員可以通過結(jié)合它們的叫聲、行為、習(xí)性來分析其訴求,以便更好地了解它們?!?/p>
一位研究人員曾經(jīng)旁聽了兩只位置相對靜止的抹香鯨之間斷斷續(xù)續(xù)長達(dá)40分鐘的“對話”,它們的“對話”幾乎每一句都不重樣,并且伴有各種動(dòng)作。這令人不禁猜測:是否這兩只母鯨在“拉家常”、分享育兒心得?對抹香鯨“對話”內(nèi)容的研究,正是近幾年由國際科學(xué)家團(tuán)隊(duì)發(fā)起、《國家地理》支持的“鯨語翻譯計(jì)劃”(Project CETI)中的研究內(nèi)容之一。 據(jù)報(bào)道,研究人員正在使用自然語言處理系統(tǒng)(NLP)分析抹香鯨的40億個(gè)交流代碼。NLP是人工智能的一個(gè)子領(lǐng)域,專注于處理人類的書面和口頭語言。研究團(tuán)隊(duì)計(jì)劃讓人工智能將每個(gè)聲音與特定的背景聯(lián)系起來,這一過程預(yù)計(jì)至少需要5年時(shí)間。如果該團(tuán)隊(duì)實(shí)現(xiàn)了這些目標(biāo),下一步將是開發(fā)和部署一個(gè)互動(dòng)聊天機(jī)器人,與生活在野外的抹香鯨進(jìn)行對話。
發(fā)表在《自然》期刊的科學(xué)研究證明,人工智能在破譯古代人類語言方面非常有效。這為使用AI探索動(dòng)物語言開辟了可能性。該研究稱,機(jī)器學(xué)習(xí)技術(shù)提供了新的工具,可以幫助考古學(xué)家更快地了解過去,特別是在破譯古代文字時(shí)。該AI系統(tǒng)采用了古希臘語言和整個(gè)古代地中海世界的銘文進(jìn)行訓(xùn)練,訓(xùn)練數(shù)據(jù)來自相關(guān)人文學(xué)院提供的最大的希臘銘文數(shù)字?jǐn)?shù)據(jù)集,而且這些銘文中的每一條都標(biāo)注了元數(shù)據(jù),其中描述了由歷史學(xué)家考察出來的銘文的書寫地點(diǎn)和時(shí)間。有了這些數(shù)據(jù),AI就能在這些信息中尋找模式和規(guī)律,并利用復(fù)雜的數(shù)學(xué)模型來對這些信息進(jìn)行編碼,然后進(jìn)一步使用這些推測出的信息來對其他銘文的內(nèi)容、編寫地點(diǎn)和年限進(jìn)行推斷。研究顯示,該AI在修復(fù)受損文字方面達(dá)到了62%的準(zhǔn)確率。這也為翻譯動(dòng)物語言提供了靈感。
人工智能在破解古文字和翻譯動(dòng)物語言上往往遵循同樣的方法和準(zhǔn)則。譚茗洲表示:“在翻譯這一經(jīng)典任務(wù)上,機(jī)器不需要理解語言,而是僅靠單一語言的語料,即可掌握該語言的句法、語法等關(guān)鍵要素。也就是說,深度學(xué)習(xí)不懂英語和中文,但是通過大量學(xué)習(xí)語料即可獲得中英互譯的能力?!?/p>
“歸根到底,AI能夠翻譯、理解動(dòng)物語言,其背后依然是基于人類對語言進(jìn)行的有效解讀?!?譚茗洲說。
實(shí)現(xiàn)跨物種交流尚有很長的路要走
“人類的語言有規(guī)律可循,因而不同國家的語言是可以遵循規(guī)律去學(xué)習(xí)的。但動(dòng)物的語言規(guī)則存在未知壁壘,因此AI要實(shí)現(xiàn)跨物種語言翻譯,尚有一段很長的路要走,需要克服一些困難?!弊T茗洲表示。
首先,事實(shí)證明,利用受人為偏見影響的數(shù)據(jù)進(jìn)行訓(xùn)練的算法很容易將結(jié)果導(dǎo)向“歧途”。比如,狗會(huì)發(fā)出急促的叫聲,可能是因?yàn)橄胍蛑魅似蚴?,也可能是因?yàn)樘嵝阎魅司枘吧?,還可能是對主人不陪自己玩的責(zé)怪。但如果研究人員僅基于自己的認(rèn)知,在對這種叫聲數(shù)據(jù)進(jìn)行標(biāo)記的時(shí)候,認(rèn)為這種叫聲只表達(dá)寵物向主人要食物的需求,從而對數(shù)據(jù)進(jìn)行單一標(biāo)記處理,那么人工智能在學(xué)習(xí)數(shù)據(jù)、翻譯的時(shí)候往往就會(huì)產(chǎn)生很大的局限性。這種翻譯很容易導(dǎo)致人和寵物的溝通障礙,從而喪失寵語翻譯的意義。
“在研究中,科研人員需要去‘人類中心’,也就是說,借助于算法實(shí)現(xiàn)的跨物種溝通,需要算法避免人類某些偏見?!弊T茗洲指出。
其次,通過AI算法將人類語言與動(dòng)物語言對應(yīng),需要大量、廣泛、完善的數(shù)據(jù)采集和場景訓(xùn)練,以完成對動(dòng)物語言的解讀,實(shí)現(xiàn)對“規(guī)則”的總結(jié)。這需要廣泛同步采集動(dòng)物叫聲和腦電波數(shù)據(jù)并進(jìn)行比對,再將其納入數(shù)據(jù)庫。然而不同犬種聲帶特點(diǎn)不同,面對同一場景的發(fā)聲表現(xiàn)也不同,而這樣的場景和叫聲的組合有無數(shù)個(gè),這為數(shù)據(jù)采集工作帶來了巨大的挑戰(zhàn)。
譚茗洲說,在技術(shù)方面,一個(gè)AI翻譯產(chǎn)品做到精確翻譯至少需攻破幾個(gè)難題:在形式端,如果使用拍譯的形式要攻克圖像識(shí)別相關(guān)問題,同聲翻譯形式則要攻克語音識(shí)別相關(guān)問題;在內(nèi)容端,AI翻譯產(chǎn)品還要攻克文本語言分析、大數(shù)據(jù)采集等問題。由于AI缺乏對視覺場景、聽覺場景、自然語言處理的常識(shí)判斷,這還需要AI發(fā)展到能夠極為精確地處理這些問題的階段。
此外,有學(xué)者指出,動(dòng)物語言和人語之間的代溝是客觀存在的,AI所能做的,只能是不斷改進(jìn)自身的功能,用科學(xué)手段完善數(shù)據(jù)庫、內(nèi)容、語料和場景;形式和內(nèi)容雙管齊下,才能將這條橫亙在動(dòng)物和人之間的語言鴻溝填平,在堅(jiān)實(shí)的地基上實(shí)現(xiàn)人和動(dòng)物的有效溝通。
“盡管有些研究也曾獲得了很大的進(jìn)展,但是其中的問題也無法被忽視。目前來看,相關(guān)研究僅僅只是在一定程度上實(shí)現(xiàn)了人與動(dòng)物之間簡單的信息傳遞,離實(shí)現(xiàn)真正的跨物種交流,恐怕還有很長的一段路要走。從短期來看,要想實(shí)現(xiàn)跨物種交流還很難,但越來越多的研究無疑正在為其打開一扇扇大門?!弊T茗洲表示。
版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。