天津理工大學(xué)鯨言創(chuàng)益團(tuán)隊(duì)研發(fā)手語實(shí)時(shí)翻譯系統(tǒng)
天津理工大學(xué)鯨言創(chuàng)益團(tuán)隊(duì)研發(fā)手語實(shí)時(shí)翻譯系統(tǒng)——
讓人工智能看懂手語(解碼·走近新職業(yè))
核心閱讀
一邊是聽障人士打著手語,一邊是屏幕上自動“翻譯”出文字。為了讓更多聽障人士被“聽見”,天津理工大學(xué)鯨言創(chuàng)益無障礙智能科技研發(fā)團(tuán)隊(duì)用近5年時(shí)間,構(gòu)建起視頻語料庫,研發(fā)“復(fù)雜場景下中國手語實(shí)時(shí)翻譯系統(tǒng)”,讓人工智能技術(shù)帶給人們更多便利。
攝像頭前,張益彬左右手交替揮舞,嘴角伴隨手語動作微微上揚(yáng),一旁的顯示屏上,“陽光總在風(fēng)雨后”7個(gè)字立刻顯示出來……
張益彬是天津理工大學(xué)聾人工學(xué)院網(wǎng)絡(luò)工程專業(yè)2019級學(xué)生,也是該校鯨言創(chuàng)益無障礙智能科技研發(fā)團(tuán)隊(duì)的成員。在這個(gè)近60人的團(tuán)隊(duì)中,超過一半成員是和張益彬一樣的聽障學(xué)生,他們用近5年時(shí)間構(gòu)建起一個(gè)包含30余萬條視頻的語料庫。如今,團(tuán)隊(duì)打造的“復(fù)雜場景下中國手語實(shí)時(shí)翻譯系統(tǒng)”即將落地應(yīng)用。
大膽嘗試,將手語實(shí)時(shí)翻譯為語音或文字
2006年,袁甜甜成為天津理工大學(xué)聾人工學(xué)院計(jì)算機(jī)系的一名教師,對她來說,教學(xué)最大的困難是交流障礙。
當(dāng)時(shí),語音識別軟件尚未問世,學(xué)生又都是聽障人士,袁甜甜只能硬著頭皮自學(xué)手語,“一堂課下來,手舞足蹈,經(jīng)常滿頭大汗,一望臺下,學(xué)生們還是一臉茫然?!痹鹛鹫f,向?qū)W生傳遞信息很難,難上加難的是了解學(xué)生的想法。
第二次全國殘疾人抽樣調(diào)查數(shù)據(jù)顯示,我國約有聽障人士2780萬人?!皶r(shí)至今日,手語仍是聽障人士的‘母語’?!痹鹛鹫f,盡管近年來語音識別軟件普及,但表達(dá)的邏輯出發(fā)點(diǎn)始終繞不開健聽人,“對于聽障人士來說,聽懂是一方面,但他們最渴望的,還是被‘聽見’?!?/p>
2016年底,手語識別系統(tǒng)的雛形開始在袁甜甜腦海中清晰起來?!奥犝先耸吭跀z像頭前打出手語,視頻畫面經(jīng)過計(jì)算機(jī)的分析處理,轉(zhuǎn)換為文字或者語音?!痹鹛痍U釋設(shè)想,創(chuàng)新的邏輯出發(fā)點(diǎn)從健聽人變成了聽障人,也意味著沒有成熟的方案可以借鑒?!斑@是一次關(guān)乎‘表達(dá)’的探險(xiǎn)?!痹鹛鹫f。
構(gòu)建算法,給計(jì)算機(jī)編一套手語教材
如果說“手語識別”和“語音識別”還有一些相似之處,那就是二者都必須依托于豐富的語料庫。如今,語音識別語料庫已十分成熟豐富,“語音的語料在自然狀態(tài)下非常便于獲取,但手語語料卻非常少?!痹鹛鹫f。
“另外,語音是一種‘單信道’的形式,而手語是‘多信道’,計(jì)算機(jī)要識別的不只有動作,還有表情和場景?!痹鹛鸾榻B,從對數(shù)據(jù)采集的支撐程度看,我國目前手語語言學(xué)的體系性并不強(qiáng),“手語方言”比比皆是,這就給數(shù)據(jù)采集造成了極大困難。
“要將設(shè)想變?yōu)楝F(xiàn)實(shí),就要先確立標(biāo)準(zhǔn)?!痹鹛鹫f,她和團(tuán)隊(duì)成員確定了先易后難的思路,基于國家通用手語的標(biāo)準(zhǔn)采集數(shù)據(jù),“簡單來講,我們翻譯的是手語里的‘普通話’。”
王建源是聾人工學(xué)院網(wǎng)絡(luò)工程專業(yè)2018級學(xué)生,也是鯨言創(chuàng)益團(tuán)隊(duì)的初創(chuàng)成員。他的工作是收集手語語料,這些語料便是視頻畫面?!罢心贾驹刚?,請他們來錄視頻,反反復(fù)復(fù)地錄?!蓖踅ㄔ础罢f”。
王建源從小在特殊學(xué)校求學(xué),父母也都是聽障人士,他從不避諱在健聽人面前打出手語,因?yàn)樗X得手語很美?!暗牵终Z的美是復(fù)雜的,這個(gè)工程量太大了!”王建源笑著“說”。
兩年時(shí)間里,王建源和團(tuán)隊(duì)其他成員幾乎每天都準(zhǔn)時(shí)出現(xiàn)在學(xué)院的實(shí)驗(yàn)室,有時(shí)忙到很晚,干脆席地而睡。如今,他們已經(jīng)收集到30余萬條語料,“經(jīng)過測算對比,距離中國漢語水平考試的4級水平僅差100多個(gè)詞了?!蓖踅ㄔ唇榻B。
手語是一門視覺語言,有特定的語法、語序。手勢、表情、肢體動作自由排列組合,表達(dá)的便是不同的意思。在袁甜甜的設(shè)想中,這套系統(tǒng)呈現(xiàn)的內(nèi)容,不應(yīng)該是由漢語單詞羅列而成的句子,而是在輸入端和輸出端既要遵循手語語序、語境,也要符合漢語的表述邏輯。
天津理工大學(xué)計(jì)算機(jī)學(xué)院研一學(xué)生孫悅把自己在團(tuán)隊(duì)中的工作形容為“修橋”?!熬湍谩柟饪傇陲L(fēng)雨后’這句話來說,手語的語序是‘風(fēng)/雨/結(jié)束/陽光’,這顯然讓人看不懂?!睂O悅說,她和伙伴們逐漸構(gòu)建起一套手語識別算法框架模型,“通俗來說,就是我們給計(jì)算機(jī)編了一套‘手語教材’?!庇辛诉@套“教材”,豐富的語料庫就有了用武之地,相當(dāng)于找到了手語轉(zhuǎn)換為漢語的規(guī)律,“橋”修通了,數(shù)據(jù)才能跑得順暢。如今,這個(gè)模型已經(jīng)基本能夠?qū)崿F(xiàn)“復(fù)雜場景下的手語實(shí)時(shí)翻譯”。
搭建橋梁,手語翻譯應(yīng)用于更多場景
2019年,袁甜甜領(lǐng)銜的“復(fù)雜場景下中國手語實(shí)時(shí)翻譯系統(tǒng)”入選工信部新一代人工智能產(chǎn)業(yè)創(chuàng)新重點(diǎn)任務(wù)揭榜項(xiàng)目,并獲得國家資金支持,這也加快了整個(gè)團(tuán)隊(duì)前進(jìn)的步伐。
去年5月,他們把研究成果帶進(jìn)了在天津舉行的第五屆世界智能大會的會場,獲得點(diǎn)贊?!爱?dāng)時(shí)系統(tǒng)已經(jīng)涵蓋教育、法律、餐飲、交通等應(yīng)用場景,在光線充足的環(huán)境下,識別率可達(dá)95%?!痹鹛鹫f,如今,這套系統(tǒng)還在升級,“我們的目標(biāo)是100萬條語料,基本覆蓋社會生活的常用場景?!?/p>
最讓張益彬難忘的是,去年10月,他和團(tuán)隊(duì)合力研發(fā)的項(xiàng)目《“鯨可語”——多模態(tài)連續(xù)手語自動標(biāo)注識別系統(tǒng)》榮獲第七屆中國國際“互聯(lián)網(wǎng)+”大學(xué)生創(chuàng)新創(chuàng)業(yè)大賽全國總決賽金獎,而自動標(biāo)注識別是手語翻譯的關(guān)鍵一環(huán)。這也證明了“張益彬們”的努力得到了國內(nèi)科創(chuàng)界的高度關(guān)注。
聞訊而來的合作方越來越多,這讓團(tuán)隊(duì)成員對于系統(tǒng)未來的應(yīng)用場景有了無盡暢想。不久前,天津市急救中心也找到他們,希望引入這套系統(tǒng)?!敖?jīng)常碰到急救對象是聽障人士,生命垂危之際,打字交流效率太低了,往往只能用手語表達(dá)。”袁甜甜說。
今年之內(nèi),這套系統(tǒng)將應(yīng)用于天津理工大學(xué)的辦公樓。到時(shí),樓內(nèi)大廳將出現(xiàn)一個(gè)交互機(jī)器人和一塊交互大屏,所有聽障人士都可以被“聽見”。
本報(bào)記者 李家鼎
版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。