AI賦能影像技術(shù),讓修圖小白秒變大師
美圖影像研究院致力于計算機視覺、機器學(xué)習(xí)、增強現(xiàn)實等人工智能(AI)相關(guān)領(lǐng)域的研發(fā),在人臉技術(shù)、人體技術(shù)、圖像分割、圖像識別、圖像生成、圖像增強等方面處于領(lǐng)先水平,為美圖現(xiàn)有和未來的產(chǎn)品提供核心算法支持。
近日,計算機視覺頂級會議CVPR 2022公布了會議錄取結(jié)果,美圖影像研究院(MT Lab)與北京航空航天大學(xué)可樂實驗室聯(lián)合發(fā)表的論文被接收。該論文突破性地提出分布感知式單階段模型(DAS),用于解決極具挑戰(zhàn)性的多人3D人體姿態(tài)估計問題。該方法通過一次網(wǎng)絡(luò)前向推理同時獲取3D空間中人體位置信息以及相對應(yīng)的關(guān)鍵點信息,從而簡化了預(yù)測流程,提高了效率。此外,該方法有效地學(xué)習(xí)了人體關(guān)鍵點的真實分布,進而提升了基于回歸框架的多人3D人體姿態(tài)估計方法的精度。
實際上,這只是美圖利用人工智能為影像技術(shù)賦能的冰山一角。早在2010年,美圖就成立了核心研發(fā)部門——美圖影像研究院,該研究院致力于計算機視覺、機器學(xué)習(xí)、增強現(xiàn)實等人工智能(AI)相關(guān)領(lǐng)域的研發(fā),在人臉技術(shù)、人體技術(shù)、圖像分割、圖像識別、圖像生成、圖像增強等方面處于領(lǐng)先水平,為美圖現(xiàn)有和未來的產(chǎn)品提供核心算法支持,并通過前沿技術(shù)推動美圖產(chǎn)品發(fā)展,曾先后多次參與CVPR、ICCV、ECCV等計算機視覺國際頂級會議,并斬獲冠亞軍10余項,被稱為美圖的“技術(shù)中樞”。
高效精準獲取多人3D人體姿態(tài)估計結(jié)果
計算機視覺中的經(jīng)典技術(shù)——多人3D人體姿態(tài)估計在AR/VR、游戲、運動分析、虛擬試衣等領(lǐng)域具有廣泛的應(yīng)用潛力,近年來隨著元宇宙概念的興起,更是讓這一技術(shù)備受關(guān)注。
目前,通常采用兩階段方法來解決多人3D人體姿態(tài)估計的問題:自頂向下方法,即先檢測圖片多個人體的位置,之后對檢測到的每個人使用單人3D姿態(tài)估計模型來分別預(yù)測其姿態(tài);自底向上方法,即先檢測圖片中所有人的3D關(guān)鍵點,之后通過相關(guān)性將這些關(guān)鍵點分配給對應(yīng)的人體。
盡管兩階段方法取得了良好的精度,但是需要通過冗余的計算和復(fù)雜的后處理來順序性地獲取人體位置信息和關(guān)鍵點位置信息,其速率通常難以滿足實際場景需求,因此多人3D姿態(tài)估計算法流程亟須簡化。
為了克服兩階段方法存在的問題,該論文提出了一種分布感知式單階段模型用于解決基于單張圖片的多人3D人體姿態(tài)估計問題。另外,DAS在優(yōu)化過程中對3D關(guān)鍵點的分布進行學(xué)習(xí),這為3D關(guān)鍵點的回歸提供了極具價值的指導(dǎo)性信息,從而有效地提升了預(yù)測精度。
此外,為了緩解關(guān)鍵點分布估計的難度,DAS采用了一種迭代更新策略以逐步逼近真實分布目標,通過這樣一種方式,DAS可以高效且精準地從單目RGB圖片中一次性獲取多個人的3D人體姿態(tài)估計結(jié)果。
與已有的兩階段方法相比,該模型可以通過一次網(wǎng)絡(luò)前向推理同時獲取人體位置信息以及所對應(yīng)的人體關(guān)鍵點位置信息,從而有效地簡化預(yù)測流程,克服了已有方法在高計算成本和高模型復(fù)雜度方面的弊端。另外,該方法成功將標準化流引進到多人3D人體姿態(tài)估計任務(wù)中,以在訓(xùn)練過程中學(xué)習(xí)人體關(guān)鍵點分布,并提出迭代回歸策略緩解分布學(xué)習(xí)難度,來達到逐步逼近目標的目的。通過該模型可以獲取數(shù)據(jù)的真實分布,有效地提升模型的回歸預(yù)測精度。
人工智能技術(shù)大大提升攝影修圖效率
對人臉皮膚進行精細化的瑕疵修復(fù)與暗沉祛除,一鍵入“齒”修復(fù)牙齒上的瑕疵,照片上模糊的容顏清晰重現(xiàn),全身美型告別大粗腿、水桶腰……AI技術(shù)正讓修圖小白秒變大師。
一家商業(yè)攝影機構(gòu)的業(yè)務(wù)流程基本包括:營銷獲客、攝影服務(wù)、后期處理、成品制作等環(huán)節(jié)。其中,后期修圖是商業(yè)攝影工作流程中占比高、耗時長、工作量大的一個環(huán)節(jié)。
在旺季或者拍攝任務(wù)激增時,從拍攝到出片的周期甚至長達1個月左右。尤其是在人像處理部分,非??简炐迗D師的專業(yè)功底,而一名合格修圖師的培養(yǎng)需要耗費高昂的人力、物力成本,還需要面臨人員頻繁流動的風(fēng)險。
美圖創(chuàng)始人兼首席執(zhí)行官吳欣鴻在接受科技日報記者采訪時表示,據(jù)不完全統(tǒng)計,商業(yè)攝影1年修圖可達120億張,大量繁雜的重復(fù)性勞動以及較高的技術(shù)門檻,給商業(yè)影樓帶來巨大的成本壓力。借助AI技術(shù)完成重復(fù)繁雜的后期初修工作,不僅能夠提升商業(yè)攝影后期的修圖效率,同時也為商業(yè)攝影行業(yè)提供了深度融合美學(xué)藝術(shù)的專業(yè)級圖像處理服務(wù)。
由美圖技術(shù)大腦——美圖影像研究院自主研發(fā)的美圖云修,通過智能預(yù)設(shè)功能,一鍵即可完成對照片的批量處理。其中,臉部優(yōu)化功能可以修復(fù)面部瑕疵,打造細膩肌膚;妝容調(diào)整功能可實現(xiàn)對妝容的智能調(diào)節(jié)。此外,美圖云修還能夠完成塑造立體的面部五官、分區(qū)域?qū)崿F(xiàn)全身美型、美化身體肌膚等80余項修圖工作。同時,靈活自由的參數(shù)自定義也滿足了用戶對修圖更專業(yè)的需求。
“美圖云修還提供濾鏡特效、牙齒修復(fù)、祛雙下巴、勻膚、縮頭、一鍵仿妝、背景增強、多人全身美型等獨特功能,可以幫助影樓快速完成約80%的精修工作。”美圖技術(shù)副總裁、美圖影像研究院負責(zé)人劉洛麒表示。
我國影像軟件技術(shù)攜手AI大步向前
今年3月30日,美圖披露2021年全年業(yè)績報告。報告顯示,2021年美圖研發(fā)投入達5.455億元,同比2020年增長35%。
隨著中國影像軟件產(chǎn)業(yè)對技術(shù)研發(fā)投入的不斷加大,近年來中國影像軟件在技術(shù)能力方面有了很大的進展,有些已經(jīng)不輸國外同類產(chǎn)品。
“我們推出的視頻美顏App——Wink,它的視頻人像美化功能需要將人像美顏從圖像擴展到視頻維度,這就需要實時的人臉檢測跟蹤、分割、3D建模等技術(shù)與人像美顏算法進行有機結(jié)合,同時還要應(yīng)對視頻抖動、大側(cè)臉等極端情況,才能為用戶提供滿意的結(jié)果?!眲⒙鬻枵f。
“用戶拍攝的照片或視頻存在清晰度低、畫質(zhì)差、產(chǎn)生噪點等問題,我們利用基于深度學(xué)習(xí)的畫質(zhì)增強技術(shù)能夠提高用戶照片與視頻的質(zhì)量,滿足他們的拍攝需求。同時,我們也將深度學(xué)習(xí)應(yīng)用到人像美顏中,例如我們自主研發(fā)的AI勻膚技術(shù),既能祛除臉部瑕疵,同時也保留了細膩的皮膚紋理質(zhì)感?!眳切励櫿f。
“我們基于AI研發(fā)的人體美型技術(shù),不是簡單地對人體進行拉伸,而是先結(jié)合人體3D重建、人體分割等技術(shù)去建立人體的三維模型,再利用深度學(xué)習(xí)算法學(xué)習(xí)美化之后的人體模型形變,同時對背景的Mesh(網(wǎng)格)進行建模,從而緩解背景的變形扭曲,最終實現(xiàn)用戶滿意的人體美型效果?!眲⒙鬻柚赋?。
此外,美圖證件照應(yīng)用到的人像摳圖技術(shù),可以實現(xiàn)發(fā)絲級的精細摳圖,完成對證件照人像的一鍵換裝,同時保持人像和背景的光線和諧性。而基于AI生成的增發(fā)技術(shù),可以調(diào)整發(fā)際線,可以改變發(fā)色和發(fā)型,還能使頭發(fā)顯得更蓬松。
未來,人工智能將如何賦能影像技術(shù)?對此,吳欣鴻表示,一方面,基于人工智能的影像技術(shù),將與各行各業(yè)有更多、更深入的結(jié)合,這也對影像技術(shù)提出了更高的要求。另一方面,通過3D技術(shù)和AR技術(shù)等,為用戶提供沉浸式和可交互的虛擬化體驗也是未來影像技術(shù)發(fā)展的熱門方向。
記者 馬愛平
版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。