香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

西交大開源SadTalker模型 圖片+音頻秒變視頻!

站長之家(ChinaZ.com)4月19日 消息:最近,西安交通大學的研究人員提出了SadTalker模型,通過從音頻中學習生成3D運動系數(shù),使用全新的3D面部渲染器來生成頭部運動,可以實現(xiàn)圖片+音頻就能生成高質(zhì)量的視頻。

image.png

為了實現(xiàn)音頻驅(qū)動的真實頭像視頻生成,研究人員將3DMM的運動系數(shù)視為中間表征,并將任務分為兩個主要部分(表情和姿勢),旨在從音頻中生成更真實的運動系數(shù)(如頭部姿勢、嘴唇運動和眼睛眨動),并單獨學習每個運動以減少不確定性。最后通過一個受face-vid2vid啟發(fā)設計的3D感知的面部渲染來驅(qū)動源圖像。

image.png

論文鏈接:https://arxiv.org/pdf/2211.12194.pdf

項目主頁:https://sadtalker.github.io/

研究人員使用SadTalker模型從音頻中學習生成3D運動系數(shù),使用全新的3D面部渲染器來生成頭部運動。該技術可以控制眨眼頻率,音頻可以是英文、中文、歌曲。

這項技術在數(shù)字人創(chuàng)作、視頻會議等多個領域都有應用,能夠讓靜態(tài)照片動起來,但目前仍然是一項非常有挑戰(zhàn)性的任務。SadTalker模型的出現(xiàn)解決了生成視頻的質(zhì)量不自然、面部表情扭曲等問題。該技術可以應用于數(shù)字人創(chuàng)作、視頻會議等多個領域。


相關內(nèi)容