VividTalk是一個由南京大學、阿里巴巴、字節跳動和南開大學聯合開發的AI視頻生成框架,它能夠僅憑一張照片和一段音頻生成高質量、逼真的說話視頻。
VividTalk生成的視頻具有高視覺質量,面部表情逼真,頭部姿勢多樣,嘴唇同步顯著提升,真實感和動態性更強。這個框架支持多種圖像風格,包括照片、卡通圖片等,并且支持多語言,使照片中的人物能夠以多種語言“說話”。
VividTalk的工作原理主要分為兩個階段:
- 音頻到網格的映射(第一階段):這個階段中,VividTalk將輸入的音頻映射到3D網格上。這涉及學習兩種類型的運動:非剛性表情運動和剛性頭部運動。對于表情運動,技術使用混合形狀(blendshape)和頂點作為中間表示,以最大化模型的表示能力。混合形狀提供了全局的粗略運動,而頂點偏移則描述了更細致的嘴唇運動。對于自然的頭部運動,VividTalk提出了一個新穎的可學習的頭部姿勢代碼本,采用了兩階段訓練機制。
- 網格到視頻的轉換(第二階段):這個階段中,VividTalk使用雙分支運動-VAE(變分自編碼器)和生成器將學習到的網格轉換為密集的運動,并基于這些運動逐幀合成高質量的視頻。這一過程涉及將3D網格的運動轉換為2D密集運動,然后輸入到生成器中,以合成最終的視頻幀。
通過這種方法,VividTalk能夠生成與輸入音頻高度同步的逼真說話頭像視頻,提高了視頻的真實感和動態性。
相關鏈接:
- 項目和演示地址:https://humanaigc.github.io/vivid-talk/
- 論文地址:https://arxiv.org/pdf/2312.01841.pdf
- GitHub:https://github.com/HumanAIGC/VividTalk
?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。
