亚洲另类一区二区,亚洲精品视频免费看,国产欧美一区二区三区网站

VividTalk是一個由南京大學、阿里巴巴、字節跳動和南開大學聯合開發的AI視頻生成框架，它能夠僅憑一張照片和一段音頻生成高質量、逼真的說話視頻。

VividTalk生成的視頻具有高視覺質量，面部表情逼真，頭部姿勢多樣，嘴唇同步顯著提升，真實感和動態性更強。這個框架支持多種圖像風格，包括照片、卡通圖片等，并且支持多語言，使照片中的人物能夠以多種語言“說話”。

VividTalk的工作原理主要分為兩個階段：

音頻到網格的映射（第一階段）：這個階段中，VividTalk將輸入的音頻映射到3D網格上。這涉及學習兩種類型的運動：非剛性表情運動和剛性頭部運動。對于表情運動，技術使用混合形狀（blendshape）和頂點作為中間表示，以最大化模型的表示能力。混合形狀提供了全局的粗略運動，而頂點偏移則描述了更細致的嘴唇運動。對于自然的頭部運動，VividTalk提出了一個新穎的可學習的頭部姿勢代碼本，采用了兩階段訓練機制。
網格到視頻的轉換（第二階段）：這個階段中，VividTalk使用雙分支運動-VAE（變分自編碼器）和生成器將學習到的網格轉換為密集的運動，并基于這些運動逐幀合成高質量的視頻。這一過程涉及將3D網格的運動轉換為2D密集運動，然后輸入到生成器中，以合成最終的視頻幀。

通過這種方法，VividTalk能夠生成與輸入音頻高度同步的逼真說話頭像視頻，提高了視頻的真實感和動態性。

相關鏈接：