
MagicAvatar由字節(jié)跳動開發(fā),是一款主打多模態(tài)輸入生成的多模態(tài)框架,可以將文本、視頻和音頻等不同輸入方式轉(zhuǎn)化為動作信號,從而生成和動畫化一個虛擬人物。
了解更多:https://magic-avatar.github.io/
具體來說,通過簡單的文本提示就能創(chuàng)建虛擬人物,也可以根據(jù)源視頻生成跟隨給定動作生產(chǎn),還能對特定主題的虛擬人物進行動畫化。
比如,輸入“一個在火山里踢踏舞的宇航員”就能生成一個相應(yīng)的虛擬形象。

或者直接提供一個源視頻,然后AI就會創(chuàng)建一個跟隨給定動作的形象。

根據(jù)字節(jié)團隊的解釋,相比以往直接從多模態(tài)輸入生成視頻,MagicAvatar獨特之處主要是將視頻生成明確分解為兩個階段。
第一階段,主要將多模態(tài)輸入(文本、視頻、語音等)轉(zhuǎn)換為表示運動的信號,如人體姿態(tài)、深度信息、DensePose等。第二階段,則是將第一階段生成的運動信號與外觀描述一起輸入到模型,然后生成視頻。
