Audiobox是Meta發布的一款基于語音和自然語言提示生成音頻的先進研究模型。通過結合語音輸入和文本提示,Audiobox可以輕松生成各種聲音,包括語音、音效和音景,從而為多種用例提供定制音頻。
Audiobox是Voicebox的繼任者,進一步推動了音頻生成領域的發展。與Voicebox相比,Audiobox具有更強大的可控性,用戶可以使用文本描述提示來指定語音和音效的風格,這是Voicebox不支持的功能。通過同時使用語音輸入和文本提示,用戶可以實現自由形式的語音重塑,這在當前的模型中尚屬首次。

這款模型的獨特之處在于,它允許用戶使用自然語言提示描述他們想要生成的聲音或語音類型。例如,如果有人想要生成一片音景,他們可以給模型一個文本提示,如“一條奔流的河流和鳥兒的鳴叫”。
Audiobox不僅在語音生成方面表現出色,還在音效生成方面表現出色。經過內部測試,Audiobox在質量和相關性方面明顯超過先前的最佳模型,并在主觀評估中以超過30%的樣式相似性優勢擊敗了Voicebox。
為了促進領域的發展并確保研究的負責任性,Meta計劃邀請研究人員和學術機構申請資金,用于Audiobox的安全和責任研究。這一舉措反映了他們對AI創新的關切,強調了與研究社區合作的重要性。
Audiobox的推出標志著音頻生成領域的一項重要進展,Meta希望通過這一創新降低音頻創作的門檻,使任何人都能輕松成為音頻內容創作者。這對于視頻、播客、游戲等多種用例都具有潛在的影響,為未來的音頻創作開辟了新的可能性。
了解更多信息:https://ai.meta.com/blog/audiobox-generating-audio-voice-natural-language-prompts/
?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。

