Audiobox是Meta發(fā)布的一款基于語(yǔ)音和自然語(yǔ)言提示生成音頻的先進(jìn)研究模型。通過(guò)結(jié)合語(yǔ)音輸入和文本提示,Audiobox可以輕松生成各種聲音,包括語(yǔ)音、音效和音景,從而為多種用例提供定制音頻。
Audiobox是Voicebox的繼任者,進(jìn)一步推動(dòng)了音頻生成領(lǐng)域的發(fā)展。與Voicebox相比,Audiobox具有更強(qiáng)大的可控性,用戶(hù)可以使用文本描述提示來(lái)指定語(yǔ)音和音效的風(fēng)格,這是Voicebox不支持的功能。通過(guò)同時(shí)使用語(yǔ)音輸入和文本提示,用戶(hù)可以實(shí)現(xiàn)自由形式的語(yǔ)音重塑,這在當(dāng)前的模型中尚屬首次。

這款模型的獨(dú)特之處在于,它允許用戶(hù)使用自然語(yǔ)言提示描述他們想要生成的聲音或語(yǔ)音類(lèi)型。例如,如果有人想要生成一片音景,他們可以給模型一個(gè)文本提示,如“一條奔流的河流和鳥(niǎo)兒的鳴叫”。
Audiobox不僅在語(yǔ)音生成方面表現(xiàn)出色,還在音效生成方面表現(xiàn)出色。經(jīng)過(guò)內(nèi)部測(cè)試,Audiobox在質(zhì)量和相關(guān)性方面明顯超過(guò)先前的最佳模型,并在主觀評(píng)估中以超過(guò)30%的樣式相似性?xún)?yōu)勢(shì)擊敗了Voicebox。
為了促進(jìn)領(lǐng)域的發(fā)展并確保研究的負(fù)責(zé)任性,Meta計(jì)劃邀請(qǐng)研究人員和學(xué)術(shù)機(jī)構(gòu)申請(qǐng)資金,用于Audiobox的安全和責(zé)任研究。這一舉措反映了他們對(duì)AI創(chuàng)新的關(guān)切,強(qiáng)調(diào)了與研究社區(qū)合作的重要性。
Audiobox的推出標(biāo)志著音頻生成領(lǐng)域的一項(xiàng)重要進(jìn)展,Meta希望通過(guò)這一創(chuàng)新降低音頻創(chuàng)作的門(mén)檻,使任何人都能輕松成為音頻內(nèi)容創(chuàng)作者。這對(duì)于視頻、播客、游戲等多種用例都具有潛在的影響,為未來(lái)的音頻創(chuàng)作開(kāi)辟了新的可能性。
了解更多信息:https://ai.meta.com/blog/audiobox-generating-audio-voice-natural-language-prompts/
