Audiobox-Meta推出的新一代音頻生成模型

AI訓(xùn)練模型
23年12月1日
編輯

AIHubAI布道師

Audiobox是Meta發(fā)布的一款基于語(yǔ)音和自然語(yǔ)言提示生成音頻的先進(jìn)研究模型。通過(guò)結(jié)合語(yǔ)音輸入和文本提示，Audiobox可以輕松生成各種聲音，包括語(yǔ)音、音效和音景，從而為多種用例提供定制音頻。

Audiobox是Voicebox的繼任者，進(jìn)一步推動(dòng)了音頻生成領(lǐng)域的發(fā)展。與Voicebox相比，Audiobox具有更強(qiáng)大的可控性，用戶(hù)可以使用文本描述提示來(lái)指定語(yǔ)音和音效的風(fēng)格，這是Voicebox不支持的功能。通過(guò)同時(shí)使用語(yǔ)音輸入和文本提示，用戶(hù)可以實(shí)現(xiàn)自由形式的語(yǔ)音重塑，這在當(dāng)前的模型中尚屬首次。

這款模型的獨(dú)特之處在于，它允許用戶(hù)使用自然語(yǔ)言提示描述他們想要生成的聲音或語(yǔ)音類(lèi)型。例如，如果有人想要生成一片音景，他們可以給模型一個(gè)文本提示，如“一條奔流的河流和鳥(niǎo)兒的鳴叫”。

Audiobox不僅在語(yǔ)音生成方面表現(xiàn)出色，還在音效生成方面表現(xiàn)出色。經(jīng)過(guò)內(nèi)部測(cè)試，Audiobox在質(zhì)量和相關(guān)性方面明顯超過(guò)先前的最佳模型，并在主觀評(píng)估中以超過(guò)30%的樣式相似性?xún)?yōu)勢(shì)擊敗了Voicebox。

為了促進(jìn)領(lǐng)域的發(fā)展并確保研究的負(fù)責(zé)任性，Meta計(jì)劃邀請(qǐng)研究人員和學(xué)術(shù)機(jī)構(gòu)申請(qǐng)資金，用于Audiobox的安全和責(zé)任研究。這一舉措反映了他們對(duì)AI創(chuàng)新的關(guān)切，強(qiáng)調(diào)了與研究社區(qū)合作的重要性。

Audiobox的推出標(biāo)志著音頻生成領(lǐng)域的一項(xiàng)重要進(jìn)展，Meta希望通過(guò)這一創(chuàng)新降低音頻創(chuàng)作的門(mén)檻，使任何人都能輕松成為音頻內(nèi)容創(chuàng)作者。這對(duì)于視頻、播客、游戲等多種用例都具有潛在的影響，為未來(lái)的音頻創(chuàng)作開(kāi)辟了新的可能性。

?版權(quán)聲明：如無(wú)特殊說(shuō)明，本站所有內(nèi)容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個(gè)人或組織，在未征得本站同意時(shí)，禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書(shū)籍等各類(lèi)媒體平臺(tái)。否則，我站將依法保留追究相關(guān)法律責(zé)任的權(quán)利。