Voicebox是什么?
Voicebox 是由 Meta AI 研究團隊開發的一款領先的語音生成模型。Voicebox 能夠在六種語言中合成語音,消除瞬態噪聲,編輯內容,在語言之間轉移音頻風格,并生成多樣的語音樣本。此外,它生成語音的速度比最先進的自回歸模型快 20 倍。
官網:https://voicebox.metademolab.com/
產品功能
Voicebox 是一個非自回歸的流匹配模型,訓練用于在給定音頻上下文和文本的情況下填充語音。我們在 60K 小時的數據上訓練了一個僅英語的 Voicebox,并在覆蓋六種語言(英語、法語、德語、西班牙語、波蘭語和葡萄牙語)的 50K 小時的數據上訓練了一個多語言版本。
Voicebox 可以通過上下文學習來執行沒有明確訓練的任務。它比自回歸模型更靈活,因為它可以根據過去和未來的上下文進行條件化。我們展示了 Voicebox 可以用于單語和跨語言的零射擊文本到語音合成、風格轉換、瞬態噪聲去除、內容編輯和多樣性樣本生成。
使用場景
- 瞬態噪聲去除:在錄制語音時被門鈴或狗叫聲打斷?現在不再需要重新錄制語音了。Voicebox 可以像魔術橡皮擦一樣用于去除瞬態噪聲,通過重新生成噪聲污染的語音。
- 內容編輯:Voicebox 也可以幫助糾正錯誤的單詞,而無需讓說話者重新錄制音頻。
- 零射擊文本到語音合成:通過上下文學習,Voicebox 可以通過將所需風格的參考音頻和要合成的文本作為輸入來合成語音。它產生的語音在各個方面都與參考音頻保持一致,包括聲音、背景噪聲和說話風格。
- 跨語言風格轉換:Voicebox 不僅可以使用英語音頻提示生成英語語音,還可以跨語言轉換風格。
