AudioPaLM是什么?
AudioPaLM 是一個(gè)大型語言模型,專為理解和生成語音而設(shè)計(jì)。它由 Google 的研究團(tuán)隊(duì)開發(fā),包括 Paul Rubenstein、Chulayuth Asawaroengchai、Duc Dung Nguyen 等人。AudioPaLM 將基于文本的和基于語音的語言模型,即 PaLM-2 和 AudioLM,融合到一個(gè)統(tǒng)一的多模態(tài)架構(gòu)中,可以處理和生成文本和語音。這種模型的應(yīng)用包括語音識(shí)別和語音到語音的翻譯。
論文:https://huggingface.co/papers/2306.12925
演示 demo:https://google-research.github.io/seanet/audiopalm/examples/
AudioPaLM能力
AudioPaLM 繼承了 AudioLM 的能力,可以保留諸如說話者身份和語調(diào)等副語言信息,同時(shí)也繼承了只存在于大型文本語言模型(如 PaLM-2)中的語言知識(shí)。通過使用文本只讀大型語言模型的權(quán)重初始化 AudioPaLM,可以改善語音處理,成功利用預(yù)訓(xùn)練中使用的大量文本訓(xùn)練數(shù)據(jù)來輔助語音任務(wù)。
AudioPaLM 的性能顯著優(yōu)于現(xiàn)有的語音翻譯系統(tǒng),并且具有執(zhí)行許多語言的零樣本語音到文本翻譯的能力,即使在訓(xùn)練中沒有看到輸入/目標(biāo)語言組合。AudioPaLM 還展示了音頻語言模型的特性,例如根據(jù)短語音提示在語言之間轉(zhuǎn)換聲音。
