AudioPaLM是什么?
AudioPaLM 是一個大型語言模型,專為理解和生成語音而設計。它由 Google 的研究團隊開發,包括 Paul Rubenstein、Chulayuth Asawaroengchai、Duc Dung Nguyen 等人。AudioPaLM 將基于文本的和基于語音的語言模型,即 PaLM-2 和 AudioLM,融合到一個統一的多模態架構中,可以處理和生成文本和語音。這種模型的應用包括語音識別和語音到語音的翻譯。
論文:https://huggingface.co/papers/2306.12925
演示 demo:https://google-research.github.io/seanet/audiopalm/examples/
AudioPaLM能力
AudioPaLM 繼承了 AudioLM 的能力,可以保留諸如說話者身份和語調等副語言信息,同時也繼承了只存在于大型文本語言模型(如 PaLM-2)中的語言知識。通過使用文本只讀大型語言模型的權重初始化 AudioPaLM,可以改善語音處理,成功利用預訓練中使用的大量文本訓練數據來輔助語音任務。
AudioPaLM 的性能顯著優于現有的語音翻譯系統,并且具有執行許多語言的零樣本語音到文本翻譯的能力,即使在訓練中沒有看到輸入/目標語言組合。AudioPaLM 還展示了音頻語言模型的特性,例如根據短語音提示在語言之間轉換聲音。
?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。

