周二,Meta?宣布推出?SeamlessM4T,一種用于語音和文本翻譯的多模態人工智能模型。作為一種能夠處理文本和音頻的神經網絡,它可以執行文本到語音、語音到文本、語音到語音和文本到文本的翻譯,支持「最多 100 種語言」,Meta 表示,它的目標是幫助說不同語言的人更有效地交流。

繼續 Meta 相對開放的人工智能方法,它正在以研究許可(CC BY-NC 4.0)的形式發布 SeamlessM4T,允許開發者在此基礎上進行開發。他們還發布了 SeamlessAlign,Meta 稱之為「迄今最大的開放式多模式翻譯數據集,總共挖掘了 270,000 個小時的語音和文本對齊」。這將有可能啟動其他研究人員訓練未來翻譯人工智能模型的過程。
在 Meta 的博客中宣傳的 SeamlessM4T 的特性中,該公司表示該模型能夠執行語音識別(將語音轉換為文本)、語音到文本翻譯(將口語音頻翻譯為不同語言的文本)、語音到語音翻譯(提供語音,輸出翻譯后的語音)以及文本到文本翻譯(類似于 Google 翻譯的功能)和文本到語音翻譯(提供文本,將其翻譯并以另一種語言呈現出來)。每個文本翻譯功能支持將近 100 種語言,語音輸出功能支持大約 36 種輸出語言。
在 SeamlessM4T 的公告中,Meta 提到了 Babel Fish, 一種虛構的魚,來自道格拉斯·亞當斯經典的科幻小說系列《銀河系漫游指南》,它可以立即翻譯任何口頭語言:
構建一個像銀河系漫游指南中虛構的 Babel Fish 一樣的通用語言翻譯器是具有挑戰性的,因為現有的語音到語音和語音到文本系統只覆蓋了世界上語言的一小部分。但我們相信,我們今天宣布的工作在這一旅程中是向前邁出的重要一步。
它們是如何訓練的?根據 Seamless4MT 研究報告,Meta 的研究人員「創建了一個多模式語料庫,其中含有自動對齊的超過 470,000 個小時的語音翻譯,稱為 SeamlessAlign」(在前面已經提及)。然后,他們「使用人工標注和偽標注數據對這個語料庫的一個子集進行了篩選,總計 406,000 個小時」。
與往常一樣,Meta 對其訓練數據的來源有些含糊。文本數據來自「與 NLLB 中部署的相同數據集」(從維基百科、新聞來源、腳本演講和其他來源中提取的句子組成,由專業人員翻譯)。根據研究論文,SeamlessM4T 的語音數據來自「400 萬小時的原始音頻,來源于一個公開可用的網絡數據庫」,其中 100 萬小時是英語。Meta 沒有具體說明使用哪個存儲庫或音頻剪輯的出處。
Meta 遠非第一家提供機器學習翻譯工具的人工智能公司。Google 翻譯自 2006 年以來就使用機器學習技術,大型語言模型(如 GPT-4)以其在語言之間的翻譯能力而聞名。但是,在音頻處理方面,最近這項技術變得非常熱門。在九月份,OpenAI 發布了自己的開源語音到文本翻譯模型,名為 Whisper,它可以在音頻中識別語音并將其翻譯成文本。
SeamlessM4T 擴展了多語言翻譯的趨勢,并且?Meta 表示 SeamlessM4T 的「單一系統方法」——一個單一的人工智能模型而不是多個模型組合在一條鏈上(類似于 Meta 之前的一些音頻處理技術)——減少了錯誤,增加了翻譯的效率。
關于 SeamlessM4T 如何運作的更多技術細節可以在 Meta 的網站上獲得,其代碼和權重(實際訓練的神經網絡文件)可以在?Hugging Face 上找到。
