近日,MoonshotAI 開源了其最新音頻基礎模型 Kimi-Audio,這一模型憑借其卓越的性能和創新架構,有望在音頻處理領域掀起一場變革。

架構革新
Kimi-Audio 采用了集成式架構,包含音頻分詞器、音頻大模型和音頻去分詞器三大核心組件。音頻分詞器將輸入音頻轉化為離散語義 token 和連續聲學向量,音頻大模型基于 Transformer 架構處理多模態輸入,而音頻去分詞器則通過流匹配技術生成高質量音頻。這一架構設計使其能夠高效處理語音識別、音頻理解、音頻轉文本和語音對話等多種任務。
性能卓越
在多項基準測試中,Kimi-Audio 展現出了強大的性能。例如,在 LibriSpeech 測試中,其詞錯誤率(WER)僅為 1.28%,顯著優于其他模型。此外,在音頻理解、音頻到文本聊天和語音對話等任務中,Kimi-Audio 均取得了領先的性能表現。
目前,Kimi-Audio 的模型代碼、檢查點和評估工具包已在 GitHub 上開源,為開發者提供了強大的工具,助力音頻處理技術的進一步發展。開源鏈接為:https://github.com/MoonshotAI/Kimi-Audio。
Kimi-Audio 的開源,不僅為音頻處理領域帶來了新的技術突破,也為開發者提供了更多創新的可能性。
