Kimi-Audio：Kimi開源的通用音頻基礎模型，支持語音識別、音頻理解等多種任務

AIHubAI布道師

Kimi-Audio是什么？

Kimi-Audio 是由kimi開源的通用音頻基礎模型，支持語音識別、音頻理解、音頻轉文本和語音對話等多種任務。它采用集成式架構，包括音頻分詞器、音頻大模型和音頻去分詞器，能夠高效處理多種音頻任務。該模型使用了約1300萬小時的多語言、多場景音頻數(shù)據進行預訓練，并通過監(jiān)督微調進一步提升性能。在十多項基準測試中，Kimi-Audio 總體性能排名第一，尤其在自動語音識別、音頻理解、音頻到文本聊天和語音對話等任務中表現(xiàn)出色。

Kimi-Audio 的模型架構

為實現(xiàn) SOTA 級別的通用音頻建模， Kimi-Audio 采用了集成式架構設計，包括三個核心組件 —— 音頻分詞器（Audio Tokenizer）、音頻大模型（Audio LLM）、音頻去分詞器（Audio Detokenizer）。

Kimi-Audio：Kimi開源的通用音頻基礎模型，支持語音識別、音頻理解等多種任務

音頻分詞器（Audio Tokenizer）：將輸入音頻轉化為離散語義 token 和連續(xù)聲學向量，幀率為 12.5Hz，結合語義壓縮表示與聲學細節(jié)。
音頻大模型（Audio LLM）：基于共享 Transformer 層，處理多模態(tài)輸入，后期分為文本和音頻生成的兩個并行輸出頭。
音頻去分詞器（Audio Detokenizer）：使用流匹配方法，將離散語義 token 轉化為連貫音頻波形，生成高質量語音。

Kimi-Audio的模型表現(xiàn)

Kimi-Audio 在十多個音頻基準測試中實現(xiàn)了最先進的 (SOTA) 性能，總體性能排名第一。

在 LibriSpeech ASR 測試上，Kimi-Audio 的 WER 僅 1.28%，顯著優(yōu)于其他模型。VocalSound 測試上，Kimi 達 94.85%，接近滿分。MMAU 任務中，Kimi-Audio 摘得兩項最高分；VoiceBench 設計評測對話助手的語音理解能力，Kimi-Audio 在所有子任務中得分最高，包括一項滿分。