欧美成人三级视频网站,国产一区国产二区国产三区,青青久久av北条麻妃黑人,亚州综合一区

訊飛智文
當前位置:首頁>AI工具>AI訓練模型>Kimi-Audio:Kimi開源的通用音頻基礎模型,支持語音識別、音頻理解等多種任務

Kimi-Audio:Kimi開源的通用音頻基礎模型,支持語音識別、音頻理解等多種任務

Kimi-Audio是什么?

Kimi-Audio 是由kimi開源的通用音頻基礎模型,支持語音識別、音頻理解、音頻轉文本和語音對話等多種任務。它采用集成式架構,包括音頻分詞器、音頻大模型和音頻去分詞器,能夠高效處理多種音頻任務。該模型使用了約1300萬小時的多語言、多場景音頻數(shù)據進行預訓練,并通過監(jiān)督微調進一步提升性能。在十多項基準測試中,Kimi-Audio 總體性能排名第一,尤其在自動語音識別、音頻理解、音頻到文本聊天和語音對話等任務中表現(xiàn)出色。

Kimi-Audio 的模型架構

為實現(xiàn) SOTA 級別的通用音頻建模, Kimi-Audio 采用了集成式架構設計,包括三個核心組件 —— 音頻分詞器(Audio Tokenizer)、音頻大模型(Audio LLM)、音頻去分詞器(Audio Detokenizer)。

Kimi-Audio:Kimi開源的通用音頻基礎模型,支持語音識別、音頻理解等多種任務
  • 音頻分詞器(Audio Tokenizer):將輸入音頻轉化為離散語義 token 和連續(xù)聲學向量,幀率為 12.5Hz,結合語義壓縮表示與聲學細節(jié)。
  • 音頻大模型(Audio LLM):基于共享 Transformer 層,處理多模態(tài)輸入,后期分為文本和音頻生成的兩個并行輸出頭。
  • 音頻去分詞器(Audio Detokenizer):使用流匹配方法,將離散語義 token 轉化為連貫音頻波形,生成高質量語音。

Kimi-Audio的模型表現(xiàn)

Kimi-Audio 在十多個音頻基準測試中實現(xiàn)了最先進的 (SOTA) 性能,總體性能排名第一。

在 LibriSpeech ASR 測試上,Kimi-Audio 的 WER 僅 1.28%,顯著優(yōu)于其他模型。VocalSound 測試上,Kimi 達 94.85%,接近滿分 。MMAU 任務中,Kimi-Audio 摘得兩項最高分;VoiceBench 設計評測對話助手的語音理解能力,Kimi-Audio 在所有子任務中得分最高,包括一項滿分。

Kimi-Audio:Kimi開源的通用音頻基礎模型,支持語音識別、音頻理解等多種任務

Kimi-Audio的項目信息

目前,模型代碼、模型檢查點以及評估工具包已經在 Github 上開源。

?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發(fā)布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。 Trae
0 條回復 A文章作者 M管理員
    暫無評論內容
error:
主站蜘蛛池模板: 长春市| 土默特左旗| 右玉县| 教育| 合江县| 搜索| 平罗县| 兴国县| 乌拉特前旗| 江阴市| 凤翔县| 界首市| 囊谦县| 邳州市| 金乡县| 长泰县| 华坪县| 应用必备| 河北省| 保德县| 邮箱| 天全县| 施秉县| 屏边| 年辖:市辖区| 漠河县| 阳城县| 田阳县| 沾益县| 涟水县| 沙田区| 平邑县| 浮山县| 安义县| 定边县| 安国市| 神农架林区| 西乌珠穆沁旗| 洮南市| 苏尼特左旗| 师宗县|