中國首個音樂 SOTA 模型天工 SkyMusic 音樂大模型開啟公測

AI資訊
來源：IT之家
24年4月17日
編輯

AIHubAI布道師

4 月 17 日消息，昆侖萬維今日宣布，天工 3.0 大模型性能提升顯著，旗下的天工 SkyMusic 音樂大模型也在今日面向全社會開放公測。

天工 3.0 擁有 4000 億參數，超越了 3140 億參數的 Grok-1，是全球最大的開源 MoE 大模型。天工 3.0 在語義理解、邏輯推理、通用性、泛化性、不確定性知識、學習能力等領域性能提升顯著，數學 / 推理 / 代碼 / 文創能力提升超過 30%。天工 3.0 新增了多輪搜索與綜合工具調用、圖表繪制、研究模式、增強模式、改圖擴圖等多項 AI 能力。

中國首個音樂 SOTA 模型天工 SkyMusic 音樂大模型開啟公測 — ▲?天工 3.0 模型參數超越 Grok-1

天工 3.0 旗下的天工 SkyMusic 音樂大模型也在今日面向全社會開放公測。昆侖萬維表示天工 SkyMusic 在人聲 & BGM 音質、人聲自然度、發音可懂度等領域“顯著”領先對手，綜合性能超越 Suno V3，取得音樂大模型 SOTA（State of the art model，即在當前研究中表現最好的模型）。

天工?SkyMusic?采用音樂音頻領域類?Sora?模型架構，Large-scale Transformer?負責譜曲，來學習?Music Patches?的上下文依賴關系，同時完成音樂可控性，Diffusion Transformer?負責演唱，通過?LDM?讓?Music Patches?被還原成高質量音頻，使其能夠支持生成?80?秒?44100Hz?采樣率雙聲道立體聲歌曲。

據介紹，天工?SkyMusic?具備以下特點：

高質量?AI?音樂：生成?80?秒?44100Hz?采樣率雙聲道立體聲?AI?歌曲

人聲“以假亂真”：中文水平極為優秀，發音清晰無異響

歌詞段落控制：生成的歌曲可以明確分辨出不同歌詞段落的情緒變化

多種音樂風格：支持說唱?/?民謠?/?放克?/?古風?/?電子等

音樂智能表達：能夠學習如顫音、歌劇、吟唱、男女對唱，自動和聲等多種歌唱技巧

參考音樂生成：用戶上傳自有參考音樂，生成風格、唱腔類似的歌曲

方言歌曲生成：支持粵語、成都話、北京話等眾多方言

昆侖萬維是中國互聯網平臺出海企業，深耕海外市場十余載，業務覆蓋包括信息分發、社交、?娛樂、元宇宙、游戲及?AIGC?等多個領域，旗下包括?AGI?與?AIGC?、海外信息分發與元宇宙、投資等三大業務板塊，市場遍及中國、東南亞、非洲、中東、北美、南美、歐洲等地。截至目前，全球平均月活躍用戶近?4?億，海外收入占比達?84%。