Moonlight - 月之暗面推出的開源MOE模型

AI訓練模型
來源：AIHub
2月23日
編輯

AIHubAI布道師

Moonlight是什么？

Moonlight 是由月之暗面公司推出的開源 MoE（Mixture of Experts）語言模型，，使用 Muon 優化器訓練，激活參數僅需 3B。該模型在訓練效率和性能上表現出色，訓練 FLOPs 明顯減少，同時支持 64K 上下文處理能力。它適用于多種自然語言處理任務，包括語言理解和生成。

Moonlight的主要特性

高效計算與稀疏激活：Moonlight 采用 MoE 架構，通過僅激活部分專家網絡來處理輸入，顯著降低了計算成本和推理時間。這種稀疏激活機制使得模型在處理復雜任務時更加高效。
大規模訓練優化：Moonlight 使用 Muon 優化器進行訓練，該優化器通過矩陣化的更新規則和奇異值分解（SVD）技術，提升了訓練效率和穩定性。與 AdamW 相比，Muon 在訓練效率上提升了約 2 倍。
高上下文長度支持：Moonlight 支持較長的上下文長度（如 32k tokens），使其能夠處理更復雜的語言任務。
靈活的專家配置：模型包含多個專家網絡，每個專家專注于不同的任務，通過路由器選擇性地激活相關專家，從而實現高效的任務處理。
開源與可擴展性：Moonlight 模型開源，支持多種應用場景，包括自然語言處理、文本生成和對話系統。