MiniMax-01：MiniMax推出的開源AI模型，400萬超長上下文，性能比肩GPT-4o

AIHubAI布道師

MiniMax-01是什么？

MiniMax-01是由MiniMax推出的開源大語言模型系列，包括MiniMax-Text-01和MiniMax-VL-01。這些模型專為處理長上下文而設計，能夠處理長達400萬個token的上下文窗口。其核心創新在于閃電注意力（lightning attention）機制，這是一種線性注意力的變體，通過優化的計算策略，將傳統的二次計算復雜度降低到線性，從而顯著提高了處理長序列的效率。

MiniMax-01：MiniMax推出的開源AI模型，400萬超長上下文，性能比肩GPT-4o

MiniMax-01的功能特性

長上下文處理能力：MiniMax-01系列模型能夠處理長達4百萬個token的上下文窗口，遠超傳統模型的32K到256K tokens限制。
高效的計算架構：采用混合專家（Mixture of Experts, MoE）架構，包含32個專家和4560億總參數，通過優化的并行策略和高效的計算-通信重疊技術，實現了大規模參數模型的高效訓練和推理。
閃電注意力機制：通過“右乘積核技巧”和分塊技術，將注意力計算的復雜度從二次降低到線性，顯著提高了長序列處理的效率。
多任務能力：MiniMax-Text-01在多種語言任務中表現出色，包括知識問答、復雜推理、數學、編碼和視覺-語言理解等。MiniMax-VL-01則通過繼續訓練，集成了5120億視覺-語言token，進一步提升了視覺理解能力。
開源與API支持：MiniMax-01系列模型的代碼已公開發布，同時提供了成本效益的API，方便開發者和研究人員使用和進一步開發。