Qwen2.5-1M：阿里推出的開源AI模型，支持100萬Token上下文

AIHubAI布道師

Qwen2.5-1M是什么？

Qwen2.5-1M是阿里巴巴Qwen團隊發布的支持100萬Token上下文的開源語言模型系列，包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。它們結合了基于vLLM的推理框架和稀疏注意力機制，顯著提升了處理長文本時的速度和效率。該模型在長上下文任務中表現優異，特別是在密鑰檢索等復雜任務中，超越了之前的Qwen2.5-Turbo和GPT-4o-mini。

Qwen2.5-1M的主要特性

大上下文支持：Qwen2.5-1M 支持最多 100 萬個 Token 的上下文長度，相較于以往版本有顯著突破，能夠處理諸如超長文本、長部署場景中的知識檢索等一系列復雜長序列任務。
開源模型：發布兩個開源模型 —— Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M，分別具有 70 億和 140 億參數，為開發者提供不同規模的選擇，滿足多樣的應用場景需求。
推理框架優化：基于 vLLM 的推理框架完全開源，并集成了稀疏注意力方法，在處理百萬長度輸入時速度能夠提升 3~7 倍，極大地提升推理效率，降低設備的顯存需求。
訓練方法改進：采用逐步擴展長度的訓練方法，在多個階段將上下文長度從 4K 擴展到 256K，有效降低訓練難度并保證模型性能。監督微調階段分兩個階段進行，既能增強長任務的性能，又保持短任務上的準確率。強化學習階段在短文本上訓練，也能很好地將人類偏好對齊性能泛化到長上下文任務中，涵蓋了訓練策略的優化。
性能表現：在長上下文任務中，如 100 萬 Tokens 的大海撈針（Passkey Retrieval）任務，Qwen2.5-1M 系列模型能夠準確地從長文檔中檢索出隱藏信息，其中僅有 7B 模型出現了少量錯誤，而 14B 模型不僅擊敗了 Qwen2.5-Turbo，還在多個數據集上穩定超越 GPT-4o-mini，成為長上下文模型的優秀開源替代方案。在短文本任務上，Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 的表現與 128K 版本相當，確保了基本能力沒有因支持長序列而受到影響，并且與 GPT-4o-mini 相比，實現了相近的性能，而上下文長度是其八倍。
本地部署要求：根據顯存要求，Qwen2.5-7B-Instruct-1M 至少需要 120GB 顯存，Qwen2.5-14B-Instruct-1M 至少需要 320GB 顯存，可以通過設置減小 --max-model-len 值來減輕內存不足問題。