Qwen2.5-1M是什么?
Qwen2.5-1M是阿里巴巴Qwen團隊發布的支持100萬Token上下文的開源語言模型系列,包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。它們結合了基于vLLM的推理框架和稀疏注意力機制,顯著提升了處理長文本時的速度和效率。該模型在長上下文任務中表現優異,特別是在密鑰檢索等復雜任務中,超越了之前的Qwen2.5-Turbo和GPT-4o-mini。

Qwen2.5-1M的主要特性
- 大上下文支持:Qwen2.5-1M 支持最多 100 萬個 Token 的上下文長度,相較于以往版本有顯著突破,能夠處理諸如超長文本、長部署場景中的知識檢索等一系列復雜長序列任務。
- 開源模型:發布兩個開源模型 —— Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,分別具有 70 億和 140 億參數,為開發者提供不同規模的選擇,滿足多樣的應用場景需求。
- 推理框架優化:基于 vLLM 的推理框架完全開源,并集成了稀疏注意力方法,在處理百萬長度輸入時速度能夠提升 3~7 倍,極大地提升推理效率,降低設備的顯存需求。
- 訓練方法改進:采用逐步擴展長度的訓練方法,在多個階段將上下文長度從 4K 擴展到 256K,有效降低訓練難度并保證模型性能。監督微調階段分兩個階段進行,既能增強長任務的性能,又保持短任務上的準確率。強化學習階段在短文本上訓練,也能很好地將人類偏好對齊性能泛化到長上下文任務中,涵蓋了訓練策略的優化。
- 性能表現:在長上下文任務中,如 100 萬 Tokens 的大海撈針(Passkey Retrieval)任務,Qwen2.5-1M 系列模型能夠準確地從長文檔中檢索出隱藏信息,其中僅有 7B 模型出現了少量錯誤,而 14B 模型不僅擊敗了 Qwen2.5-Turbo,還在多個數據集上穩定超越 GPT-4o-mini,成為長上下文模型的優秀開源替代方案。在短文本任務上,Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 的表現與 128K 版本相當,確保了基本能力沒有因支持長序列而受到影響,并且與 GPT-4o-mini 相比,實現了相近的性能,而上下文長度是其八倍。
- 本地部署要求:根據顯存要求,Qwen2.5-7B-Instruct-1M 至少需要 120GB 顯存,Qwen2.5-14B-Instruct-1M 至少需要 320GB 顯存,可以通過設置減小
--max-model-len
值來減輕內存不足問題。
Qwen2.5-1M的相關資源
Qwen2.5-1M相關資源鏈接如下:
- 項目官網:https://qwenlm.github.io/zh/blog/qwen2.5-1m/
- 在線demo:https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo
- 模型地址:https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
- 技術報告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。
