欧美成人三级视频网站,国产一区国产二区国产三区,青青久久av北条麻妃黑人,亚州综合一区

訊飛智文
當前位置:首頁>AI工具>AI訓練模型>Qwen2.5-1M:阿里推出的開源AI模型,支持100萬Token上下文

Qwen2.5-1M:阿里推出的開源AI模型,支持100萬Token上下文

Qwen2.5-1M是什么?

Qwen2.5-1M是阿里巴巴Qwen團隊發布的支持100萬Token上下文的開源語言模型系列,包括Qwen2.5-7B-Instruct-1MQwen2.5-14B-Instruct-1M。它們結合了基于vLLM的推理框架和稀疏注意力機制,顯著提升了處理長文本時的速度和效率。該模型在長上下文任務中表現優異,特別是在密鑰檢索等復雜任務中,超越了之前的Qwen2.5-Turbo和GPT-4o-mini。

Qwen2.5-1M:阿里推出的開源AI模型,支持100萬Token上下文

Qwen2.5-1M的主要特性

  • 大上下文支持:Qwen2.5-1M 支持最多 100 萬個 Token 的上下文長度,相較于以往版本有顯著突破,能夠處理諸如超長文本、長部署場景中的知識檢索等一系列復雜長序列任務。
  • 開源模型:發布兩個開源模型 —— Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,分別具有 70 億和 140 億參數,為開發者提供不同規模的選擇,滿足多樣的應用場景需求。
  • 推理框架優化:基于 vLLM 的推理框架完全開源,并集成了稀疏注意力方法,在處理百萬長度輸入時速度能夠提升 3~7 倍,極大地提升推理效率,降低設備的顯存需求。
  • 訓練方法改進:采用逐步擴展長度的訓練方法,在多個階段將上下文長度從 4K 擴展到 256K,有效降低訓練難度并保證模型性能。監督微調階段分兩個階段進行,既能增強長任務的性能,又保持短任務上的準確率。強化學習階段在短文本上訓練,也能很好地將人類偏好對齊性能泛化到長上下文任務中,涵蓋了訓練策略的優化。
  • 性能表現:在長上下文任務中,如 100 萬 Tokens 的大海撈針(Passkey Retrieval)任務,Qwen2.5-1M 系列模型能夠準確地從長文檔中檢索出隱藏信息,其中僅有 7B 模型出現了少量錯誤,而 14B 模型不僅擊敗了 Qwen2.5-Turbo,還在多個數據集上穩定超越 GPT-4o-mini,成為長上下文模型的優秀開源替代方案。在短文本任務上,Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M 的表現與 128K 版本相當,確保了基本能力沒有因支持長序列而受到影響,并且與 GPT-4o-mini 相比,實現了相近的性能,而上下文長度是其八倍。
  • 本地部署要求:根據顯存要求,Qwen2.5-7B-Instruct-1M 至少需要 120GB 顯存,Qwen2.5-14B-Instruct-1M 至少需要 320GB 顯存,可以通過設置減小 --max-model-len 值來減輕內存不足問題。

Qwen2.5-1M的相關資源

Qwen2.5-1M相關資源鏈接如下:

?版權聲明:如無特殊說明,本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織,在未征得本站同意時,禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則,我站將依法保留追究相關法律責任的權利。 Trae
0 條回復 A文章作者 M管理員
    暫無評論內容
error:
主站蜘蛛池模板: 务川| 屏东市| 闵行区| 都兰县| 扎囊县| 定远县| 徐汇区| 六盘水市| 仁布县| 淮北市| 泸西县| 文登市| 教育| 阳东县| 宣化县| 密山市| 潢川县| 毕节市| 和静县| 洮南市| 彭泽县| 元阳县| 巫溪县| 长宁县| 贵定县| 大英县| 彭州市| 麻城市| 桐乡市| 泰州市| 静海县| 麟游县| 鹤峰县| 长治市| 泽普县| 江西省| 科尔| 诸城市| 台北县| 开封市| 手游|