日韩亚洲精品视频,久久精品ww人人做人人爽,亚洲免费成人av

Qwen2是什么？

Qwen2是阿里云通義千問團隊開源的新一代大語言模型，推出了5個尺寸的預訓練和指令微調模型，在中文英語的基礎上，訓練數據中增加了27種語言相關的高質量數據；代碼和數學能力顯著提升；增大了上下文長度支持，最高達到128K?tokens（Qwen2-72B-Instruct）。多個評測基準上的領先表現。現已在Hugging Face和ModelScope開源。

Qwen2系列包含5個尺寸的預訓練和指令微調模型，其中包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。如下表所示:

模型	Qwen2-0.5B	Qwen2-1.5B	Qwen2-7B	Qwen2-57B-A14B	Qwen2-72B
參數量	0.49B	1.54B	7.07B	57.41B	72.71B
非Embedding參數量	0.35B	1.31B	5.98B	56.32B	70.21B
GQA	True	True	True	True	True
Tie Embedding	True	True	False	False	False
上下文長度	32K	32K	128K	64K	128K

Qwen2的亮點特性

1、代碼 & 數學：在代碼方面，Qwen2實現了在多種編程語言上的顯著效果提升。而在數學方面，大規模且高質量的數據幫助Qwen2-72B-Instruct實現了數學解題能力的飛升。

2、長文本處理：Qwen2-7B-Instruct幾乎完美地處理長達128k的上下文；Qwen2-57B-A14B-Instruct則能處理64k的上下文長度；而該系列中的兩個較小模型則支持32k的上下文長度。

3、安全方面：通過顯著性檢驗（P值），Qwen2-72B-Instruct模型在安全性方面與GPT-4的表現相當，并且顯著優于Mistral-8x22B模型。

Qwen2的性能評測

相比Qwen1.5，Qwen2在大規模模型實現了非常大幅度的效果提升。在針對預訓練語言模型的評估中，對比當前最優的開源模型，Qwen2-72B在包括自然語言理解、知識、代碼、數學及多語言等多項能力上均顯著超越當前領先的模型，如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。