繼Baichuan-7B之后,近日,王小川旗下百川智能再次發布Baichuan-13B大模型。
據介紹,Baichuan-13B 是由百川智能繼 Baichuan-7B 之后開發的包含130億參數的開源可商用的大規模語言模型,在權威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次發布包含有預訓練 (Baichuan-13B-Base) 和對齊 (Baichuan-13B-Chat) 兩個版本。

Baichuan-13B 有如下幾個特點:
- 更大尺寸、更多數據:Baichuan-13B 在 Baichuan-7B 的基礎上進一步擴大參數量到130億,并且在高質量的語料上訓練了1.4萬億 tokens,超過 LLaMA-13B40%,是當前開源13B 尺寸下訓練數據量最多的模型。支持中英雙語,使用 ALiBi 位置編碼,上下文窗口長度為4096。
- 同時開源預訓練和對齊模型:預訓練模型是適用開發者的『 基座 』,而廣大普通用戶對有對話功能的對齊模型具有更強的需求。因此本次開源我們同時發布了對齊模型(Baichuan-13B-Chat),具有很強的對話能力,開箱即用,幾行代碼即可簡單的部署。
- 更高效的推理:為了支持更廣大用戶的使用,我們本次同時開源了 int8和 int4的量化版本,相對非量化版本在幾乎沒有效果損失的情況下大大降低了部署的機器資源門檻,可以部署在如 Nvidia3090這樣的消費級顯卡上。
- 開源免費可商用:Baichuan-13B 不僅對學術研究完全開放,開發者也僅需郵件申請并獲得官方商用許可后,即可以免費商用。
【HuggingFace】
預訓練模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Base
對話模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
【GitHub】
https://githuB.com/Baichuan-inc/Baichuan-13B
【Model Scope】
預訓練模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Base/
對話模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Chat/
