1 月 29 日,百川智能發布超千億參數的大模型 Baichuan 3,除了在多個通用能力測試中表現出色,尤其是中文任務超越 GPT-4 以外,這次 Baichuan 3 在專業性要求極高的 MCMLE、MedExam、CMExam 等權威醫療評測上的中文效果也超過了 GPT-4,是中文醫療任務表現最佳的大模型。 Baichuan 3 還突破「迭代式強化學習」技術,進一步提升了語義理解和生成能力,在詩詞創作的格式、韻律、表意等方面表現優異,領先于其他大模型。
百川智能官網:https://www.baichuan-ai.com/
01 基礎能力全面提升,多項權威評測中文任務成績超越 GPT-4
Baichuan 3 在多個英文評測中表現出色,達到接近 GPT-4 的水平。而在 CMMLU、GAOKAO 等多個中文評測榜單上,更是超越 GPT-4 展現了其在中文任務上的優勢。 此外,在 MT-Bench、IFEval 等對齊榜單的評測中,Baichuan 3 超越了 GPT-3.5、Claude 等大模型,處于行業領先水平。
與百億、幾百億級別參數模型訓練不同,超千億參數模型在訓練過程中對高質量數據,訓練穩定性、訓練效率的要求都高出幾個量級。為更好解決相關問題,百川智能在訓練過程中針對性地提出了「動態數據選擇」、「重要度保持」以及「異步 CheckPoint 存儲」等多種創新技術手段及方案,有效提升了 Baicuan 3 的各項能力。
高質量數據方面,傳統的數據篩選依靠人工定義,通過濾重篩選、質量打分、Textbook 篩選等方法過濾數據。而百川智能認為,數據的優化和采樣是一個動態過程,應該隨著模型本身的訓練過程優化,而非單純依靠人工先驗進行數據的采樣和篩選。為全面提升數據質量,百川智能設計了一套基于因果采樣的動態訓練數據選擇方案,該方案能夠在模型訓練過程中動態地選擇訓練數據,極大提升數據質量。
訓練穩定性方面,超千億參數的模型由于參數量巨大,訓練過程中經常會出現梯度爆炸、loss 跑飛、模型不收斂等問題。對此,百川智能提出了「重要度保持」(Salience-Consistency) 的漸進式初始化方法,用以保證模型訓練初期的穩定性。并且優化了模型訓練過程的監控方案,在梯度、Loss 等指標上引入了參數「有效秩」的方法來提早發現訓練過程中的問題,極大加速對訓練問題的定位,確保了最后模型的收斂效果。此外,為了確保在數千張 GPU 上高效且穩定地訓練超千億參數模型,百川智能同步優化了模型的訓練穩定性和訓練框架,并采用「異步 CheckPoint 存儲」機制,可以無性能損失地加大存儲的頻率,減少機器故障對訓練任務的影響,使 Baichuan 3 的穩定訓練時間達到一個月以上,故障恢復時間不超過 10 分鐘。
訓練效率方面,百川智能針對超千億參數模型的并行訓練問題進行了一系列優化,如高度優化的 RoPE, SwiGLU 計算算子;在數據并行中實現參數通信與計算的重疊,以及在序列并行中實現激活值通信與計算的重疊,從而有效降低了通信時間的比重;在流水并行中引入了將激活值卸載至 CPU 的技術,解決了流水并行中顯存占用不均的問題,減少了流水并行的分段數量并顯著降低了空泡率。通過這些技術創新,Baichuan 3 的訓練框架在性能方面相比業界主流框架提升超過 30%。 ?
02 醫療數據集 Token 數超千億,醫療能力逼近 GPT-4
大模型醫療背后蘊含著巨大的社會價值和產業價值,從疾病的診斷、治療到患者護理與藥物研發,大模型不僅能夠幫助醫生提高診療效率和質量,幫助患者獲得更好的服務和體驗,還能幫助社會降低醫療成本和風險,助力醫療資源實現普惠和平權。
并且醫療問題專業性強、知識更新速度快、準確性要求高、個體差異大,能充體現大模型的各項能力,被百川智能稱為「大模型皇冠上的明珠」。
因此,諸如 OpenAI、谷歌等頭部大模型企業都將醫療作為模型的重點訓練方向和性能評價的重要體系。ChatGPT 早在 2023 年 2 月便已通過了美國醫學執照考試(USMLE),顯示出其在醫學領域的強大能力。而谷歌對醫療領域的重視更甚,基于 PaLM 模型打造了醫療大模型 Med-PaLM,迭代后的 Med-PaLM 2 在醫學考試 MedQA 中的成績超過 80 分,達到專家水平。
在醫療領域,大模型的全能特性發揮著至關重要的作用。
首先,其多模態學習能力能夠整合文本、影像、聲音等多種類型的醫療數據,提供更全面、準確的分析和診斷。
其次,大模型的深層推理能力有助于復雜醫療決策的制定。
此外,穩定的性能和知識更新能力確保了醫療建議的可靠性和時效性。同時,大模型的語言理解和生成能力使其能夠處理專業術語和復雜句式。
最后,模式識別與學習能力在大模型中的應用,使其能夠從復雜的醫療數據中學習和識別出重要的模式和特征。所以,大模型想要在醫療領域擁有良好效果并不容易,既需要豐富的醫療知識、合適的 Prompt,還需要模型本身具備過硬的邏輯推理能力。
為了給 Baichuan3 注入豐富的醫療知識,百川智能在模型預訓練階段構建了超過千億 Token 的醫療數據集,包括醫學研究文獻、真實的電子病歷資料、醫學領域的專業書籍和知識庫資源、針對醫療問題的問答資料等。該數據集涵蓋了從理論到實際操作,從基礎理論到臨床應用等各個方面的醫學知識,確保了模型在醫療領域的專業度和知識深度。
針對醫療知識激發的問題,百川智能在推理階段針對 Prompt 做了系統性的研究和調優,通過準確的描述任務、恰當的示例樣本選擇,讓模型輸出更加準確以及符合邏輯的推理步驟,最終不僅提升了 Baichuan 3 在多項醫療考試上的成績,并且在真實的醫療問答場景下也能給用戶提供更精準、細致的反饋。
邏輯推理方面,Baichuan 3 在數學和代碼等多個權威評測上接近 GPT-4 的優異成績,已經充分證明了其強大的基礎邏輯推理能力。在擁有豐富高質量專業醫療知識,并能通過調優后的 Prompt 對這些知識進行充分激發的基礎上,結合超千億參數的推理能力,Baichuan 3 在醫療領域的任務效果提升顯著,在各類中英文醫療測試中的成績提升了 2 到 14 個百分點。
Baichuan 3 在多個權威醫療評測任務中表現優異,不僅 MCMLE、MedExam、CMExam 等中文醫療任務的評測成績超過 GPT-4,USMLE、MedMCQA 等英文醫療任務的評測成績也逼近了 GPT-4 的水準,是醫療能力最強的中文大模型。
03 突破「迭代式強化學習」技術,創作精準度大幅提升
語義理解和文本生成,作為大模型最基礎的底層能力,是其他能力的支柱。為提升這兩項能力,業界進行了大量探索和實踐,OpenAI、Google 以及 Anthropic 等引入的 RLHF(基于人類反饋的強化學習) 和 RLAIF(基于 AI 反饋的強化學習) 便是其中的關鍵技術。
基于強化學習對齊后的模型不僅可以更精準地理解用戶指令,尤其是多約束以及多輪對話下的指令,還能進一步提升生成內容的質量。但是在大模型中充分發揮強化學習的作用不僅需要穩定且高效的強化學習訓練框架和高質量的優質偏序數據,還需要在「探索與利用」兩者間進行平衡,實現模型能力持續爬坡。
對于以上問題,百川智能進行了深入研究,并給出了針對性的解決方案。
強化學習訓練框架方面,百川智能自研了訓練推理雙引擎融合、多模型并行調度的 PPO 訓練框架,能夠很好支持超千億模型的高效訓練,訓練效率相比業界主流框架提升 400%。
偏序數據方面,百川智能創新性的采用了 RLHF 與 RLAIF 結合的方式來生成高質量優質偏序數據,在數據質量和數據成本之間獲得了更好的平衡。在此基礎上,對于「探索與利用」這一根本挑戰,百川智能通過 PPO 探索空間與 Reward Model 評價空間的同步升級,實現「迭代式強化學習」(Iterative RLHF&RLAIF)。基于強化學習的版本爬坡,可以在 SFT 的基礎上進一步發揮底座模型的潛力,讓 Baichuan 3 的語義理解和生成創作能力大幅提升。
以文本創作中最具挑戰的唐詩宋詞為例,作為中國傳統文化的瑰寶,詩詞不僅在格式、平仄、對偶、韻律等方面均有著嚴格的約束條件,并且內容高度凝練、寓意深遠。如果僅通過 SFT 的微調學習,一方面高質量詩詞的創作數據需要極高的專家成本,另一方面不能在平仄、對偶、韻律等多個方面實現較好的約束理解和遵循。此外,傳統的單次 RLHF 范式在唐詩宋詞面前也遇到極大挑戰,PPO 在訓練過程中生成的 Response 有可能超出 Reward Model 的評價范圍導致「探索」的過程失控。
Baichuan 3 結合「RLHF&RLAIF」以及迭代式強化學習的方法,讓大模型的詩詞創作能力達到全新高度。可用性相比當前業界最好的模型水平提升達 500%,文采遠超 GPT-4。對于宋詞這種格式多變,結構深細、韻律豐富的高難度文體,生成的內容亦能工整對仗、韻腳和諧。其精準、深厚的創作功底,將讓每個人都能輕松創作出詠物、寄思的五言律詩、七言絕句,寫下的言志、抒情的「沁園春」、「定風波」,這不僅可以提升大眾的人文素養,還能助力中華傳統文化在大模型時代真正地「活」起來。 作為參數規模超過千億的大語言模型,Baichuan 3 不僅英文效果達到接近 GPT-4 的水平,還在多項通用中文任務的表現上實現了對 GPT-4 的超越,是百川智能的全新里程碑。Baichuan 3 全面的通用能力以及在醫療領域的強大表現,將為百川智能打造「超級應用」,把大模型技術落地到諸多復雜應用場景提供有力支撐。 ?
