Llama 3-Meta最新推出的新一代開(kāi)源大模型

AI訓(xùn)練模型
24年4月19日
編輯

AIHubAI布道師

Llama 3是什么？

Llama 3是一款由Meta推出的新一代開(kāi)源人工智能大語(yǔ)言模型，Llama-3 包含 8B（80億參數(shù)）、70B（700億參數(shù)）兩個(gè)版本，分為基礎(chǔ)預(yù)訓(xùn)練和指令微調(diào)兩種模型，還有一個(gè)超4000億參數(shù)正在訓(xùn)練中。

與Llama-2相比，Llama-3使用了15T tokens的訓(xùn)練數(shù)據(jù)，在推理、數(shù)學(xué)、代碼生成、指令跟蹤等能力獲得大幅度提升。

此外，Llama-3還使用了分組查詢(xún)注意力、掩碼等創(chuàng)新技術(shù)，幫助開(kāi)發(fā)者以最低的能耗獲取絕佳的性能。很快，Meta就會(huì)發(fā)布Llama-3的論文。

Llama 3的亮點(diǎn)特性

模型架構(gòu)：Llama 3采用了高效的Transformer架構(gòu)，具有128K token的分詞器，以及分組查詢(xún)注意力（Grouped Query Attention）技術(shù)，提升了模型在處理長(zhǎng)序列時(shí)的效率。
大規(guī)模預(yù)訓(xùn)練：Llama 3基于超過(guò)15萬(wàn)億tokens進(jìn)行預(yù)訓(xùn)練，數(shù)據(jù)集規(guī)模是前代Llama 2的七倍，代碼數(shù)據(jù)量增加了四倍。
多語(yǔ)言支持：預(yù)訓(xùn)練數(shù)據(jù)中超過(guò)5%是非英語(yǔ)的高質(zhì)量數(shù)據(jù)，覆蓋超過(guò)30種語(yǔ)言，盡管主要性能仍以英語(yǔ)為主。
錯(cuò)誤減少：Llama 3設(shè)計(jì)上減少了錯(cuò)誤拒絕的情況，即模型能夠更準(zhǔn)確地判斷無(wú)害的提示并給出回應(yīng)。
指令微調(diào)：Llama 3在后訓(xùn)練階段采用了多種技術(shù)，包括監(jiān)督式微調(diào)、拒絕抽樣、近端策略?xún)?yōu)化和直接策略?xún)?yōu)化，以提升模型在特定任務(wù)上的表現(xiàn)。

Llama 3 的測(cè)試結(jié)果

Meta聲稱(chēng)Llama 3在關(guān)鍵基準(zhǔn)測(cè)試中優(yōu)于同類(lèi)競(jìng)爭(zhēng)模型，尤其是在編程等任務(wù)上。此外，通過(guò)“大海撈針”測(cè)試，即在長(zhǎng)文本中識(shí)別并準(zhǔn)確回答一個(gè)無(wú)關(guān)句子的能力，Llama 3展現(xiàn)了其卓越的性能。

在MMLU、HumanEval和GSM-8K上，Llama 3 70B擊敗了Gemini 1.5 Pro。盡管無(wú)法與Anthropic性能最強(qiáng)的模型 Claude 3 Opus媲美，但 Llama 3 70B的性能，已經(jīng)優(yōu)于Claude 3系列的中杯模型Sonnet。

在Meta組織的人類(lèi)反饋評(píng)分中，Llama 3 70B打敗了Mistral、OpenAI、Claude發(fā)布的對(duì)應(yīng)產(chǎn)品。

這個(gè)人類(lèi)反饋測(cè)試更貼近用戶(hù)實(shí)際的使用體驗(yàn)，包括了最常見(jiàn)的大模型使用場(chǎng)景：頭腦風(fēng)暴、創(chuàng)意寫(xiě)作、角色扮演、復(fù)述、推理、總結(jié)等。

如何使用Llama 3？

開(kāi)發(fā)人員：

Llama 3模型已經(jīng)在 Hugging Face、GitHub 和Replicate上開(kāi)源，下面是入口：

Llama 3官網(wǎng)鏈接：https://llama.meta.com/llama3
模型下載鏈接：https://llama.meta.com/llama-downloads/
Hugging Face鏈接：https://huggingface.co/meta-llama
Replicate鏈接：https://replicate.com/meta
GitHub項(xiàng)目地址：https://github.com/meta-llama/llama3

另外，Llama 3模型將很快在AWS，Databricks，Google Cloud，Hugging Face，Kaggle，IBM WatsonX，Microsoft Azure，NVIDIA NIM和Snowflake上提供，并獲得AMD，AWS，戴爾，英特爾，NVIDIA和高通提供的硬件平臺(tái)的支持。

普通用戶(hù)：

對(duì)于不懂技術(shù)的普通用戶(hù)，可以通過(guò)下面網(wǎng)址體驗(yàn)：

Meta AI官網(wǎng)：通過(guò)Meta.ai體驗(yàn)Llama 3模型。（限制了國(guó)家和地區(qū)，可能會(huì)打不開(kāi)）如果打不開(kāi)，可使用下面??網(wǎng)址。
Huggingface：https://huggingface.co/chat/，模型里切換到Llama 3即可體驗(yàn)。
Replicate：https://llama3.replicate.dev/
英偉達(dá)：https://www.nvidia.com/en-us/ai/#referrer=ai-subdomain
集成到社交平臺(tái)：Llama 3作為Meta AI助手的底層模型，你也可以在Facebook、Instagram等Meta的應(yīng)用程序中直接與之交互。

總之，Llama 3的發(fā)布標(biāo)志著Meta在AI領(lǐng)域的重大進(jìn)展，展示了其在創(chuàng)建高性能、多用途語(yǔ)言模型方面的能力。隨著模型的進(jìn)一步迭代和優(yōu)化，預(yù)計(jì)Llama 3將在AI助手和語(yǔ)言技術(shù)領(lǐng)域扮演越來(lái)越重要的角色。

熱門(mén)AI工具推薦：

?如果你用不了ChatGPT，推薦國(guó)產(chǎn)ChatGPT，點(diǎn)此免費(fèi)使用
?如果你想讓AI幫你寫(xiě)論文，推薦筆靈論文寫(xiě)作，點(diǎn)擊立即使用

?版權(quán)聲明：如無(wú)特殊說(shuō)明，本站所有內(nèi)容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個(gè)人或組織，在未征得本站同意時(shí)，禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書(shū)籍等各類(lèi)媒體平臺(tái)。否則，我站將依法保留追究相關(guān)法律責(zé)任的權(quán)利。