Groq是什么?
Groq是一家美國(guó)AI芯片公司,專注于設(shè)計(jì)和制造高性能、高能效的AI處理器。
最近,Groq公司推出了一個(gè)免費(fèi)的在線大模型推理服務(wù),借助于自研的AI芯片LPU,每秒能夠輸出近 500 個(gè) token。相比之下,ChatGPT-3.5 每秒生成速度僅為 40 個(gè) token。
Groq并沒有研發(fā)新模型,它是一個(gè)模型啟動(dòng)器,推理服務(wù)部署的是開源模型Mixtral 8x7B-32k和Llama 270B-4k。
有網(wǎng)友將其與 GPT-4、Gemini 對(duì)標(biāo),看看它們完成一個(gè)簡(jiǎn)單代碼調(diào)試問題所需的時(shí)間。沒想到,Groq 完全碾壓兩者,在輸出速度上比 Gemini 快 10 倍,比 GPT-4 快 18 倍。

如何使用Groq?
AIHub體驗(yàn)了一下,推理回復(fù)速度確實(shí)非常快,1000字的內(nèi)容,眨眼之間完成。
不需要注冊(cè)賬號(hào),任何人都可以免費(fèi)使用。
Groq體驗(yàn)地址:https://groq.com/

對(duì)于開發(fā)者,Groq 也提供了 API 服務(wù),完全兼容 OpenAI API。
Mixtral 8x7B SMoE 可以達(dá)到 480 token / S,100 萬 token 價(jià)格為 0.27 美元。極限情況下,用 Llama2 7B 甚至能實(shí)現(xiàn) 750 token / S。

關(guān)于Groq LPU芯片
根據(jù)Groq官網(wǎng)介紹,LPU是一種專為AI推理所設(shè)計(jì)的芯片。驅(qū)動(dòng)包括GPT等主流大模型的GPU,是一種為圖形渲染而設(shè)計(jì)的并行處理器,有數(shù)百個(gè)內(nèi)核,而LPU架構(gòu)則與GPU使用的SIMD(單指令,多數(shù)據(jù))不同,這種設(shè)計(jì)可以讓芯片更有效地利用每個(gè)時(shí)鐘周期,確保一致的延遲和吞吐量,也降低了復(fù)雜調(diào)度硬件的需求。

