GPT-4o是什么?
GPT-4o是OpenAI推出的最新一代大型語言模型,它集合了文本、圖片、視頻、語音的全能模型,能夠實時響應用戶需求,并通過語音進行實時回答。GPT-4o具有強大的邏輯推理能力,其速度是前代模型GPT-4 Turbo的兩倍,而成本降低了50%。
GPT-4o是邁向更自然的人機交互的一步——它接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像輸出的任意組合。它可以在短短 232 毫秒內響應音頻輸入,平均為 320 毫秒,這與對話中的人類響應時間相似。它在英語文本和代碼上的 GPT-4 Turbo 性能相匹配,在非英語語言的文本上也有顯著改進,同時在 API 中也更快且便宜 50%。與現有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。

GPT-4o的主要功能
- 多模態輸入與輸出:GPT-4o能夠處理文本、音頻和圖像輸入,并生成這些形式的任意組合輸出,提升了與計算機的自然交互能力。
- 實時對話反饋:GPT-4o提供快速響應,音頻輸入的平均響應時間為320毫秒,與人類對話反應時間相近。
- 情感識別與模擬:GPT-4o能夠識別用戶的情感狀態,并在語音輸出中模擬相應的情感。
- 多語言支持:GPT-4o支持超過50種語言,并提供實時同聲傳譯。
GPT-4o的性能表現
文本性能評估:
- GPT-4o在多語言理解均值(MMLU)基準測試中達到了88.7%的得分,顯示出其在多語言處理上的卓越能力。
- 在GPQA(General Language Question Answering)測試中得分為53.6%,排名第一。
- 在MATH(Math Question Answering)測試中得分為76.6%,排名第一。
- 在HumanEval測試中得分為90.2%,排名第一。
- 在MGSM(Massive Generalized Semantics Meaning)測試中得分為90.5%,排名第二,略低于Claude 3 Opus。

音頻性能:
在音頻自動語音識別(ASR)性能方面,GPT-4o顯著提高了所有語言的語音識別性能,特別是對資源匱乏的語言。

音頻翻譯性能:
GPT-4o在語音翻譯方面達到了新的最先進水平,在MLS(多語言語音)基準測試中優于Whisper-v3,超越了Meta的SeamlessM4T-v2和谷歌的Gemini。

視覺理解評估:
GPT-4o在視覺感知基準上實現了最先進的性能(SOTA),超過了Gemini 1.0 Ultra、Gemini 1.5 Pro和Claude 3 Opus。

GPT-4o的API價格
GPT-4o的API價格相比GPT-4 Turbo有顯著的優勢:
價格:GPT-4o的價格比GPT-4 Turbo便宜50%。具體到API的定價,輸入和輸出的標記(tokens)價格分別為:
- 輸入:$5.00 / 1M tokens
- 輸出:$15.00 / 1M tokens
對比看一下GPT-4 Turbo:
- 輸入:$10.00 / 1M tokens
- 輸出:$30.00 / 1M tokens
速率限制:GPT-4o的速率限制是GPT-4 Turbo的5倍,這意味著用戶可以在一分鐘內處理高達1000萬個token,這對于需要處理大量數據的應用來說是一個巨大的優勢。
如何使用GPT-4o?
個人用戶:
GPT-4o的文本和圖像能力今天開始在ChatGPT中推出。在免費版中提供GPT-4o,并為Plus用戶提供高達5倍的消息限制。在未來幾周內,將在ChatGPT Plus中推出帶有GPT-4o的語音模式新版本。
在ChatGPT中免費使用:https://chat.openai.com/
開發人員:
開發者現在也可以通過API以文本和視覺模型的形式訪問GPT-4o。與GPT-4 Turbo相比,GPT-4o的速度提高了2倍,價格降低了一半,速率限制提高了5倍。OpenAI計劃在未來幾周內向API中的一小部分信任合作伙伴推出對GPT-4o的新音頻和視頻能力的支持。
了解更多信息,前往GPT-4o官網:https://openai.com/index/hello-gpt-4o/
