OpenAI o1是什么?
OpenAI o1 是由OpenAI最新發(fā)布的人工智能大模型,包含o1-preview、o1-mini、o1和 o1-Pro 4個版本,旨在通過強(qiáng)化學(xué)習(xí)與思維鏈技術(shù)提升復(fù)雜推理能力。該模型的核心特性是能夠花費(fèi)更多時間進(jìn)行推理,模仿人類的思考方式,尤其在科學(xué)、數(shù)學(xué)和編程領(lǐng)域表現(xiàn)突出。OpenAI o1 在復(fù)雜推理、科學(xué)計算、數(shù)學(xué)和編程領(lǐng)域的表現(xiàn)遠(yuǎn)超之前的 GPT-4o。尤其是在科學(xué)與數(shù)學(xué)測試中,o1 的表現(xiàn)堪稱卓越。雖然在某些簡單任務(wù)中,其表現(xiàn)不如 GPT-4o,但在推理能力和邏輯嚴(yán)謹(jǐn)性方面,o1 是當(dāng)前性能最為優(yōu)異的模型之一。

OpenAI o1的功能特性
1. 增強(qiáng)的復(fù)雜推理能力
- 思維鏈(Chain of Thought, CoT):o1 通過嵌入思維鏈技術(shù),可以將復(fù)雜問題拆解為多個步驟進(jìn)行推理,模仿人類的思考方式。該技術(shù)尤其適用于邏輯推理、科學(xué)問題和數(shù)學(xué)計算等復(fù)雜任務(wù),使其在這些領(lǐng)域表現(xiàn)優(yōu)越。
- 多步推理:o1 能夠在給出答案前花費(fèi)更多時間進(jìn)行多輪思考,特別是在解決復(fù)雜的科學(xué)問題或編程任務(wù)時,顯著提升了準(zhǔn)確性。
2. STEM 領(lǐng)域表現(xiàn)突出
- 科學(xué)與數(shù)學(xué)優(yōu)化:o1 經(jīng)過特別優(yōu)化,能夠在科學(xué)(如物理、化學(xué)、生物)和數(shù)學(xué)等領(lǐng)域超越 GPT-4o,并在某些測試中達(dá)到或超過人類專家水平。在一些基準(zhǔn)測試(如 GPQA 和 AIME 數(shù)學(xué)競賽)中,o1 展現(xiàn)了優(yōu)異的成績。
- 編程能力:經(jīng)過不斷訓(xùn)練,o1 的編程能力也大幅提升,在代碼競賽等場景下表現(xiàn)出色,超越了大部分人類選手。
3. 支持更大的上下文窗口
- 128k token 上下文窗口:o1 支持處理大規(guī)模的上下文內(nèi)容,允許更長時間的對話和推理。這使得模型能夠在更復(fù)雜的對話中保持連貫性,并處理大量數(shù)據(jù)或長文本。
4. 高昂的成本與 Token 消耗
- 計費(fèi)模式:o1 的計費(fèi)包括推理過程中的 token 消耗,這意味著即使最終輸出結(jié)果較短,推理過程中使用的 token 也會被計入總消耗。因此,使用 o1 進(jìn)行復(fù)雜推理任務(wù)時,費(fèi)用可能比其他模型顯著增加。
5. 強(qiáng)化學(xué)習(xí)與優(yōu)化
- 強(qiáng)化學(xué)習(xí)訓(xùn)練:通過強(qiáng)化學(xué)習(xí)技術(shù),o1 在推理任務(wù)中不斷優(yōu)化其策略,能夠識別并糾正錯誤,使其推理能力更接近人類水平。
- 64k 最大輸出:雖然 o1 聲稱支持 64k token 的最大輸出,但在實(shí)際使用中,輸出內(nèi)容往往比預(yù)期要少。
6. 安全改進(jìn)
- o1 相比 GPT-4o 在安全性上有所提升,減少了生成錯誤信息(即“幻覺現(xiàn)象”)。尤其是在涉及高復(fù)雜度推理的場景中,o1 提供了更加可靠和準(zhǔn)確的回答。
OpenAI o1的性能評測
1. 復(fù)雜推理能力
- GPQA 測試:在化學(xué)、物理、生物等領(lǐng)域的 GPQA(General Professional Quality Assessment)測試中,o1 的表現(xiàn)甚至超越了博士級專家,展現(xiàn)了強(qiáng)大的科學(xué)推理能力。
2. 數(shù)學(xué)能力評測
- AIME 數(shù)學(xué)競賽:在美國數(shù)學(xué)邀請賽(AIME)中,o1 的表現(xiàn)遠(yuǎn)超 GPT-4o。GPT-4o 的平均得分僅為 12%,而 o1 達(dá)到了 74%。在使用更大樣本量時,準(zhǔn)確率進(jìn)一步提升至 93%,達(dá)到了美國前 500 名高中生的水平。
- GSM8K 數(shù)學(xué)推理測試:在 GSM8K 的數(shù)學(xué)推理測試中,o1 展現(xiàn)了比之前模型更為嚴(yán)謹(jǐn)和準(zhǔn)確的推理過程,能夠更好地理解問題并給出正確的解決方案。
3. 編程能力
- 編程競賽測試:o1 在模擬編程競賽中的表現(xiàn)優(yōu)異,得分超過了 93% 的人類選手。在一些復(fù)雜的編程任務(wù)中,o1 展現(xiàn)了卓越的代碼生成和錯誤修正能力,編程能力大幅提升。
4. 人類偏好評估
- 用戶偏好測試:在推理要求較高的場景中,人類評估者普遍更偏向于 o1 的輸出,認(rèn)為其思考過程更接近人類的思維方式。在推理要求不高的場景中,GPT-4o 仍然占有一定優(yōu)勢,但 o1 在復(fù)雜任務(wù)上展現(xiàn)出了更穩(wěn)定的表現(xiàn)。
5. 安全性與準(zhǔn)確性
- 幻覺現(xiàn)象減少:相比 GPT-4o,o1 在生成虛假或錯誤信息(即幻覺現(xiàn)象)方面有顯著減少。其輸出更準(zhǔn)確,在長時間推理任務(wù)中表現(xiàn)得更加可靠,尤其在科學(xué)計算和復(fù)雜問題解決上更加可信。

如何使用OpenAI o1?
目前OpenAI o1已經(jīng)上線到ChatGPT和OpenAI開發(fā)者平臺。
1、個人用戶:
ChatGPT Plus和Team用戶今天就可以直接用上o1了。
使用地址:https://chatgpt.com/?model=o1
2、開發(fā)者用戶:
對于開發(fā)者用戶,如果你的等級在 Tire5 (支付金額>1000 美金),目前已經(jīng)可以通過接口進(jìn)行調(diào)用:
- o1-preview:20 RPM,30,000,000 TPM
- o1-mini:20 RPM,150,000,000 TPM
在API中,o1-preview中每100萬個token的輸入價格為15美元,輸出價格為60美元,較GPT-4o高出3-4倍。
使用地址:https://platform.openai.com/playground/chat?models=o1-mini

