OpenAI o1：OpenAI最新推出的AI大語言模型，更擅長推理也更貴

AI訓(xùn)練模型
24年9月13日
編輯

AIHubAI布道師

OpenAI o1是什么？

OpenAI o1 是由OpenAI最新發(fā)布的人工智能大模型，包含o1-preview、o1-mini、o1和 o1-Pro 4個版本，旨在通過強(qiáng)化學(xué)習(xí)與思維鏈技術(shù)提升復(fù)雜推理能力。該模型的核心特性是能夠花費(fèi)更多時間進(jìn)行推理，模仿人類的思考方式，尤其在科學(xué)、數(shù)學(xué)和編程領(lǐng)域表現(xiàn)突出。OpenAI o1 在復(fù)雜推理、科學(xué)計算、數(shù)學(xué)和編程領(lǐng)域的表現(xiàn)遠(yuǎn)超之前的 GPT-4o。尤其是在科學(xué)與數(shù)學(xué)測試中，o1 的表現(xiàn)堪稱卓越。雖然在某些簡單任務(wù)中，其表現(xiàn)不如 GPT-4o，但在推理能力和邏輯嚴(yán)謹(jǐn)性方面，o1 是當(dāng)前性能最為優(yōu)異的模型之一。

OpenAI o1的功能特性

1. 增強(qiáng)的復(fù)雜推理能力

思維鏈（Chain of Thought, CoT）：o1 通過嵌入思維鏈技術(shù)，可以將復(fù)雜問題拆解為多個步驟進(jìn)行推理，模仿人類的思考方式。該技術(shù)尤其適用于邏輯推理、科學(xué)問題和數(shù)學(xué)計算等復(fù)雜任務(wù)，使其在這些領(lǐng)域表現(xiàn)優(yōu)越。
多步推理：o1 能夠在給出答案前花費(fèi)更多時間進(jìn)行多輪思考，特別是在解決復(fù)雜的科學(xué)問題或編程任務(wù)時，顯著提升了準(zhǔn)確性。

2. STEM 領(lǐng)域表現(xiàn)突出

科學(xué)與數(shù)學(xué)優(yōu)化：o1 經(jīng)過特別優(yōu)化，能夠在科學(xué)（如物理、化學(xué)、生物）和數(shù)學(xué)等領(lǐng)域超越 GPT-4o，并在某些測試中達(dá)到或超過人類專家水平。在一些基準(zhǔn)測試（如 GPQA 和 AIME 數(shù)學(xué)競賽）中，o1 展現(xiàn)了優(yōu)異的成績。
編程能力：經(jīng)過不斷訓(xùn)練，o1 的編程能力也大幅提升，在代碼競賽等場景下表現(xiàn)出色，超越了大部分人類選手。

3. 支持更大的上下文窗口

128k token 上下文窗口：o1 支持處理大規(guī)模的上下文內(nèi)容，允許更長時間的對話和推理。這使得模型能夠在更復(fù)雜的對話中保持連貫性，并處理大量數(shù)據(jù)或長文本。

4. 高昂的成本與 Token 消耗

計費(fèi)模式：o1 的計費(fèi)包括推理過程中的 token 消耗，這意味著即使最終輸出結(jié)果較短，推理過程中使用的 token 也會被計入總消耗。因此，使用 o1 進(jìn)行復(fù)雜推理任務(wù)時，費(fèi)用可能比其他模型顯著增加。

5. 強(qiáng)化學(xué)習(xí)與優(yōu)化

強(qiáng)化學(xué)習(xí)訓(xùn)練：通過強(qiáng)化學(xué)習(xí)技術(shù)，o1 在推理任務(wù)中不斷優(yōu)化其策略，能夠識別并糾正錯誤，使其推理能力更接近人類水平。
64k 最大輸出：雖然 o1 聲稱支持 64k token 的最大輸出，但在實(shí)際使用中，輸出內(nèi)容往往比預(yù)期要少。

6. 安全改進(jìn)

o1 相比 GPT-4o 在安全性上有所提升，減少了生成錯誤信息（即“幻覺現(xiàn)象”）。尤其是在涉及高復(fù)雜度推理的場景中，o1 提供了更加可靠和準(zhǔn)確的回答。

OpenAI o1的性能評測

1. 復(fù)雜推理能力

GPQA 測試：在化學(xué)、物理、生物等領(lǐng)域的 GPQA（General Professional Quality Assessment）測試中，o1 的表現(xiàn)甚至超越了博士級專家，展現(xiàn)了強(qiáng)大的科學(xué)推理能力。

2. 數(shù)學(xué)能力評測

AIME 數(shù)學(xué)競賽：在美國數(shù)學(xué)邀請賽（AIME）中，o1 的表現(xiàn)遠(yuǎn)超 GPT-4o。GPT-4o 的平均得分僅為 12%，而 o1 達(dá)到了 74%。在使用更大樣本量時，準(zhǔn)確率進(jìn)一步提升至 93%，達(dá)到了美國前 500 名高中生的水平。
GSM8K 數(shù)學(xué)推理測試：在 GSM8K 的數(shù)學(xué)推理測試中，o1 展現(xiàn)了比之前模型更為嚴(yán)謹(jǐn)和準(zhǔn)確的推理過程，能夠更好地理解問題并給出正確的解決方案。

3. 編程能力

編程競賽測試：o1 在模擬編程競賽中的表現(xiàn)優(yōu)異，得分超過了 93% 的人類選手。在一些復(fù)雜的編程任務(wù)中，o1 展現(xiàn)了卓越的代碼生成和錯誤修正能力，編程能力大幅提升。

4. 人類偏好評估

用戶偏好測試：在推理要求較高的場景中，人類評估者普遍更偏向于 o1 的輸出，認(rèn)為其思考過程更接近人類的思維方式。在推理要求不高的場景中，GPT-4o 仍然占有一定優(yōu)勢，但 o1 在復(fù)雜任務(wù)上展現(xiàn)出了更穩(wěn)定的表現(xiàn)。

5. 安全性與準(zhǔn)確性

幻覺現(xiàn)象減少：相比 GPT-4o，o1 在生成虛假或錯誤信息（即幻覺現(xiàn)象）方面有顯著減少。其輸出更準(zhǔn)確，在長時間推理任務(wù)中表現(xiàn)得更加可靠，尤其在科學(xué)計算和復(fù)雜問題解決上更加可信。

如何使用OpenAI o1？

目前OpenAI o1已經(jīng)上線到ChatGPT和OpenAI開發(fā)者平臺。

1、個人用戶：

ChatGPT Plus和Team用戶今天就可以直接用上o1了。

使用地址：https://chatgpt.com/?model=o1

2、開發(fā)者用戶：

對于開發(fā)者用戶，如果你的等級在 Tire5 （支付金額>1000 美金），目前已經(jīng)可以通過接口進(jìn)行調(diào)用：

o1-preview：20 RPM，30,000,000 TPM
o1-mini：20 RPM，150,000,000 TPM

在API中，o1-preview中每100萬個token的輸入價格為15美元，輸出價格為60美元，較GPT-4o高出3-4倍。

使用地址：https://platform.openai.com/playground/chat?models=o1-mini

官方博客：https://openai.com/o1/

?版權(quán)聲明：如無特殊說明，本站所有內(nèi)容均為AIHub.cn原創(chuàng)發(fā)布和所有。任何個人或組織，在未征得本站同意時，禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺。否則，我站將依法保留追究相關(guān)法律責(zé)任的權(quán)利。