GPT-4.1：OpenAI 推出的新一代語言模型，支持百萬上下文

AIHubAI布道師

GPT-4.1是什么？

GPT-4.1 是 OpenAI 推出的新一代語言模型，包含 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三個版本。它在編碼能力、指令遵循和長文本處理等方面有顯著提升，支持高達 100 萬個 token 的上下文窗口，知識截止日期為2024年6月。

GPT-4.1 在多個基準測試中表現優異，如在 SWE-bench Verified 測試中得分 54.6%，比前代 GPT-4o 提高 21.4 個百分點；在指令遵循測試中得分 38.3%，提升 10.5 個百分點。此外，GPT-4.1 系列在性能提升的同時，成本更低，是目前最快且最便宜的模型，適合低延遲任務。

GPT-4.1 的主要特性

編碼能力

顯著提升：在 SWE-bench Verified 測試中，GPT-4.1 的得分達到 54.6%，比 GPT-4o 提高了 21.4 個百分點，成為編碼領域的領先模型。
代碼補丁生成：能夠更可靠地生成代碼補丁，解決代碼庫中的問題，同時減少不必要的編輯。
前端編碼改進：在前端編碼任務中表現更佳，生成的網頁應用功能更強大且美觀。

指令遵循

多維度提升：在 Scale 的 MultiChallenge 基準測試中，GPT-4.1 的得分達到 38.3%，比 GPT-4o 提高了 10.5 個百分點。
多輪對話連貫性：在多輪對話中，GPT-4.1 能夠更好地理解和遵循指令，保持對話的連貫性。
格式遵循：能夠更可靠地遵循指定的輸出格式，如 XML、YAML、Markdown 等。

長文本處理

超大上下文窗口：支持高達 100 萬個 token 的上下文窗口，比前代模型的 128,000 token 大幅提升。
長文本理解：在 Video-MME 基準測試中，GPT-4.1 在“長文本無字幕”類別中得分 72.0%，比 GPT-4o 提高了 6.7 個百分點。
多文檔處理：能夠處理多個長文檔，提取關鍵信息并進行復雜的關系分析。

多模態理解

圖像與視頻理解：GPT-4.1 在多模態任務中表現出色，例如處理長視頻、回答與圖像相關的問題。在 Video-MME 測試中，GPT-4.1 的得分高于 GPT-4o。
交互式多模態任務：GPT-4.1 可以用于交互式多模態問答、內容編輯和決策等任務

性能與成本

高性價比：GPT-4.1 系列在性能提升的同時，成本更低。GPT-4.1 mini 在許多基準測試中超越了 GPT-4o，同時將延遲降低了近一半，成本降低了 83%。
低延遲選項：GPT-4.1 nano 是目前最快且最便宜的模型，適合需要低延遲的任務。

GPT-4.1的服務定價

GPT-4.1：每 100 萬個 token 的輸入費用為 2.00 美元，輸出費用為 8.00 美元。
GPT-4.1 mini：每 100 萬個 token 的輸入費用為 0.40 美元，輸出費用為 1.60 美元。
GPT-4.1 nano：每 100 萬個 token 的輸入費用為 0.10 美元，輸出費用為 0.40 美元。

GPT-4.1 的應用場景

1. 編程與軟件開發

代碼生成與優化：GPT-4.1 在多語言編程任務、代碼優化和版本管理方面表現出色。例如，在 Aider polyglot 基準測試中，GPT-4.1 的差異性能較 GPT-4o 提升了一倍。它能夠生成高質量的代碼補丁，減少不必要的編輯，提升開發效率。
前端開發：GPT-4.1 能夠生成更美觀、功能更強的網頁應用，顯著提升前端開發的效率。

2. 法律與金融領域

法律文件處理：湯森路透（Thomson Reuters）使用 GPT-4.1 來處理復雜的法律文件和工作流程。GPT-4.1 在多文檔審查方面的準確性比 GPT-4o 提高了 17%，能夠準確識別文檔之間的復雜關系，如沖突條款或補充上下文。
金融數據分析：Carlyle 使用 GPT-4.1 從多個長文檔中提取顆粒化的金融數據，其內部評估顯示，GPT-4.1 在數據檢索方面的表現比其他模型高出 50%，成功克服了其他模型的關鍵限制。