欧美成人三级视频网站,国产一区国产二区国产三区,青青久久av北条麻妃黑人,亚州综合一区

<ul id="iy2aw"><tbody id="iy2aw"></tbody></ul>

<ul id="iy2aw"><center id="iy2aw"></center></ul><strike id="iy2aw"></strike>

即夢AI

SWE-Lancer：OpenAI開源的大模型代碼能力測試基準

目錄

SWE-Lancer是什么？

SWE-Lancer 是 OpenAI 開源的一個全新評估大模型代碼能力的測試基準，通過端到端測試來模擬真實的開發任務，旨在更全面地評估大語言模型在軟件工程任務中的表現，尤其是處理復雜、全棧任務的能力。其測試數據集包含 1488 個來自 Upwork 平臺上 Expensify 開源倉庫的真實開發任務，涵蓋獨立開發和管理任務，總價值高達 100 萬美元。

SWE-Lancer：OpenAI開源的大模型代碼能力測試基準

SWE-Lancer的主要特點

端到端測試：SWE-Lancer通過模擬完整的用戶交互流程，測試不僅驗證單個功能的實現，還確保整個開發任務的連貫性和正確性。這種方式更加貼近現實中的軟件開發場景。
真實開發任務：SWE-Lancer包含來自Upwork平臺的1488個開發任務，這些任務涉及修復漏洞、實現功能、選擇最佳解決方案等，分為獨立開發任務和軟件工程管理任務兩類。
高價值任務：數據集總價值達到 100萬美元，任務內容涵蓋了高難度、高價值的軟件工程挑戰，旨在測試大模型是否能夠解決復雜的實際問題。
全面評估：測試不僅評估模型解決單個問題的能力，還考察模型如何應對復雜的系統交互、數據庫操作等多方面挑戰，提供更為全面的能力評估。
現實性強：SWE-Lancer通過模擬真實開發場景和任務，使得模型測試更具實際意義，評估結果能夠真實反映大模型在軟件開發中的應用潛力與局限性。

SWE-Lancer的數據集

SWE-Lancer數據集一共包含1488個來自Upwork平臺上Expensify開源庫的真實軟件開發任務，一共分為獨立貢獻者和軟件工程管理任務兩大類。

獨立開發任務一共有764個，價值414,775美元，主要模擬個體軟件工程師的職責，例如，實現功能、修復漏洞等。在這類任務中，模型會得到問題文本描述涵蓋重現步驟、期望行為、問題修復前的代碼庫檢查點以及修復目標。

SWE-Lancer：OpenAI開源的大模型代碼能力測試基準

軟件管理任務，有724個，價值585,225美元。模型在此類任務中扮演軟件工程經理的角色，需要從多個解決任務的提案中挑選最佳方案。例如，在一個關于在iOS上實現圖像粘貼功能的任務中，模型要從不同提案里選擇最適宜的方案。

首批SWE-Lancer測試結果

OpenAI使用了GPT-4o、o1和Claude3.5Sonnet在SWE-Lancer進行了測試，結果顯示：

在獨立開發任務中，表現最好的 Claude 3.5 Sonnet 的通過率僅為 26.2%，而 GPT-4o 的通過率僅為 8%。
在軟件工程管理任務中，Claude 3.5 Sonnet 的通過率為 44.9%，GPT-4o 的通過率為 37.0%。
在高價值、復雜任務中，模型的通過率普遍低于 30%，表明模型在處理復雜任務時仍比人類差很多。

SWE-Lancer：OpenAI開源的大模型代碼能力測試基準

如何使用SWE-Lancer？

SWE-Lancer的開源資源如下：

GitHub地址：https://github.com/openai/SWELancer-Benchmark
論文地址：https://arxiv.org/abs/2502.12115

?版權聲明：如無特殊說明，本站所有內容均為AIHub.cn原創發布和所有。任何個人或組織，在未征得本站同意時，禁止復制、盜用、采集、發布本站內容到任何網站、書籍等各類媒體平臺。否則，我站將依法保留追究相關法律責任的權利。

Trae

模型評測基準

TOP1

豆包 - 字節跳動旗下免費AI智能助手
23年8月17日
TOP2

蟬鏡-AI數字人視頻創作平臺
24年4月21日
TOP3

白日夢AI-免費的AI視頻創作平臺，支持生成6分鐘視頻
24年7月23日
AIPPT: AI一鍵生成高質量PPT
23年8月28日
TRAE編程 - 字節跳動推出的AI代碼助手
1月20日
筆靈AI論文寫作 - 專業AI論文寫作平臺
23年12月10日
AIPaperPass：AI一鍵生成高質量論文
23年10月30日
通義靈碼 - 阿里推出的AI智能編碼助手
23年10月31日
閃剪-AI數字人視頻生成平臺
23年12月5日
訊飛智文-免費PPT生成工具
23年11月16日
墨狐AI：你的網文短篇小說寫作助手
24年8月2日
即夢AI：抖音推出的AI繪畫和視頻生成平臺
23年11月14日
訊飛文書 - 科大訊飛發布的AI公文寫作工具
24年3月6日
茅茅蟲論文寫作 - 一站式AI論文寫作平臺
24年1月16日

主站蜘蛛池模板：太湖县| 浏阳市| 清镇市| 兴安县| 梁平县| 赤壁市| 蒲城县| 黔南| 青阳县| 林州市| 天水市| 靖远县| 台南市| 永宁县| 漯河市| 二手房| 鄂州市| 新郑市| 萍乡市| 鹤壁市| 湘潭市| 娄底市| 安化县| 武穴市| 崇明县| 玉环县| 镇雄县| 汾西县| 光泽县| 张家港市| 高州市| 宜丰县| 朝阳区| 广丰县| 景东| 长沙县| 通化市| 阿拉善左旗| 嘉定区| 金沙县| 大名县|

<code id="yeki4"><wbr id="yeki4"></wbr></code>

<code id="yeki4"></code>