Devin是什么?
Devin 是由AI初創(chuàng)公司 Cognition 開發(fā)的全球首個(gè)全自主 AI 軟件工程師,具備自主學(xué)習(xí)新技術(shù)、端到端構(gòu)建和部署應(yīng)用、自主查找和修復(fù)代碼 Bug、訓(xùn)練和微調(diào) AI 模型的能力。在 SWE-bench 基準(zhǔn)測(cè)試中,Devin 展現(xiàn)出超越其他 AI 模型的性能,正確解決了實(shí)際編程問題。
官方介紹視頻:
Devin的主要功能
- 長期推理與規(guī)劃:能夠規(guī)劃和執(zhí)行需要數(shù)千個(gè)決策的復(fù)雜工程任務(wù),記住每一步的相關(guān)上下文,隨時(shí)間學(xué)習(xí),并修復(fù)錯(cuò)誤。
- 使用開發(fā)者工具:配備了包括 shell、代碼編輯器和瀏覽器在內(nèi)的常見開發(fā)者工具,在一個(gè)沙盒化計(jì)算環(huán)境中工作。
- 主動(dòng)協(xié)作:能夠?qū)崟r(shí)報(bào)告進(jìn)度,接受反饋,并根據(jù)需要與用戶共同進(jìn)行設(shè)計(jì)選擇。
- 學(xué)習(xí)新技術(shù):通過閱讀博客文章等資料,學(xué)習(xí)如何使用不熟悉的技術(shù)。
- 端到端應(yīng)用構(gòu)建和部署:能夠從頭開始構(gòu)建并部署應(yīng)用程序,如模擬生命游戲的交互式網(wǎng)站,并將其部署到 Netlify。
- 自主查找和修復(fù)代碼庫中的 Bug:幫助維護(hù)和調(diào)試開源競(jìng)賽編程書籍。
- 訓(xùn)練和微調(diào) AI 模型:設(shè)置大型語言模型的微調(diào),只需提供一個(gè) GitHub 研究倉庫的鏈接。
- 處理開源倉庫的問題:只需提供一個(gè) GitHub 問題的鏈接,Devin 就能完成所有設(shè)置和上下文收集工作。
- 對(duì)成熟生產(chǎn)倉庫做出貢獻(xiàn):作為 SWE-bench 基準(zhǔn)測(cè)試的一部分,Devin 解決了 sympy Python 代數(shù)系統(tǒng)中的對(duì)數(shù)計(jì)算錯(cuò)誤。
- 執(zhí)行實(shí)際工作:在 Upwork 上完成實(shí)際的編程工作,編寫和調(diào)試運(yùn)行計(jì)算機(jī)視覺模型的代碼,并在最后編譯報(bào)告。

Devin的評(píng)測(cè)結(jié)果
Devin 在 SWE-bench 基準(zhǔn)測(cè)試中的表現(xiàn)非常出色,這是一個(gè)挑戰(zhàn)性的基準(zhǔn)測(cè)試,要求參與者解決開源項(xiàng)目(如 Django 和 scikit-learn)中的實(shí)際 GitHub 問題。Devin 正確解決了 13.86% 的問題,這一比例遠(yuǎn)遠(yuǎn)超過了之前的技術(shù)水平,后者只能解決 1.96% 的問題。即使在只給定要編輯的確切文件的情況下,以往的最佳模型也只能解決 4.80% 的問題。Devin 在評(píng)估時(shí)是獨(dú)立完成的,而其他模型則得到了輔助(即模型被告知需要編輯哪些文件)。這一結(jié)果顯示了 Devin 在理解和解決實(shí)際編程問題方面的巨大優(yōu)勢(shì)。

如何使用Devin?
Devin已開放使用,Devin官網(wǎng)地址:https://devin.ai/

