-
SWE-Lancer:OpenAI開源的大模型代碼能力測試基準
SWE-Lancer 是 OpenAI 開源的一款 大模型能力評估基準,旨在測試大語言模型在實際軟件開發任務中的表現。與傳統的測試基準不同,SWE-Lancer采用了端到端測試方法,通過模擬真實的開發流程,評估模型在復雜任務中的綜合能力。 -
AGI-Eval:AI大模型評測社區
AG1-Eval是上海交通大學、同濟大學、華東師范大學、DataWhale等高校和機構合作發布的大模型評測社區,旨在打造公正、可信、科學、全面的評測生態以“評測助力,讓AI成為人類更好的伙伴"為使命。專門設計用于評估基礎模型在人類認知和問題解決相關任務中的一般能力。AGI-Eval通過這些考試來評估模型的性能,與人類決策和認知能力直接相關。衡量模型在人類認知能力方面的表現,有助于了解在現…