-
TransBench:阿里國際等推出的多語言翻譯評測體系
TransBench 是首個面向行業應用的綜合性多語言翻譯評估系統。它根據通用翻譯標準、垂直行業規范和文化本地化要求,通過精心策劃的數據集,量化不同行業和語言環境中翻譯模型的性能。 -
SWE-Lancer:OpenAI開源的大模型代碼能力測試基準
SWE-Lancer 是 OpenAI 開源的一款 大模型能力評估基準,旨在測試大語言模型在實際軟件開發任務中的表現。與傳統的測試基準不同,SWE-Lancer采用了端到端測試方法,通過模擬真實的開發流程,評估模型在復雜任務中的綜合能力。 -
AGI-Eval:AI大模型評測社區
AG1-Eval是上海交通大學、同濟大學、華東師范大學、DataWhale等高校和機構合作發布的大模型評測社區,旨在打造公正、可信、科學、全面的評測生態以“評測助力,讓AI成為人類更好的伙伴"為使命。專門設計用于評估基礎模型在人類認知和問題解決相關任務中的一般能力。AGI-Eval通過這些考試來評估模型的性能,與人類決策和認知能力直接相關。衡量模型在人類認知能力方面的表現,有助于了解在現…