StarCoder是什么?
BigCode 是由 Hugging Face 和 ServiceNow 共同領導的開放式科學合作項目,致力于負責任地開發(fā)代碼的大型語言模型。
StarCoder 和 StarCoderBase 是針對代碼的大型語言模型(代碼 LLM),根據(jù)來自 GitHub 的許可數(shù)據(jù)進行訓練,包括來自 80 多種編程語言、Git 提交、GitHub 問題和 Jupyter 筆記本。
他們在編程基準方面優(yōu)于現(xiàn)有的開放代碼 LLM,并且匹配或超過封閉模型(如 CoPilot)。
上下文長度超過 8,000 個標記,他們可以處理比任何其他開放式 LLM 更多的輸入。他們可以充當技術助手,自動完成代碼,修改代碼并用自然語言解釋代碼。
這些模型是在改進的 OpenRAIL 許可下發(fā)布的,使公司更容易將它們集成到他們的產品中。這些模型有望成為社區(qū)使用和適應其用例和產品的堅實基礎。
已使用 Python 的 HumanEval 基準對 StarCoder 進行了評估,發(fā)現(xiàn)其性能優(yōu)于大型模型,例如 PaLM、LaMDA 和 LLaMA - 盡管更小!

如何使用?
- Paper: A technical report about StarCoder.
- GitHub: All you need to know about using or fine-tuning StarCoder.
- StarCoder: StarCoderBase further trained on Python.
- StarCoderBase: Trained on 80+ languages from The Stack.
- StarEncoder: Encoder model trained on TheStack.
- StarPii: StarEncoder based PII detector.
Tools & Demos
- StarCoder Chat: Chat with StarCoder!
- VSCode Extension: Code with StarCoder!
- StarCoder Playground: Write with StarCoder!
- StarCoder Editor: Edit with StarCoder!
