Publicité

StarCoder
StarCoder
StarCoderBase et StarCoder sont des modèles de langage étendus (Code LLM), formés sur des données sous licence permissive de GitHub. Cela inclut les données de plus de 80 langages de programmation, les commits et problèmes Git, les notebooks Jupyter et les commits Git.
Nous avons formé un modèle à 15 B paramètres pour 1 000 milliards de jetons, similaire à LLaMA.
Nous avons affiné StarCoderBase pour 35 milliards de jetons Python. Le résultat est un nouveau modèle que nous appelons StarCoder.
StarCoderBase est un modèle qui surpasse les autres LLM de code ouvert dans les benchmarks de programmation populaires. Il correspond ou dépasse également les modèles fermés comme code-cushman001 d'OpenAI, le modèle original du Codex qui alimentait les premières versions de GitHub Copilot. Les modèles StarCoder sont capables de traiter plus d'entrées avec une longueur de contexte supérieure à 8 000 jetons que tout autre LLM ouvert. Cela permet une variété d’applications intéressantes. En invitant le modèle StarCoder avec une série de dialogues, nous lui avons permis d'agir comme un assistant technique.
Voter :



















