Présentation de Stable LM 2 1.6B
Présentation de Stable LM 2 1.6B


Notre résumé:
L’article présente le nouveau modèle de langage Stable LM 2 1.6B, qui est le premier modèle de la série Stable LM 2. Il est formé sur environ 2 000 milliards de jetons pour deux « epochs » et intègre des données multilingues en plusieurs langues européennes. Le modèle est conçu pour offrir un équilibre entre vitesse et performances, permettant une expérimentation et une itération rapides avec des ressources modérées. Il est comparé à d’autres modèles de langage populaires et montre des performances supérieures sur diverses tâches, tout en offrant une taille et une vitesse compactes. Enfin, l’article souligne l’importance de la transparence dans la formation du modèle et met en garde contre les possibles problèmes tels que des taux « d’hallucinations » élevés ou un langage potentiellement toxique.
Communiqué de Stability AI:
Points essentiels:
- StableLM2 1.6B est un petit modèle linguistique de pointe de 1,6 milliard de paramètres formé sur des données multilingues en anglais, espagnol, allemand, italien, français, portugais et néerlandais.
- La taille compacte et la vitesse de ce modèle réduisent les barrières matérielles, permettant à davantage de développeurs de participer à l’écosystème de l’IA générative.
- En plus de la version pré-entraînée et adaptée aux instructions, nous publions le dernier point de contrôle avant le temps de recharge de pré-entraînement. Nous incluons des états d’optimisation pour faciliter les développeurs dans le réglage et l’expérimentation. Les détails des données seront fournis dans le prochain rapport technique.
- Stable LM 2 1.6B peut désormais être utilisé à la fois commercialement et non commercialement avec un abonnement Stability AI et vous pouvez tester le modèle sur Hugging Face.
Aujourd’hui, nous présentons notre premier modèle de langage de la nouvelle série Stable LM 2 : modèle de base à 1,6 milliard paramètres et une version adaptée aux instructions. Le modèle de base est formé sur environ 2 000 milliards de jetons pour deux « epochs », intégrant des données multilingues en anglais, espagnol, allemand, italien, français, portugais et néerlandais. Nous avons exploité les récentes avancées algorithmiques en matière de modélisation du langage pour trouver un équilibre favorable entre vitesse et performances, permettant une expérimentation et une itération rapides avec des ressources modérées.
Les détails des données seront également disponibles avec cette version afin que la communauté ouverte puisse reproduire des modèles aux performances similaires. Parallèlement, pour la première fois, nous publions la version finale point de contrôle pré-entraînement avant le temps de recharge, y compris les états de l’optimiseur, pour aider les développeurs à poursuivre en douceur la pré-formation et à affiner leurs données – car certains modèles pré-entraînés récents peuvent être plus difficiles à affiner en raison d’optimisations tardives. Dans les prochains jours, nous partagerons un rapport technique complet qui explore et décrit la combinaison de données et la procédure de formation que nous avons suivies.
Performances du modèle
Nous comparons Stable LM 2 1.6B à d’autres modèles de petits langages populaires tels que Phi-1.5 (1.3B) et Phi-2 (2.7B) de Microsoft, TinyLlama 1.1B ou Falcon 1B. Il surpasse les modèles inférieurs à 2B sur la plupart des tâches, et même sur certaines tâches plus importantes, tout en offrant une taille et une vitesse compactes lorsqu’il est testé avec des performances en quelques prises de vue selon les critères généraux décrits dans le classement Open LLM.

Classement ouvert LLM évaluations. * Les résultats Qwen/Qwen-1_8b ne sont pas disponibles pour le moment
Grâce à une formation explicite sur le texte multilingue, des performances sur versions traduites d’ARC Challenge, HellaSwag, TruthfulQA, MMLU et LAMBADA montrent que le Stable LM 2 1.6B dépasse les autres modèles de loin.

Performance de précision moyenne à 0 tir sur les benchmarks traduits Okapi et LAMBADA multilingue. Noter que LAMBADA n’inclut pas le néerlandais et le portugais.
Selon Banc MT Résultats, le Stable LM 2 1.6B affiche des performances compétitives, correspondant ou même dépassant des modèles nettement plus grands.


(notation sur une échelle de 1 à 10)
En publiant l’un des petits modèles de langage les plus puissants à ce jour et en offrant une transparence totale sur les détails de sa formation, nous visons à permettre aux développeurs et aux créateurs de modèles d’expérimenter et d’itérer rapidement. Il est important de noter qu’en raison de la nature des modèles de langage petits et de faible capacité, Stable LM 2 1.6B peut également présenter des problèmes courants tels que des taux « d’hallucinations » élevés ou un langage potentiellement toxique. Nous demandons à la communauté de garder cela à l’esprit lors de la création de ses applications et de prendre les mesures appropriées pour garantir qu’elles se développent de manière responsable.
Pour usage commercial et non commercial
Stable LM 2 1.6B, le premier d’une série de modèles Stable LM, fait partie de l’adhésion Stability AI. L’adhésion comporte trois niveaux d’adhésion distincts, garantissant que quiconque, des particuliers aux entreprises, puisse bénéficier de cette technologie.






