Présentation de la version bêta stable japonaise de LM
Présentation de la version bêta stable japonaise de LM


Communiqué de Stability AI:
Stability AI Japan a publié une série de LLM « Japanese Stable LM Beta (JSLM Beta) », comprenant un grand modèle de langage japonais ouvert très performant. Basés sur Llama 2, les modèles ont été formés pour améliorer leurs capacités et leurs connaissances en langue japonaise afin d’adapter spécifiquement leur utilisation au Japon. Le plus remarquable de ces modèles, JSLM Beta 70B, est le plus grand modèle de langage orienté instructions de la série, avec une taille de 70 milliards de paramètres et est disponible pour un usage commercial. Depuis novembre 2023, JSLM Beta 70B est le plus grand modèle de langage ouvert spécifique au japonais que nous connaissions.
Les six modèles sortis sont répartis en trois catégories :
Modèle de langage à usage général « JSLM Base Beta »
« JSLM Base Beta » a suivi une pré-formation continue sur le modèle de base de Llama 2 afin d’augmenter ses capacités en lecture et en écriture du japonais, améliorant ainsi ses connaissances en fournissant des informations contextuelles spécifiquement pertinentes pour le Japon avec des données à grande échelle provenant principalement du Web.
La formation a utilisé des données japonaises et anglaises provenant de sources telles que Wikipedia, mC4, CC-100, OSCAR et SlimPajama (à l’exclusion de Books3), totalisant environ 100 milliards de jetons.
Base LM stable japonaise bêta 7B
Base LM stable japonaise Beta 70B
Modèle de langage adapté aux instructions « JSLM Instruct Beta »
« JSLM Instruct Beta » est un modèle de langage adapté aux instructions qui peut répondre aux instructions et aux tâches de l’utilisateur en japonais. Il a été créé en appliquant un réglage fin supervisé (SFT) au modèle de base susmentionné une fois la formation initiale terminée. Le SFT a utilisé des ensembles de données publics tels que Databricks Dolly-15k et Anthropic HH.
Instruction LM stable japonaise bêta 7B
Instruction LM stable japonaise bêta 70B
Modèle de vocabulaire étendu « JSLM JA-Vocab Beta »
« JSLM JA-Vocab Beta » est un modèle qui a subi une expansion du vocabulaire en plus du pré-entraînement du modèle JSLM Base Beta. Ceci est réalisé en implémentant un tokenizer initialement spécialisé pour l’anglais, qui a été davantage formé au vocabulaire japonais. En utilisant ce tokenizer optimisé, le modèle acquiert une plus grande capacité à traiter la langue japonaise avec une compréhension plus précise de la formulation conversationnelle. L’ajout de vocabulaire a été mis en œuvre avant la pré-formation et impliquait l’ajout d’environ 20 000 mots japonais.
Sur la base de nos tests, la formation supplémentaire en vocabulaire a environ doublé la vitesse des résultats générés en japonais.






