Mistral AI dévoile Pixtral 12B, un modèle multimodal puissant pour comprendre images et documents
Mistral AI dévoile Pixtral 12B, un modèle multimodal puissant pour comprendre images et documents


Le fleuron français de l’intelligence artificielle, Mistral AI, continue de réinventer le paysage technologique. Après sa collaboration fructueuse avec Nvidia pour créer Mistral NeMo, la start-up s’attaque désormais à un nouveau défi : les modèles multimodaux. Le résultat de cette ambitieuse initiative, nommé Pixtral, promet des avancées significatives dans le traitement des images et des documents.
Présentation de Pixtral
Pixtral, avec ses 12 milliards de paramètres, est capable d’interpréter aussi bien des images que des documents textuels. Ce modèle révolutionnaire se distingue par ses compétences impressionnantes dans plusieurs domaines, notamment :
- La compréhension de graphiques complexes
- La réponse à des questions basées sur des documents
- Le raisonnement multimodal
- Le suivi précis d’instructions
Des performances remarquées
Les performances de Pixtral sont tout simplement remarquables. Il affiche un score de 52,5% sur le benchmark de raisonnement MMMU, surpassant de nombreux modèles plus imposants tels que Gemini Flash-8B et Claude-3 Haiku. En outre, Pixtral se démarque dans le suivi d’instructions, surpassant ou égalant des modèles comme Qwen2-VL 7B et LLaVa-OneVision 7B, avec une amélioration relative de 20% sur l’IF-Eval et le MT-Bench.
Architecture innovante
Pour atteindre de telles performances, Mistral AI a conçu une architecture unique, remplaçant Mistral NeMo 12B. Pixtral se compose de :
- Un encodeur de vision de 400 millions de paramètres, entraîné « from scratch »
- Un décodeur multimodal de 12B basé sur le LLM NeMo, capable de prédire le prochain jeton de texte à partir de séquences d’images et de texte
Cette combinaison permet à Pixtral de traiter un nombre variable d’images à des tailles arbitraires, tout en ingérant les images à leur résolution et rapport d’aspect naturels. Chaque patch 16×16 de l’image est converti en jetons, maximisant ainsi la représentation des données visuelles.
Flexibilité et rapidité
Une autre caractéristique marquante de Pixtral est sa capacité à traiter des images complexes avec rapidité. Ce modèle peut analyser avec précision des diagrammes et des graphiques en haute résolution, tout en assurant des vitesses d’inférence élevées sur des images plus petites, comme des icônes et des illustrations. Mistral AI assure que Pixtral ne fait pas de compromis sur les performances textuelles pour exceller dans les tâches multimodales.
Accessibilité et intégration
Pixtral est déjà accessible via l’interface de conversation Le Chat et la console de Mistral AI. Pour tirer parti de ce modèle, il suffit de le sélectionner dans la liste, de télécharger une image et de commencer à interagir avec les données. De plus, une API permet d’intégrer Pixtral dans différentes applications et flux de travail, élargissant ainsi son champ d’application.
Nouveaux tarifs et options
Parallèlement à cette annonce, Mistral AI a dévoilé de nouveaux tarifs pour l’utilisation de ses modèles. La start-up a aussi lancé une version optimisée de Mistral Small, disponible sous la licence Mistral Research. Cette version, forte de 22 milliards de paramètres, se positionne comme une solution économique et rapide pour des applications variées, telles que :
- La traduction
- La synthèse de texte
- L’analyse des sentiments
Mistral Small se place entre Mistral NeMo 12B et Mistral Large 2, offrant ainsi une flexibilité précieuse dans le choix des solutions IA.
Avec Pixtral et ses nouvelles offres, Mistral AI confirme son rôle de leader dans l’innovation technologique. En améliorant constamment ses modèles et en développant des solutions multimodales, la start-up française place la barre haute pour l’avenir de l’intelligence artificielle.

Franck Ribiere
Basé en France entre Aix-en-Provence et Marseille, Franck est un informaticien passionné par l'intelligence artificielle, avec une expertise en développement logiciel web. Toujours à l'affût des dernières avancées, il s'efforce de proposer les infos les + pertinentes.









