Mistral AI dévoile Pixtral 12B, un modèle multimodal puissant pour comprendre images et documents

Mistral AI dévoile Pixtral 12B, un modèle multimodal puissant pour comprendre images et documents

21 septembre 2024 • 14:24
PARTAGER
Mistral AI - Pixtral 12B
Futur-IA: Mistral AI dévoile Pixtral 12B, un modèle multimodal puissant pour comprendre images et documents

Le fleuron français de l’intelligence artificielle, Mistral AI, continue de réinventer le paysage technologique. Après sa collaboration fructueuse avec Nvidia pour créer Mistral NeMo, la start-up s’attaque désormais à un nouveau défi : les modèles multimodaux. Le résultat de cette ambitieuse initiative, nommé Pixtral, promet des avancées significatives dans le traitement des images et des documents.

Présentation de Pixtral

Pixtral, avec ses 12 milliards de paramètres, est capable d’interpréter aussi bien des images que des documents textuels. Ce modèle révolutionnaire se distingue par ses compétences impressionnantes dans plusieurs domaines, notamment :

  • La compréhension de graphiques complexes
  • La réponse à des questions basées sur des documents
  • Le raisonnement multimodal
  • Le suivi précis d’instructions

Des performances remarquées

Les performances de Pixtral sont tout simplement remarquables. Il affiche un score de 52,5% sur le benchmark de raisonnement MMMU, surpassant de nombreux modèles plus imposants tels que Gemini Flash-8B et Claude-3 Haiku. En outre, Pixtral se démarque dans le suivi d’instructions, surpassant ou égalant des modèles comme Qwen2-VL 7B et LLaVa-OneVision 7B, avec une amélioration relative de 20% sur l’IF-Eval et le MT-Bench.

Architecture innovante

Pour atteindre de telles performances, Mistral AI a conçu une architecture unique, remplaçant Mistral NeMo 12B. Pixtral se compose de :

  • Un encodeur de vision de 400 millions de paramètres, entraîné « from scratch »
  • Un décodeur multimodal de 12B basé sur le LLM NeMo, capable de prédire le prochain jeton de texte à partir de séquences d’images et de texte

Cette combinaison permet à Pixtral de traiter un nombre variable d’images à des tailles arbitraires, tout en ingérant les images à leur résolution et rapport d’aspect naturels. Chaque patch 16×16 de l’image est converti en jetons, maximisant ainsi la représentation des données visuelles.

Flexibilité et rapidité

Une autre caractéristique marquante de Pixtral est sa capacité à traiter des images complexes avec rapidité. Ce modèle peut analyser avec précision des diagrammes et des graphiques en haute résolution, tout en assurant des vitesses d’inférence élevées sur des images plus petites, comme des icônes et des illustrations. Mistral AI assure que Pixtral ne fait pas de compromis sur les performances textuelles pour exceller dans les tâches multimodales.

Accessibilité et intégration

Pixtral est déjà accessible via l’interface de conversation Le Chat et la console de Mistral AI. Pour tirer parti de ce modèle, il suffit de le sélectionner dans la liste, de télécharger une image et de commencer à interagir avec les données. De plus, une API permet d’intégrer Pixtral dans différentes applications et flux de travail, élargissant ainsi son champ d’application.

Nouveaux tarifs et options

Parallèlement à cette annonce, Mistral AI a dévoilé de nouveaux tarifs pour l’utilisation de ses modèles. La start-up a aussi lancé une version optimisée de Mistral Small, disponible sous la licence Mistral Research. Cette version, forte de 22 milliards de paramètres, se positionne comme une solution économique et rapide pour des applications variées, telles que :

  • La traduction
  • La synthèse de texte
  • L’analyse des sentiments

Mistral Small se place entre Mistral NeMo 12B et Mistral Large 2, offrant ainsi une flexibilité précieuse dans le choix des solutions IA.

Avec Pixtral et ses nouvelles offres, Mistral AI confirme son rôle de leader dans l’innovation technologique. En améliorant constamment ses modèles et en développant des solutions multimodales, la start-up française place la barre haute pour l’avenir de l’intelligence artificielle.

Article proposé par:
Franck Ribiere

Basé en France entre Aix-en-Provence et Marseille, Franck est un informaticien passionné par l'intelligence artificielle, avec une expertise en développement logiciel web. Toujours à l'affût des dernières avancées, il s'efforce de proposer les infos les + pertinentes.

PARTAGER

PARTAGER

NEWSLETTER: Recevez le meilleur de l'actu IA!

Suivez nous sur les réseaux sociaux

Outils en avant


Vidnoz AI

Catégorie:  Vidéo

Vidnoz AI est un outil générateur de vidéos qui permet aux équipes, aux entreprises et aux utilisateurs de créer des vidéos d'IA attrayantes rapidement et à moindre coût. En éliminant le besoin de caméras, d'acteurs et de studios, Vidnoz AI permet d'économiser du temps et de l'argent. Les utilisateurs ont déclaré avoir économisé jusqu'à 80[...]


WP Dev AI

Catégorie:  Developer Tools,Outils pour développeurs

WP Dev AI permet aux utilisateurs de créer sans effort des fonctionnalités personnalisées pour les sites Web WordPress grâce au code généré par l'IA, éliminant ainsi le besoin de développeurs coûteux. Avec des instructions claires et des extraits de code accessibles à tout moment, les utilisateurs peuvent améliorer efficacement leurs sites WordPress sans expertise technique.[...]

Leonardo AI

Catégorie:  Générateur d'images,Image Generator

Libérez votre créativité avec la puissance de Leonardo Ai. Ce logiciel vous permet de créer des ressources visuelles de haute qualité pour vos projets avec une qualité, une rapidité et une cohérence de style inégalées. Il vous permet de cultiver l'originalité, offre une maîtrise simplifiée et dynamise l'innovation, ce qui en fait un outil essentiel pour diverses[...]


Suno.ai

Catégorie:  Musique

Suno.ai est un logiciel révolutionnaire qui permet à quiconque, des chanteurs de douche aux artistes professionnels, de créer de la musique sans avoir besoin d'instruments de musique. Avec juste votre imagination, vous pouvez créer vos propres chansons sans effort. Suno.ai propose une approche unique et passionnante de la création musicale, la rendant accessible à tous.[...]

Articles populaires

Tags