Servir des modèles d'IA à grande échelle avec vLLM
Servir des modèles d'IA à grande échelle avec vLLM

Auteur: Google Cloud Tech – Durée: 00:03:08
Libérez tout le potentiel de vos modèles d’IA en les servant à grande échelle avec vLLM. Cette vidéo aborde des problèmes courants tels que l'inefficacité de la mémoire, la latence élevée sous charge et les modèles de grande taille, montrant comment vLLM maximise le débit de votre matériel existant. Découvrez les fonctionnalités innovantes de vLLM telles que PagedAttention, Prefix Caching, le service multi-hôtes et le service désagrégé, et découvrez comment il s'intègre de manière transparente aux GPU et TPU de Google Cloud pour une inférence d'IA flexible et hautes performances. Chapitres : 0:00 – Introduction : Le défi de la mise à l'échelle de l'IA 0:25 – 3 problèmes courants 1:01 – Solution : vLLM pour un service performant 1:13 – Fonctionnalité vLLM : PagedAttention 1:30 – Fonctionnalité vLLM : mise en cache des préfixes 1:46 – Fonctionnalité vLLM : serveur multi-hôtes et désagrégé 2:07 – Prise en charge de vLLM sur Google Cloud (GPU et TPU) 2:29 – Paramètres réglables de vLLM 2:46 – Ressources de conclusion : Bienvenue dans vLLM → https://goo.gle/49zlRZN
Inférence TPU GitHub → https://goo.gle/3JUkBpn
Abonnez-vous à Google Cloud Tech → https://goo.gle/GoogleCloudTech
#GoogleCloud #vLLM #AIInfrastructure Intervenants : Don McCasland Produits mentionnés : infrastructure d'IA, unités de traitement tensoriel, GPU cloud
Traduit en français à partir de cette source






