Déployer une inférence d'IA évolutive et fiable sur Google Cloud
Déployer une inférence d'IA évolutive et fiable sur Google Cloud

Auteur: Google Cloud Tech – Durée: 00:04:38
Découvrez comment déployer des charges de travail d'inférence d'IA évolutives et fiables sur Google Cloud pour des millions d'utilisateurs. Cette vidéo présente une architecture complète axée sur les déploiements multirégionaux, traitant les services comme jetables et intégrant une observabilité robuste. Découvrez comment identifier et surmonter les goulots d'étranglement en matière de performances, exploiter des frameworks tels que vLLM pour plus d'efficacité et utiliser des solutions de stockage Google Cloud telles que GCS Fuse with Anywhere Cache et Managed Lustre. Nous explorons également l'architecture de référence d'inférence GKE et la passerelle d'inférence GKE sensible au modèle pour le routage intelligent. Chapitres : 0:00 – Introduction aux défis de l'inférence IA 0:16 – Création de déploiements d'IA fiables 1:13 – Optimisation des performances d'inférence IA 2:23 – Stratégies pour un stockage évolutif de l'IA 3:18 – Présentation de l'architecture d'inférence GKE 3:35 – Capacités de la passerelle d'inférence GKE 4:00 – Déployer des charges de travail d'IA en toute confiance Ressources : Système de fichiers parallèle hautes performances → https://goo.gle/ra-managed-lustre
Optimisez les charges de travail d'IA et de ML avec Cloud Storage FUSE → https://goo.gle/ra-gcs-fuse
Abonnez-vous à Google Cloud Tech → https://goo.gle/GoogleCloudTech
#GoogleCloud #GCSFUSE #CloudStorage #Lustre Intervenants : Don McCasland Produits mentionnés : infrastructure IA, stockage cloud
Traduit en français à partir de cette source






