Mise à l'échelle automatique de votre agent IA sous charge
Mise à l'échelle automatique de votre agent IA sous charge

Auteur: Google Cloud Tech – Durée: 00:02:59
Cette vidéo montre comment mettre automatiquement à l'échelle automatiquement votre agent IA sous une forte charge d'utilisateurs. Nous simulons un test de résistance sur une architecture découplée, combinant un Gemma LLM alimenté par GPU avec un agent ADK léger sur Google Cloud Run. Découvrez comment Cloud Run provisionne intelligemment les ressources pour répondre à une demande élevée, garantissant une mise à l'échelle gracieuse et une rentabilité en mettant uniquement à l'échelle le composant de goulot d'étranglement. Chapitres : 0:00 – Introduction : Le défi de la charge 0:19 – Tests de charge avec Locust 1:31 – Observation de l'autoscaling dans Cloud Run 2:02 – Apprentissages clés : Découplage et rentabilité 2:31 – Conclusion Ressources : Codelab → http://goo.gle/475sUpV
Dépôt GitHub → http://goo.gle/3KJVc1Y
GPU Google Cloud Run → http://goo.gle/48sn3NV
Documentation ADK → http://goo.gle/3LauFL8
Abonnez-vous à Google Cloud Tech → https://goo.gle/GoogleCloudTech
#GoogleCloud #LLM #Gemma #ADK #CloudRun Intervenants : Amit Maraj Produits mentionnés : Cloud Run, Gemma, AI Infrastructure, Cloud GPU
Traduit en français à partir de cette source






