Accélérez les charges de travail d'inférence de l'IA avec les TPU et les GPU de Google Cloud
Accélérez les charges de travail d'inférence de l'IA avec les TPU et les GPU de Google Cloud

Auteur: Google Cloud Tech – Durée: 00:37:11
Le déploiement de modèles d'IA à grande échelle exige des capacités d'inférence hautes performances. Google Cloud propose une gamme d'unités de traitement de tenseurs cloud (TPU) et de machines virtuelles d'unités de traitement graphique (GPU) alimentées par NVidia. Cette session vous guidera à travers les considérations clés pour choisir des TPU et des GPU pour vos besoins d'inférence. Explorez les points forts de chaque accélérateur pour différentes charges de travail telles que les modèles de langage volumineux et les modèles d'IA génératifs. Découvrez comment déployer et optimiser votre pipeline d'inférence sur Google Cloud à l'aide de TPU ou de GPU. Comprenez les implications financières et explorez les stratégies d'optimisation des coûts. Intervenants : Alexander Spiridonov, Omer Hasan, Uğur Arpaci, Kirat Pandya En savoir plus : Toutes les sessions de Google Cloud Suivant → https://goo.gle/next24
#GoogleCloudNext
Traduit en français à partir de cette source






