Dans quelle mesure l’alignement de l’IA est-il difficile ? | Salon de la recherche anthropique
Dans quelle mesure l’alignement de l’IA est-il difficile ? | Salon de la recherche anthropique

Auteur: Anthropic – Durée: 00:28:06
Lors d’un événement organisé par l’Anthropic Research Salon à San Francisco, quatre de nos chercheurs (Alex Tamkin, Jan Leike, Amanda Askell et Josh Batson) ont discuté de la science de l’alignement, de l’interprétabilité et de l’avenir de la recherche sur l’IA. Lectures complémentaires : Recherches d’Anthropic : https://anthropic.com/research
Le personnage de Claude : https://www.anthropic.com/news/claude-character
Évaluation du pilotage des fonctionnalités : https://www.anthropic.com/research/evaluating-feature-steering
0:00 Introduction 0:30 Un aperçu de l’alignement 4:48 Les défis de la mise à l’échelle 8:08 Le rôle de l’interprétabilité 12:02 Comment les modèles peuvent aider 14:31 Signes indiquant si l’alignement est facile ou difficile 18:28 Questions et réponses — Délibération multi-agents 20:38 Questions et réponses – Épiphénomène de l’alignement des modèles 23 : 43 Questions et réponses – À quoi pourrait ressembler la résolution de l’alignement
Traduit en français à partir de cette source






