Piratage de récompense : une source potentielle de grave désalignement d’Al
Piratage de récompense : une source potentielle de grave désalignement d’Al

Auteur: Anthropic – Durée: 00:51:57
Nous discutons de notre nouvel article, « Désalignement émergent naturel dû au piratage de récompense dans la production RL ». Dans cet article, nous montrons pour la première fois que des processus réalistes de formation en IA peuvent accidentellement produire des modèles mal alignés. Plus précisément, lorsque de grands modèles de langage apprennent à tricher sur des tâches de programmation logicielle, ils affichent d’autres comportements, encore plus mal alignés, comme conséquence involontaire. Il s’agit notamment de comportements préoccupants tels que la falsification d’alignement et le sabotage de la recherche sur la sécurité de l’IA. 00:00 Introduction 00:42 De quoi parle ce travail ? 5:21 Comment avons-nous mené notre expérience ? 14:48 Détecter le désalignement des modèles 22:17 Prévenir le désalignement dû au piratage des récompenses 37:15 Stratégies alternatives 42:03 Limites 44:25 Comment cette étude a-t-elle changé notre point de vue ? 50:31 Points à retenir pour les personnes intéressées à mener des recherches sur la sécurité de l'IA
Traduit en français à partir de cette source






