Défendre contre l'IA jailbreaks
Défendre contre l'IA jailbreaks

Auteur: Anthropic – Durée: 01:14:31
Les chercheurs anthropiques, Mrinank Sharma, Jerry Wei, Ethan Perez et Meg Tong discutent d'un système basé sur des classificateurs constitutionnels qui protègent les modèles contre le jailbreaks. En savoir plus: https://www.anthropic.com/news/constitutional-classificateurs
0:00 Introduction 0:39 Définition du jailbreaks et leur importance 3:35 Jailbreaks universels 10:24 Le modèle de fromage suisse pour la sécurité 11:25 Expliquer les classificateurs constitutionnels 14:11 Assurer la protection du modèle 17:30 Comprendre les données constitutionnelles et synthétiques 19:00 Flexibilité de l'approche constitutionnelle 24:15 Origins de la Demo Constitutional APPROCHE: 32:24 Configuration 47:42 Comprendre si l'approche est sûre dans la pratique 54:05 La démo publique: Approches Les gens ont essayé de contourner les classificateurs 56:14 Avantages de l'approche du classificateur pour les utilisateurs de Claude 1:00:18 Moments mémorables du projet 1:08:20 Différences d'approche entre ce projet et d'autres recherches 1:11 L'évolution de la recherche en matière de sécurité AI.
Traduit en français à partir de cette source









