Interprétabilité: comprendre comment pensent les modèles d'IA
Interprétabilité: comprendre comment pensent les modèles d'IA

Auteur: Anthropic – Durée: 00:59:03
Que se passe-t-il à l'intérieur d'un modèle d'IA comme il le pense? Pourquoi les modèles d'IA sont-ils sycophantiques, et pourquoi halent-ils? Les modèles d'IA sont-ils simplement des «complétes automobiles glorifiés», ou quelque chose de plus compliqué se passe-t-il? Comment étudons-nous scientifiquement ces questions? Rejoignez Josh Batson d'Anthropic, Emmanuel Ameisen et Jack Lindsey alors qu'ils discutent des dernières recherches sur l'interprétabilité de l'IA. En savoir plus sur la recherche d'interprétation d'Anthropic: https://www.anthropic.com/news/tracing-thoughts-language-model
Sections: Introduction [00:00]
La biologie des modèles d'IA [01:37]
Méthodes scientifiques pour ouvrir la boîte noire [6:43]
Quelques fonctionnalités surprenantes dans l'esprit de Claude [10:35]
Pouvons-nous faire confiance à ce qu'un modèle prétend qu'il pense? [20:39]
Pourquoi les modèles AI hallucinent-ils? [25:17]
Modèles d'IA planifiant à l'avance [34:15]
Pourquoi l'interprétabilité est importante [38:30]
L'avenir de l'interprétabilité [53:35]
Traduit en français à partir de cette source






