Quand l’IA reproduit les préjugés malgré une formation: le cas des chatbots racistes
Quand l’IA reproduit les préjugés malgré une formation: le cas des chatbots racistes


Un groupe de chercheurs en intelligence artificielle de l’Allen Institute for AI, de l’Université de Stanford et de l’Université de Chicago aux États-Unis a découvert que de nombreux grands modèles de langage continuent d’utiliser des stéréotypes racistes malgré une formation antiraciste. Les chercheurs ont testé plusieurs LLM populaires pour évaluer l’impact de la formation antiraciste sur leurs réponses.
Les chercheurs ont formé des chatbots IA sur des textes rédigés dans le style de l’anglais afro-américain et standard pour observer les réponses des chatbots. Les résultats ont montré que la plupart des chatbots ont renforcé des stéréotypes négatifs en associant des caractéristiques négatives aux auteurs des textes afro-américains.
Les chatbots étaient plus positifs lorsqu’ils commentaient les Afro-Américains en général, utilisant des termes tels qu’intelligent et passionné. Cependant, lorsqu’on leur demandait de décrire le type de travail des auteurs des deux styles de textes, les chatbots montraient un biais en associant les textes afro-américains à des emplois moins qualifiés, des crimes et la peine de mort.
Les chercheurs ont conclu que les grands LLM présentent plus de préjugés négatifs envers les textes afro-américains que les modèles plus petits, suggérant un problème profond de partialité dans ces modèles.
Plus d’informations : Valentin Hofmann et al, Les préjugés dialectaux prédisent les décisions de l’IA concernant le caractère, l’employabilité et la criminalité des personnes, arXiv (2024). DOI : 10.48550/arxiv.2403.00742
Informations sur la revue : arXiv









