Piéger les modèles d’IA : comment les inciter à produire des images choquantes en exploitant une faille dans leur compréhension du langage

Une nouvelle étude menée par des chercheurs de renom révèle une faille dans l’intégrité des modèles d’IA générateurs d’images les plus populaires, liée à des problèmes de sécurité et de modération de contenu. Il semblerait qu’un algorithme astucieux baptisé « SneakyPrompt » parvienne à contourner les filtres de sécurité de ces systèmes grâce à des mots absurdes et des tournures de phrases spécifiques. Cette découverte remet en question la fiabilité de ces filtres de sécurité intégrés.

En effet, les chercheurs de l’Université Johns Hopkins de Baltimore et de l’Université Duke de Durham, en Caroline du Nord, ont constaté que des termes inoffensifs et absurdes comme « thwif » ou « mowwly » pouvaient induire ces modèles d’IA en erreur et les pousser à produire des images inappropriées, voire même obscènes. L’algorithme a pu manipuler les réponses des modèles d’IA pour produire des images allant à l’encontre des filtres de sécurité.

Cette faille critique soulève des interrogations quant à la modération automatisée des contenus en ligne, et met en évidence le potentiel pour la création de contenus perturbateurs, voire dangereux. En effet, les implications de cette découverte sont préoccupantes, car elles pourraient permettre à des acteurs malveillants de diffuser de fausses informations en se servant de ces images générées par l’IA.

Des mots inoffensifs comme « glucose » ou « Gregory Face Wright » pourraient être confondus par ces modèles d’IA avec des termes comme « chat » ou « chien ». Cela souligne le fait que ces systèmes sont sensibles au contexte dans lequel sont placés les mots, ce qui peut altérer leur interprétation. Avec un taux de réussite allant jusqu’à 96 % pour contourner les filtres de sécurité, l’algorithme SneakyPrompt se révèle être une menace sérieuse pour la fiabilité de ces modèles d’IA.

Par ailleurs, ces défaillances ont déjà été exploitées pour créer des deepfakes très réalistes, de fausses images montrant des personnalités politiques se livrant à toutes sortes d’activités compromettantes. Par conséquent, des mesures plus strictes de modération et de vérification sont plus que jamais nécessaires pour contrer ces potentielles manipulations.

En réponse à ces découvertes, les chercheurs appellent à une réflexion plus poussée sur la manière de rendre l’IA générative plus robuste et résistante aux adversaires. En fin de compte, il est essentiel de sensibiliser le public et les acteurs de l’industrie à la vulnérabilité de ces modèles d’IA, et de trouver des solutions efficaces pour garantir la fiabilité et la sécurité des contenus générés par ces systèmes.

Laisser un commentaire