Comment bloquer l’utilisation de vos textes et images par ChatGPT

Comment empêcher ChatGPT d’utiliser vos textes et images

L’intelligence artificielle générale (IAG) occupe désormais une place prépondérante dans le paysage numérique. Depuis la fin de l’année 2022, elle s’est imposée et continue de s’améliorer en répondant de manière plus précise aux demandes ou en générant des images de plus en plus réalistes. Toutefois, pour atteindre de tels résultats, les modèles linguistiques à partir desquels ces IA sont créées ont besoin d’être entraînés.

Si elles ont été entraînées avant leur déploiement public, elles continuent constamment de s’entraîner sur de nouvelles données, peut-être les vôtres. C’est notamment le cas de DALL-E et ChatGPT, deux produits d’OpenAI. Cependant, il est possible d’empêcher cette récupération de données, voire même de « polluer vos propres données » pour les plus vindicatifs !

Comment empêcher ChatGPT de s’entraîner sur vos données

Par défaut, ChatGPT utilise vos données, provenant de vos conversations avec le chatbot, pour s’entraîner. Avec l’arrivée de DALL-E 3, le générateur d’images, et la reconnaissance d’images au sein de l’agent conversationnel, OpenAI crée une boucle d’entraînement très efficace pour son IA. Mais il est possible de refuser l’accès à vos données à ChatGPT, qui ne sera plus entraîné sur celles-ci.

« Les contrôles des données vous permettent de désactiver l’historique des conversations et de choisir facilement si vos conversations seront utilisées pour entraîner nos modèles », indique la FAQ d’OpenAI.

1. Sur un navigateur web :

Pour désactiver cette « historique des conversations », voici la procédure à suivre sur un navigateur web :

– Dans l’interface de ChatGPT, cliquez sur le menu à trois points en bas à gauche de votre écran, près du nom d’utilisateur, puis choisissez « Paramètres ».
– Dans la fenêtre qui apparaît, choisissez l’onglet « Contrôles des données ».
– Décochez l’option « Historique des conversations et entraînement ».

2. Sur smartphone Android :

Dans l’application mobile Android, voici la procédure :

– Appuyez sur le menu à burger en haut à gauche de votre écran et choisissez « Paramètres ».
– Sélectionnez « Contrôles des données ».
– Décochez l’option « Historique des conversations et entraînement ».

3. Sur iPhone :

Dans l’application mobile iOS, voici la marche à suivre :

– Appuyez sur le menu à trois points en haut à droite de votre écran et choisissez « Paramètres ».
– Sélectionnez « Contrôles des données ».
– Décochez l’option « Historique des conversations et entraînement ».

Il est important de noter que l’action n’est pas synchronisée. Si vous utilisez ChatGPT à la fois sur un navigateur web et via l’application mobile, vous devrez répéter l’opération sur chaque interface.

Comment bloquer ChatGPT pour votre site et vos créations

OpenAI nous assure que « une fois que les modèles d’IA ont appris à partir de leurs données d’entraînement, ils n’y ont plus accès ». Cependant, la société déclare comprendre « que certains propriétaires de contenu ne souhaitent pas que leurs œuvres accessibles au public soient utilisées pour alimenter [ses] modèles ». Pour pallier ce problème éventuel, OpenAI propose deux alternatives.

1. Bloquer l’accès de votre site à ChatGPT :

La première consiste à interdire l’accès au robot d’IA de l’entreprise, GPTBot, à votre site pour collecter des données d’entraînement. Où qu’il puisse collecter des données à partir des sources Internet accessibles au public, GPTBot s’y rend. Et de plus en plus de sites, notamment les grands médias, interdisent son accès. Pour cela, vous devez d’abord l’identifier. Voici ces petits noms :

– User agent token : GPTBot
– Full user-agent string : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Pour refuser l’accès, ajoutez la commande suivante dans le fichier robots.txt de votre site :

– User-agent: GPTBot
– Disallow: /

OpenAI explique la procédure complète et les actions de son robot sur cette page.

2. Utiliser le formulaire « artistes et propriétaires de contenu désabonnement » pour protéger vos créations :

La deuxième alternative proposée par ChatGPT consiste à indiquer ou à fournir le contenu créatif dont vous êtes l’auteur afin qu’il soit supprimé des données d’entraînement. Pour cela, un formulaire a été mis à disposition des artistes et des détenteurs de droits par OpenAI. « Lorsque vous remplissez ce formulaire, nous examinerons votre demande et pourrions vous contacter pour obtenir des informations supplémentaires. Une fois vos informations vérifiées, nous retirerons les images respectives des ensembles de données d’entraînement futurs. »

Une précision importante : OpenAI détient certaines licences pour des ensembles de données, qui pourraient inclure votre travail ou vos images, si vous avez accordé des droits de licence à des tiers. Dans ce cas, l’entreprise ne pourra pas supprimer le contenu que vous avez signalé.

Empoisonner vos données contre l’IA ?

Ceci pourrait être la « dernière défense des créateurs de contenu contre les robots d’extraction de données » et, par extension, l’utilisation des données pour l’entraînement de modèles linguistiques. C’est ce que pense l’équipe derrière Nightshade, un outil qui corrompt les données d’une œuvre créative pour polluer les données d’entraînement, et décrypté par le « MIT Technology Review ».

Avec Nightshade, une image représentant un chapeau pourrait être interprétée par l’IA comme l’image d’un chat, par exemple. En fin de compte, un tel empoisonnement des modèles linguistiques pourrait corrompre complètement une IA et la faire faire pratiquement n’importe quoi. La revue américaine ajoute qu’il est particulièrement difficile de supprimer ces données empoisonnées une fois qu’elles entrent dans l’entraînement du modèle et que les dommages sont rapides : « Avec 300 échantillons empoisonnés, un attaquant peut manipuler Stable Diffusion pour générer des images de chiens qui ressemblent à des chats. »

L’équipe derrière Nightshade a également développé Glaze, un outil qui cache le style personnel d’un artiste pour éviter qu’il ne soit collecté par un robot. Ces deux outils fonctionnent de la même manière, en modifiant subtilement les pixels des images de manière invisible à l’œil humain, afin de manipuler l’apprentissage automatique de telle sorte que le modèle interprète le visuel différemment de ce qu’il montre réellement.

Laisser un commentaire