Pourquoi les sites web entravent-ils le robot d’indexation de ChatGPT ? Un mystère à résoudre !

Pourquoi les sites web bloquent le robot d’indexation de ChatGPT ?

Le 8 août dernier, OpenAI a dévoilé GPTBot : un robot d’indexation capable de scanner des pages web afin d’en extraire des données. Le but de la collecte, selon l’entreprise, est d’aider ses modèles d’intelligence artificielle à devenir plus précis, mais aussi à améliorer leurs capacités générales et leur fiabilité. A l’époque, OpenAI précisait que GPTBot était capable de filtrer et supprimer les sources qui nécessitent un accès payant, qui sont connues pour collecter des informations personnellement identifiables (PII) ou dont le contenu viole les politiques. Cependant, malgré ces assurances, plusieurs médias et plateformes ont bloqué l’accès au robot d’exploration du web.

Le New York Times, par exemple, a restreint l’accès à l’agent dès le 17 août, quelques jours après avoir révisé ses conditions d’utilisation afin d’interdire l’utilisation de ses contenus pour entraîner des modèles d’intelligence artificielle. D’autres grands médias tels que The Guardian, CNN et Reuters ont également adopté la même démarche. En France, Radio France, TF1, France Médias Monde et le site actu.fr, propriété de Publihebdos, filiale de Sipa-Ouest-France, ont également bloqué l’accès à GPTBot par mesure de précaution.

Les sites populaires bloquent GPTBot

Une étude menée par Originality.ai, une société spécialisée dans la détection de contenus générés par l’IA, a révélé que le blocage de GPTBot ne concerne pas seulement les médias grand public. Sur les 1000 sites les plus visités au monde, 9,2 % ont bloqué GPTBot durant ses deux premières semaines de fonctionnement. Parmi ces sites figurent Amazon, Quora, Shutterstock, WikiComment, Foursquare, Tumblr, IKEA, Airbnb et Planète seule.

Le pourcentage de blocage est encore plus élevé parmi les 100 principaux sites web, avec 15 % de blocage, selon l’étude d’Originality.ai. Ce chiffre souligne les inquiétudes croissantes à l’égard de l’utilisation de GPTBot.

Selon Originality.ai, de plus en plus de sites populaires dans le monde bloquent l’accès à GPTBot. © Originalité.ai

Pourquoi GPTBot suscite-t-il des inquiétudes ?

Plusieurs raisons expliquent cette méfiance à l’égard de GPTBot. The Guardian a notamment exprimé ses préoccupations concernant une collecte non autorisée de données protégées par le droit d’auteur à des fins d’exploitation commerciale. Un porte-parole du média a déclaré : « La collecte de propriété intellectuelle du site Web Guardian à des fins commerciales est, et a toujours été, contraire à nos conditions d’utilisation ».

« La collecte de propriété intellectuelle du site Web Guardian à des fins commerciales est, et a toujours été, contraire à nos conditions d’utilisation » explique un porte-parole des médias.

De plus, certaines publications, dont le New York Times, envisagent d’intenter une action en justice contre OpenAI pour violation du droit d’auteur. D’autres médias sont en pourparlers avec des sociétés d’IA pour vendre leurs données en échange d’une commission.

La méfiance envers GPTBot et OpenAI a également été alimentée par la suspension de la fonctionnalité « Naviguer avec Bing », qui permettait à ChatGPT de naviguer sur le Web pour fournir des réponses à jour aux utilisateurs. Cette option permettait de contourner les paywalls et de récupérer le texte intégral d’une URL. OpenAI a déclaré vouloir faire ce qui est bien pour les propriétaires de contenu et travaille actuellement à corriger ce problème.

Comment restreindre l’accès à GPTBot partiellement ou complètement

OpenAI a publié un article de blog expliquant comment bloquer l’accès de GPTBot à un site web. Il suffit d’ajouter le code « Agent utilisateur : GPTBot ; Interdire : / » au fichier robots.txt du site pour empêcher complètement GPTBot d’y accéder. Il est également possible d’autoriser GPTBot à accéder uniquement à certaines parties du site en utilisant le code « Agent utilisateur : GPTBot ; Autoriser : /répertoire-1/ ; Interdire : /répertoire-2/ ». Avec ces mesures, les propriétaires de sites web peuvent contrôler l’accès de GPTBot selon leurs besoins.

Laisser un commentaire