La transparence obligatoire des données de formation en intelligence artificielle : un nouveau projet de loi

Un nouveau projet de loi pourrait obliger les entreprises de l’IA à divulguer les données de formation protégées par le droit d’auteur dont elles se sont servies afin que les détenteurs de droits d’auteur soient informés de leur utilisation. Ce projet de loi, nommé l’AI Foundation Model Transparency Act, a été déposé par les représentants Anna Eshoo et Don Beyer et a pour but de réguler la transparence des données de formation utilisées dans les modèles d’intelligence artificielle.

Les modèles de fondation sont considérés comme une forme d’intelligence artificielle très avancée, capable de s’entraîner sur de grandes quantités de données non étiquetées, puis adaptées à une grande variété de tâches ultérieures. Depuis leur introduction en 2018, ils ont profondément transformé la manière dont sont construits les systèmes d’IA.

Des plaintes pour violation du droit d’auteur se multiplient

Plusieurs plaintes en recours collectif ont été déposées contre des entreprises d’IA comme OpenAI et Meta. Des personnalités publiques telles que la comédienne Sarah Silverman et les auteurs Christopher Golden et Richard Kadrey affirment avoir poursuivi ces entreprises pour utilisation non autorisée de leurs œuvres à des fins d’entraînement de modèles d’IA. Les plaignants allèguent que leurs œuvres ont été utilisées sans accord et sans compensation financière.

Ces entreprises se défendent en affirmant avoir obtenu ces données à partir de sources légitimes, mais les détenteurs de droits d’auteur estiment avoir été lésés. Certains auteurs ont même prétendu que les modèles d’IA étaient capables de résumer leurs livres sur demande, témoignant de l’utilisation de leurs œuvres à des fins d’entraînement.

En parallèle, le New York Times a récemment mis à jour ses conditions d’utilisation pour interdire le scrap de son contenu à des fins d’entraînement d’IA. Cette décision vient alors que les entreprises continuent de monétiser des applications d’IA basées sur des données collectées illégalement sur Internet.

Des actions en justice pour la protection des droits d’auteur

Face à cette situation, des agents littéraires de New York ont exprimé leur préoccupation quant à l’utilisation abusive du contenu protégé par le droit d’auteur par les entreprises d’IA. Certains envisagent même d’engager des actions en justice pour protéger les intérêts des auteurs.

Plusieurs auteurs américains ont également intenté des poursuites contre des entreprises comme OpenAI et Meta, dénonçant l’utilisation non autorisée de leurs œuvres. Selon eux, les entreprises d’IA ont utilisé leurs livres pour entraîner leurs systèmes sans avoir obtenu d’autorisation préalable.

En parallèle, une action en justice a récemment été intentée contre GitHub Copilot, un outil d’IA basé sur le cloud, qui aurait violé les obligations légales envers les auteurs open source et les utilisateurs finaux. Cette action en justice a été menée par des développeurs et des avocats qui voient dans le fonctionnement de GitHub Copilot une mauvaise gestion des licences open source.

Vers une plus grande transparence des données de formation

Face à cette multiplication des actions en justice pour violation du droit d’auteur, les autorités américaines ont pris acte du problème. Ainsi, le projet de loi déposé par les représentants Anna Eshoo et Don Beyer vise à garantir une plus grande transparence quant à l’utilisation des données de formation par les entreprises d’IA.

Ce projet de loi exigerait que les entreprises divulguent les sources des données de formation, décrivent la manière dont les données sont conservées pendant le processus d’inférence, et informe sur la puissance de calcul utilisée pour former et exécuter le modèle. Il vise également à protéger les utilisateurs finaux des modèles d’IA en les informant sur leur utilisation et en prévenant la transmission d’informations inexactes ou nuisibles.

L’objectif de ce projet de loi est de garantir une utilisation plus éthique et transparente des données de formation pour les modèles d’IA. Reste maintenant à voir si ce projet de loi sera adopté et quelle forme précise il prendra après son passage devant les commissions compétentes. Une chose est sûre : la question de la protection des droits d’auteur à l’ère de l’IA est devenue un enjeu majeur pour de nombreux créateurs et détenteurs de droits.

Laisser un commentaire