Une attaque par extraction de données menée par des chercheurs a mis en lumière la vulnérabilité de ChatGPT, un modèle de chatbot très populaire. Les modèles de langage ont toujours été vulnérables à de telles attaques, mais cette dernière a mis en évidence l’ampleur du problème.
Selon les chercheurs, ChatGPT peut être pré-entraîné pour de nombreuses époques, ce qui augmente considérablement la mémorisation des données. Cette sur-entraînement est censé maximiser l’utilité du modèle à un coût d’inférence fixe. Cependant, cela induit également un compromis entre confidentialité et efficacité d’inférence. Cette révélation soulève des préoccupations quant à la sécurité et la confidentialité des données traitées par ChatGPT.
L’attaque a également démontré que la répétition de mots spécifiques peut provoquer la divergence du modèle, compromettant ainsi sa capacité à fonctionner de manière fiable. De plus, la répétition d’un seul jeton est instable, ce qui soulève des inquiétudes quant à la fiabilité du modèle.
Les chercheurs ont conclu que les données d’entraînement peuvent être facilement extraites des modèles de langage actuels à l’aide de techniques simples. Ils ont également souligné l’importance d’étudier la déduplication des données de formation et d’évaluer la mémorisation détectable.
Cette récente attaque met en évidence des lacunes importantes dans les modèles de chatbot et soulève des préoccupations quant à leur fiabilité et leur sécurité. Il est crucial que des mesures soient prises pour renforcer la protection des données et améliorer la sécurité des modèles de langage afin de garantir une utilisation sûre et fiable de ces technologies.