La collaboration entre les chercheurs en intelligence artificielle et l’IA elle-même pour évaluer le travail scientifique est une avancée significative, mais apportant également des défis à relever. Une récente étude menée par un groupe de chercheurs de renom a mis en lumière l’impact des grands modèles de langage sur les évaluations par les pairs lors de grandes conférences sur l’intelligence artificielle.
En analysant les évaluations par les pairs d’articles soumis à des conférences majeures telles que ICLR, NeurIPS, CoRL et EMNLP, les chercheurs ont constaté que 6,5 à 16,9 % des évaluations auraient pu être substantiellement modifiées par l’IA. Cette découverte souligne l’importance de développer des méthodes pour identifier et distinguer le texte généré par les humains de celui généré par les machines.
Une approche intéressante réside dans l’utilisation d’adjectifs pour différencier les travaux assistés par l’IA des travaux entièrement rédigés par des humains. Cette méthode pourrait permettre une détection plus précise de l’intervention de l’IA dans le processus d’écriture, préservant ainsi l’intégrité de la recherche scientifique.
Cependant, cette étude met également en lumière des préoccupations quant à la transparence dans l’utilisation de l’IA pour la rédaction scientifique. Le risque d’homogénéisation des retours d’IA soulève des questions sur la diversité des opinions et des critiques, nécessaires pour garantir l’objectivité du processus d’évaluation par les pairs.
En définitive, cette étude souligne la nécessité d’une réflexion approfondie sur l’impact de l’IA dans le domaine de la recherche scientifique. Il est essentiel de trouver un équilibre entre l’utilisation efficace de l’IA pour améliorer les pratiques de recherche et la préservation des normes d’évaluation rigoureuses et objectives.