Quel est le champion de l’IA ? Des recherches révèlent des performances inattendues des modèles propriétaires par rapport aux modèles open source

La bataille des modèles d’IA fait rage depuis un certain temps, et une récente étude menée par Chatbot Arena a suggéré que les modèles propriétaires surpassent largement les modèles open source. Cependant, la méthode d’évaluation suscite une controverse parmi certains critiques.

La plateforme Chatbot Arena, lancée en mai dernier, utilise le système de notation Elo pour classer les différents modèles linguistiques majeurs. Depuis son lancement, plus de 130 000 avis aveugles par paires ont été collectés pour 45 modèles différents, et les conclusions suggèrent que les modèles propriétaires dominent largement le classement, avec le modèle GPT-4 Turbo en tête.

Cependant, certains critiques remettent en question la fiabilité de la méthode d’évaluation. Ils affirment que les humains pourraient être mal équipés pour classer avec précision les réponses des chatbots, et que les utilisateurs de Chatbot Arena pourraient se tourner naturellement vers certains types d’invites qui favorisent certains types de modèles.

Pour contrebalancer ces préjugés potentiels, LMSYS a développé un système de classement entièrement automatisé appelé LLM Judge, qui utilise les modèles LLM eux-mêmes pour classer la qualité des réponses d’autres LLM avec un score « MT-Bench ». Cette approche tente de se rapprocher des préférences humaines de manière évolutive et explicable.

Les classements en temps réel seront bientôt mis à jour, mais les classements actuels ne prennent en compte que les modèles ajoutés le mois dernier. Cependant, de nouveaux modèles open source comme Mixtral 8x7B montrent des performances prometteuses lors des premiers tests aveugles.

Quelle est votre opinion sur le sujet ? Que pensez-vous des résultats de l’examen de Chatbot Arena ? Que pensez-vous de la méthode utilisée pour évaluer les modèles de langage ? La bataille des modèles d’IA est loin d’être terminée, et il est important d’examiner de manière critique les différentes méthodes d’évaluation pour que les résultats soient les plus précis et fiables possible.

Laisser un commentaire