Découvrez un puissant modèle linguistique open source, rivalisant avec GPT-4, d’après une recherche de l’Université de Californie

Une étude menée par l’Université de Californie a révélé l’existence d’un nouveau grand modèle de langage (LLM) open source, presque aussi performant que GPT-4. En effet, le modèle Starling-7B, entraîné avec l’apprentissage par renforcement à partir du feedback via l’intelligence artificielle (RLAIF), a obtenu un score de 8,09 dans MT Bench avec GPT-4 comme juge, surpassant tous les modèles existants à ce jour sur MT Bench, à l’exception de GPT-4 et GPT-4 Turbo d’OpenAI.

Starling-7B-alpha a utilisé Nectar, un nouvel ensemble de données de classement étiqueté GPT-4, ainsi qu’un nouveau pipeline d’apprentissage par récompense et d’ajustement des politiques. Cet ensemble de données est composé de 183 000 invitations de chat, avec 3,8 millions de comparaisons par paire entre différentes réponses distillées de différents modèles. Des efforts considérables ont été déployés pour atténuer les biais de position lors de l’établissement des classements.

De plus, le modèle de récompense Starling-RM-7B-alpha a été publié, entraîné avec une perte K-wise spécifique sur l’ensemble de données Nectar. Enfin, le modèle linguistique Starling-LM-7B-alpha a été affiné à l’aide du modèle de récompense entraîné, ce qui a permis d’augmenter son score MT-Bench de 7,81 à 8,09.

Cette découverte ouvre de nouvelles perspectives pour la recherche sur l’intelligence artificielle, en particulier sur la sécurité de l’IA. L’équipe derrière ce modèle explore activement diverses méthodologies d’entraînement pour les modèles de récompense et de langage, et continuera à communiquer sur ses résultats et les versions de ses modèles.

En outre, l’évaluation de l’utilité des modèles s’est basée principalement sur MT-Bench et AlpacaEval. Les observations post-RLHF ont révélé des améliorations concernant l’utilité et les caractéristiques de sécurité du modèle. Cependant, des ajustements supplémentaires sont nécessaires pour améliorer la qualité du modèle de récompense et la sécurité du modèle linguistique.

Il est clair que l’introduction de l’apprentissage par renforcement à partir du feedback humain ou du feedback via l’IA améliore significativement le style des réponses, ainsi que leur utilité et leur sécurité. Cela ouvre des perspectives sur la mise à l’échelle des méthodes de RL en ligne à l’aide de données de préférence étendues, et démontre le potentiel d’amélioration des modèles dans l’alignement sur les préférences humaines.

Enfin, l’ensemble de données Nectar, le modèle de récompense et le modèle de langage open-source représentent une avancée majeure dans la recherche sur l’intelligence artificielle, et permettront sans nul doute d’approfondir la compréhension du mécanisme RLHF et de contribuer à la sécurité de l’IA.

Cette étude est une véritable avancée dans le domaine de l’IA et ouvre de nouvelles perspectives pour le développement de modèles de langage plus performants, sécurisés et alignés sur les préférences humaines.

Laisser un commentaire