Alibaba lance le modèle révolutionnaire Qwen-72B LLM et Qwen-Chat, surpassant les modèles concurrents sur des ensembles de données de référence de grande taille

Alibaba publie le modèle open source Qwen-72B LLM avec une longueur de contexte de 32k, ainsi que Qwen-Chat, qui surpassent les modèles de taille similaire sur les ensembles de données de référence

La société vient de lancer une série de modèles linguistiques appelée Qwen, qui comprend désormais Qwen-1.8B, Qwen-7B, Qwen-14B et Qwen-72B, ainsi que Qwen-Chat, les modèles de chat, à savoir Qwen-1.8. B-Chat, Qwen-7B-Chat, Qwen-14B-Chat et Qwen-72B-Chat.

Des représentants de la société chinoise ont affirmé que les modèles linguistiques de base sont solides et sont préformés de manière stable pour offrir jusqu’à 3 000 milliards de jetons de données multilingues avec une large couverture de domaines et de langues, en mettant l’accent sur le chinois et l’anglais. Ils sont également capables d’atteindre des performances compétitives sur la base d’ensembles de données de référence.

Les modèles Qwen ont montré leur supériorité sur les ensembles de données de référence MMLU, C-Eval, GSM8K, MATH, HumanEval, MBPP, BBH, etc. qui évaluent les capacités des modèles en matière de compréhension du langage naturel, de résolution de problèmes mathématiques, de codage, etc. De plus, le modèle Qwen-72B a atteint de meilleures performances que LLaMA2-70B dans toutes les tâches et a même surpassé GPT-3.5 dans 7 tâches sur 10.

Ces résultats sont historiques, car ils montrent à quel point Alibaba a réalisé des avancées significatives dans le domaine de l’intelligence artificielle. Ces modèles ouvrent de nouvelles opportunités pour le développement de nouvelles applications qui peuvent transformer de nombreux secteurs, de la santé à la finance, en passant par la technologie et l’éducation.

Pour plus de résultats expérimentaux et de détails sur les performances détaillées des modèles sur d’autres ensembles de données de référence, les chercheurs et les développeurs peuvent se référer au rapport technique publié sur GitHub.

L’annonce de ces nouveaux modèles a suscité beaucoup d’enthousiasme dans la communauté scientifique et technologique. Beaucoup soulignent la contribution significative que ces avancées apporteront à la recherche en intelligence artificielle et au développement de nouvelles applications.

En fin de compte, les modèles Qwen de la société Alibaba ont le potentiel de révolutionner l’industrie de l’intelligence artificielle. Ils témoignent de l’engagement continu de la société à rester à la pointe de l’innovation et à fournir des outils de pointe pour la communauté mondiale de la recherche en IA.

Laisser un commentaire