Des chercheurs ont récemment annoncé qu’ils avaient entraîné un modèle de langage étendu (LLM) avec des capacités émergentes. Ce modèle de synthèse vocale dispose de 980 millions de paramètres, ce qui en fait le plus grand modèle de ce type à avoir jamais été créé. Grâce à un entraînement sur jusqu’à 100 000 heures de données vocales du domaine public, le modèle a montré des avancées significatives dans sa polyvalence et sa robustesse.
Les chercheurs ont observé que même la version de taille moyenne du modèle, comportant 400 millions de paramètres et entraînée sur 10 000 heures d’audio, a montré une nette amélioration dans sa capacité à gérer des phrases de test délicates. Ces phrases de test contenaient des caractéristiques lexicales, syntaxiques et paralinguistiques complexes, comme des noms composés, des émotions, des mots étrangers et des signes de ponctuation. Même si le modèle n’a pas réussi à les gérer parfaitement, il a commis beaucoup moins d’erreurs d’accentuation, d’intonation et de prononciation que les modèles de synthèse vocale existants.
Le modèle de 980 millions de paramètres, quant à lui, n’a pas démontré de capacités supplémentaires par rapport à la version de 400 millions de paramètres. Cela suggère que la taille optimale du modèle pour les capacités émergentes se situe probablement quelque part entre ces deux versions.
L’objectif de ce travail expérimental est de démontrer que ces modèles peuvent atteindre de nouveaux seuils de polyvalence à mesure qu’ils évoluent, ce qui est un signe encourageant pour l’IA conversationnelle. De plus, le modèle est conçu pour être léger et diffusable, ce qui pourrait permettre à l’audio parlé au son naturel d’être transmis via des connexions à faible bande passante.
Il est intéressant de noter que ces avancées dans les modèles de synthèse vocale pourraient avoir des applications dans un large éventail de domaines, de l’assistance virtuelle à la traduction automatique en passant par les aides auditives de nouvelle génération.
Ces résultats ont été publiés dans un article complet disponible sur une plateforme de recherche académique de renommée mondiale.
Cette avancée souligne une fois de plus le potentiel considérable de l’IA dans le domaine de la synthèse vocale, et ouvre la voie à une nouvelle génération de technologies audio.