Les chercheurs ont récemment introduit BASE TTS, le plus grand modèle IA de synthèse vocale jamais conçu, qui présente des capacités émergentes pour prononcer des phrases complexes de manière naturelle. Cette avancée a été saluée par de nombreux experts et a été présentée lors de la Conférence internationale sur l’acoustique, la parole et le traitement du signal (ICASSP) 2024.
Ce modèle révolutionnaire a été formé sur un impressionnant 100 000 heures de données vocales du domaine public, et dispose de 980 millions de paramètres, une taille qui le place en tête de sa catégorie. Les chercheurs ont testé trois versions de BASE TTS et ont constaté que la taille du modèle et la quantité de données sont essentielles à l’amélioration des performances.
Les avantages de BASE TTS sont nombreux. Ce modèle est capable de générer de la parole à la volée, ce qui en fait un choix idéal pour les applications en temps réel telles que les assistants vocaux. De plus, il a été proposé une méthode pour coder et transmettre des métadonnées vocales, telles que l’émotion, la prosodie et l’accent, dans un flux distinct à faible bande passante, améliorant ainsi l’expressivité sans compromettre la qualité audio.
Cependant, malgré ces avancées importantes, les chercheurs ont reconnu les risques potentiels associés à une utilisation malveillante de leur technologie. En conséquence, ils ont pris la décision de ne pas rendre publics le modèle ou les données.
D’autres entreprises telles que Meta avec Voicebox et Microsoft avec VALL-E ont également récemment dévoilé des modèles similaires, mais elles ont également décidé de ne pas rendre publics les modèles en raison des risques d’exploitation de la technologie à des fins négatives.
Cette avancée dans la technologie de synthèse vocale ouvre de nombreuses perspectives passionnantes pour l’avenir, mais elle soulève également des préoccupations éthiques importantes. Il est essentiel que les entreprises et les chercheurs travaillent ensemble pour trouver un équilibre entre l’ouverture et la responsabilité dans le développement de ces technologies, afin de garantir qu’elles bénéficient à la société dans son ensemble.