Rédigé par Florian Chevallier
16 février 2024
Amazon a formé le plus grand modèle de synthèse vocale à ce jour, montrant des capacités émergentes améliorant sa capacité à prononcer des phrases complexes de manière naturelle. Ce modèle, appelé BASE TTS, utilise 100 000 heures de discours du domaine public et se distingue par sa capacité à gérer des complexités telles que les noms composés, les émotions, les mots étrangers et les complexités syntaxiques, surpassant les modèles existants comme Tortoise et VALL-E.