Accueil Geek ZastTranslate 1.06 : traduire et doubler ses vidéos en local zast ZastTranslate passe en Beta 1.06, et je profite de cette mise à jour pour faire le point sur le projet. Pour ceux qui débarquent : c’est un outil de doublage vidéo par IA que j’ai développé pour mes propres besoins, et que je mets en open source pour la communauté. Tout tourne en local, en un clic, grâce à Pinokio. Au départ je voulais juste doubler mes vidéos sans passer par des services comme ElevenLabs ou HeyGen. Ils font parler n’importe qui dans toutes les langues en clonant sa voix, mais deux choses me bloquaient : les tarifs, qui grimpent vite dès qu’on dépasse quelques minutes de vidéo, et la confidentialité, puisque vos fichiers partent sur des serveurs aux USA. D’où ZastTranslate : vos données restent chez vous et c’est votre carte graphique qui fait le travail. ZastTranslate, comment ça marche Ce n’est pas un modèle d’IA unique mais un pipeline qui fait collaborer plusieurs briques open-source. On prend une vidéo dans une langue et on ressort la même vidéo doublée dans une autre, sans jamais quitter sa machine. Voici les quatre étapes. D’abord l’isolation de la voix. J’utilise Demucs de Meta pour séparer la voix du bruit de fond ou de la musique. On travaille ensuite sur une voix propre et on réinjecte la musique d’origine à la fin. Ensuite la transcription temporelle, avec WhisperX. Là où le Whisper classique donne juste du texte, WhisperX cale chaque mot dans le temps. C’est ce qui permet de poser le doublage pile sur le bon timing. Vient la traduction, le point qui fait dérailler la plupart des outils de doublage. Une phrase traduite en français est souvent plus longue qu’en anglais, donc le doublage finit par déborder. ZastTranslate s’appuie sur un LLM au choix entre Qwen2.5-7B, Qwen3.5-9B et EuroLLM-9B pour raccourcir ou adapter la traduction et la faire tenir dans le temps imparti. Pour finir, le clonage et la synthèse vocale avec VoxCPM 2. Le moteur génère le doublage dans plus de 30 langues en imitant le timbre de la voix d’origine. Côté langues justement, VoxCPM 2 en couvre une trentaine : anglais, français, espagnol, allemand, italien, portugais, russe, chinois, japonais, coréen, arabe, hindi, turc, polonais, néerlandais et d’autres jusqu’au thaï, au vietnamien ou au swahili. Un point à connaître : les langues réellement disponibles dépendent du LLM choisi pour la traduction. Avec Qwen2.5 ou Qwen3.5, vous avez accès à tout. Si vous prenez EuroLLM, la liste se limite aux langues européennes, donc le chinois ou le japonais ne sortiront pas. Le menu déroulant de l’application s’adapte tout seul à cette combinaison. Ce que change la Beta 1.06 Les versions précédentes étaient pénibles à utiliser, je suis le premier à le reconnaître. La Beta 1.06 corrige ça avec une refonte de l’interface, toujours sous Gradio. L’écran passe en double colonne. À gauche, un lecteur vidéo permanent avec les sous-titres superposés en temps réel. À droite, les étapes de travail. On vérifie le résultat au fur et à mesure sans jongler entre les onglets. J’ai ajouté la navigation Click-to-Seek. Vous cliquez sur une ligne de texte dans le tableau et le lecteur saute au moment exact où la phrase est dite. C’est ce qui rend la correction d’une mauvaise transcription rapide, plus besoin de chercher le passage à la main. La fonction que j’attendais le plus, c’est l’édition et la régénération par segment. Elle vient directement de mon usage : je passe des journées à tester l’outil sur mes propres vidéos, et relancer la synthèse complète à chaque phrase ratée devenait ingérable. Désormais, si une phrase doublée sonne mal, vous corrigez son texte ou son timing et vous régénérez cette ligne uniquement. On gagne un temps fou et on arrête de brûler des cycles GPU pour rien. ZastTranslate 1.06 : la config matérielle Comme tout tourne en local, il faut une configuration PC correcte, de préférence sous Windows. Une carte graphique NVIDIA est obligatoire. Sur CPU ça marche mais c’est lent, donc oubliez si vous voulez des résultats rapides. Comptez 4 à 6 Go de VRAM au minimum. Avec une carte récente, séries RTX 30XX, 40XX ou les nouvelles RTX 50XX Blackwell, l’application exploite l’accélération PyTorch SDPA et génère le doublage rapidement.Voir aussizastGeek 18 mai 2026Agora-1 d’Odyssey recrée GoldenEye 007 en IA multijoueur Pour l’installation, c’est tout l’intérêt de Pinokio. Pas besoin de bricoler Python, CUDA ou les dépendances. On clique sur Install, on attend le téléchargement des modèles et c’est prêt. Mode Bulk Au-delà d’une vidéo à la fois, le mode Bulk automatise tout pour plusieurs langues d’un coup. Vous validez la transcription, vous sélectionnez vos langues cibles et le logiciel traite chaque langue l’une après l’autre. Le pipeline traduit toutes les langues d’abord, décharge complètement le LLM puis charge la synthèse vocale. Ça évite la fragmentation de VRAM et permet de lancer de gros lots multilingues même sur une RTX 4090. Les limites à connaître ZastTranslate est encore en Beta et garde deux contraintes que j’assume pour l’instant. Pas de synchronisation labiale. La voix est doublée mais les lèvres des personnages ne suivent pas la nouvelle langue. Je me concentre sur la piste audio. Mode monolocuteur. L’application applique la même voix clonée sur tous les segments. Doubler un film avec plusieurs acteurs différents, ce n’est pas encore possible. ZastTranslate 1.06 : faut-il l’installer Si vous voulez doubler vos vidéos gratuitement, en gardant vos données chez vous, ZastTranslate fait le job. La 1.06 corrige les plus gros défauts d’ergonomie et rend l’édition agréable grâce à l’éditeur de segments et au Click-to-Seek. C’est l’outil que j’utilise au quotidien, et je continue de le faire évoluer. Vous pouvez le récupérer sur mon GitHub (https://github.com/zast57/ZastTranslate) ou l’installer en un clic depuis le catalogue de Pinokio.