Tuto LingBot-World : Comment animer une image avec contrôle de caméra en local avec Pinokio
Tuto LingBot-World : Comment animer une image avec contrôle de caméra en local avec Pinokio

Tuto LingBot-World : Comment animer une image avec contrôle de caméra en local avec Pinokio

Tuto LingBot-World : Comment animer une image avec contrôle de caméra en local avec Pinokio

On vous propose un tuto pour installer et utiliser LingBot-World, un modèle de génération vidéo par IA qui transforme une image fixe en vidéo avec un contrôle précis de la caméra. Le tout fonctionne entièrement en local sur votre PC grâce à Pinokio.

LingBot-World est un World Model de génération Image-to-Video développé par l’équipe Robbyant. Sa particularité par rapport aux autres modèles comme LTX-2 ou FramePack ? Il permet de contrôler les mouvements de caméra dans la vidéo générée. Avancée, zoom, panoramique : vous choisissez la trajectoire et le modèle anime votre image en suivant ce chemin.

On a créé un installeur Pinokio pour simplifier l’installation sur Windows. Notre adaptation utilise la quantification NF4 (bitsandbytes) pour faire tourner le modèle sur des cartes graphiques grand public avec 24 Go de VRAM au lieu des ressources bien plus lourdes demandées par la version originale.

Ce qu’il faut pour faire tourner LingBot-World

Côté matériel, il vous faut une carte graphique NVIDIA avec 24 Go de VRAM (20 Go minimum avec la quantification). Une RTX 3090, RTX 4090 ou RTX 4080 SUPER 16 Go risque d’être un peu juste mais vous pouvez tenter. Prévoyez environ 50 Go d’espace disque et Windows 10 ou 11.

Tuto LingBot-World : Comment animer une image avec contrôle de caméra en local avec Pinokio

Côté logiciel, vous aurez besoin de Pinokio installé sur votre machine. Si ce n’est pas fait, rendez-vous sur pinokio.computer pour le télécharger. J’avais expliqué comment l’installer dans mon tuto sur LTX-2.

Installation en quelques clics

Ouvrez Pinokio et allez dans la section Discover. Collez l’URL du dépôt GitHub dans la barre de recherche :

https://github.com/zast57/lingbot-world-pinokio

Cliquez sur Download puis sur Install pour configurer l’environnement. Une fois l’installation terminée, cliquez sur Download Models pour récupérer les poids du modèle. Comptez environ 28 Go de téléchargement au total (19 Go pour les poids NF4 et 9 Go pour le VAE et l’encodeur T5).

Une fois le téléchargement terminé, cliquez sur Start. L’interface Gradio va s’ouvrir automatiquement dans votre navigateur à l’adresse http://127.0.0.1:7860.

Comment utiliser LingBot-World

L’interface est simple. Vous commencez par uploader une image qui servira de première frame de votre vidéo. Ensuite vous décrivez la scène ou l’action souhaitée dans le champ prompt.

Le point fort de LingBot-World se trouve dans le menu Action Path. Vous avez trois presets de trajectoire de caméra :

  • examples/00 : mouvement vers l’avant. Idéal pour simuler une voiture de course qui avance sur un circuit ou un travelling avant.
  • examples/01 : zoom avant/arrière. Parfait pour un effet d’approche ou de recul sur un sujet.
  • examples/02 : panoramique et inclinaison. Pour des mouvements de caméra plus génériques.

Ces trajectoires sont précalculées. Si vous voulez aller plus loin, vous pouvez aussi créer vos propres trajectoires personnalisées avec des fichiers poses.npy et intrinsics.npy.

Dans les réglages avancés, vous pouvez ajuster la résolution (480×832 en vertical, 832×480 en horizontal par exemple), le nombre de frames (81 par défaut) et les sampling steps (40 par défaut, plus c’est élevé meilleure est la qualité mais plus c’est long).

Notre adaptation Pinokio (oui c’est nous 🙂 )

Tuto LingBot-World : Comment animer une image avec contrôle de caméra en local avec Pinokio

On a développé cet installeur Pinokio pour rendre LingBot-World accessible à tout le monde sur Windows. Le projet original nécessitait des ressources GPU conséquentes et une installation manuelle complexe. Notre version intègre la quantification NF4 via bitsandbytes pour faire tourner le modèle sur des cartes grand public avec 24 Go de VRAM et une interface Gradio complète pour remplacer la ligne de commande.

C’est une version expérimentale testée uniquement sur Windows avec des cartes NVIDIA RTX. La génération est plus lente que la version originale à cause de l’optimisation VRAM en NF4. Comptez plusieurs minutes selon la résolution et votre GPU. La barre de progression « Generating video frame » peut ne pas s’afficher correctement dans l’interface mais la génération tourne bien en arrière-plan. Patience donc.

Les contrôles clavier en temps réel présents dans le dépôt original ne fonctionnent pas dans cette version web. Toutes les interactions passent par l’interface Gradio.

Pourquoi LingBot-World vaut le détour

LingBot-World apporte quelque chose que les autres modèles locaux ne proposent pas encore vraiment : le contrôle de caméra. Quand on fait de la génération vidéo par IA, c’est souvent frustrant de ne pas pouvoir décider de l’angle ou du mouvement. Ici, on peut enfin diriger un peu les choses.

La qualité des résultats dépend beaucoup de l’image source et du prompt. On a obtenu de bons résultats avec des scènes de voitures de course en mouvement vers l’avant et des dragons en survol avec zoom. Pour des scènes plus complexes avec des humains, c’est encore perfectible. On ne peut pas utiliser les contrôles manuel et c’est encore lent.

Si vous avez une RTX avec assez de VRAM et que le contrôle de caméra vous intéresse, ça vaut le coup de tester. C’est gratuit, ça tourne en local et l’installation via Pinokio prend quelques minutes.

Le dépôt GitHub est disponible ici : github.com/zast57/lingbot-world-pinokio

N’oubliez pas de passer sur le dépôt officiel de LingBot-World pour soutenir les chercheurs qui ont développé le modèle.

Plateforme de Gestion des Consentements par Real Cookie Banner