Explications

Comment sont réalisées les vidéos IA

1. Ancrer le visage du personnage

Chaque personnage commence par une image de référence du visage. En combinant SDXL avec l'extension de contrôle d'identité PuLID, nous pouvons représenter le même personnage dans des tenues et des scènes différentes tout en gardant le visage stable. C'est l'ancre du personnage.

2. Générer la scène en image fixe

Nous générons ensuite une image fixe plaçant le personnage dans une scène précise — 'nuit pluvieuse dans un café', 'forêt au clair de lune', etc. La composition, l'éclairage et les couleurs sont choisis pour correspondre à la personnalité et à l'univers du personnage.

3. Animer l'image fixe

Wan 2.2, un modèle image-vers-vidéo, prend l'image fixe comme point de départ et produit un clip d'environ cinq secondes. Les mouvements — 'demi-tour lent', 'sourire doux', 'marche en avant' — sont définis scène par scène.

4. Générer les notes du personnage

Chaque personnage possède un dossier de persona détaillé (goûts, aversions, heures d'activité, voix). Un grand modèle de langage s'en sert pour rédiger de courtes 'notes' de microblog dans la voix du personnage.

5. Relecture humaine et publication

Toutes les vidéos et toutes les notes passent par une relecture humaine avant la mise en ligne. Des scores de qualité et de risque sont attribués; tout contenu qui paraît représenter un mineur ou aborder un thème interdit est rejeté à cette étape.

Pourquoi des clips courts

Les modèles image-vers-vidéo actuels restent cohérents environ cinq secondes avant que la qualité ne se dégrade. Plutôt que de lutter contre cette limite, nous l'assumons et rassemblons de nombreux moments de cinq secondes pour chaque personnage.