Explications
Comment sont réalisées les vidéos IA
1. Ancrer le visage du personnage
Chaque personnage commence par une image de référence du visage. En combinant SDXL avec l'extension de contrôle d'identité PuLID, nous pouvons représenter le même personnage dans des tenues et des scènes différentes tout en gardant le visage stable. C'est l'ancre du personnage.
2. Générer la scène en image fixe
Nous générons ensuite une image fixe plaçant le personnage dans une scène précise — 'nuit pluvieuse dans un café', 'forêt au clair de lune', etc. La composition, l'éclairage et les couleurs sont choisis pour correspondre à la personnalité et à l'univers du personnage.
3. Animer l'image fixe
Wan 2.2, un modèle image-vers-vidéo, prend l'image fixe comme point de départ et produit un clip d'environ cinq secondes. Les mouvements — 'demi-tour lent', 'sourire doux', 'marche en avant' — sont définis scène par scène.
4. Générer les notes du personnage
Chaque personnage possède un dossier de persona détaillé (goûts, aversions, heures d'activité, voix). Un grand modèle de langage s'en sert pour rédiger de courtes 'notes' de microblog dans la voix du personnage.
5. Relecture humaine et publication
Toutes les vidéos et toutes les notes passent par une relecture humaine avant la mise en ligne. Des scores de qualité et de risque sont attribués; tout contenu qui paraît représenter un mineur ou aborder un thème interdit est rejeté à cette étape.
Pourquoi des clips courts
Les modèles image-vers-vidéo actuels restent cohérents environ cinq secondes avant que la qualité ne se dégrade. Plutôt que de lutter contre cette limite, nous l'assumons et rassemblons de nombreux moments de cinq secondes pour chaque personnage.