Explicación

Cómo se hacen los videos de IA

1. Fijar el rostro del personaje

Cada personaje comienza con una imagen de referencia del rostro. Con SDXL y la extensión de control de identidad PuLID, podemos generar al mismo personaje en distintos atuendos y escenas manteniendo estable la cara. A esto lo llamamos el «ancla» del personaje.

2. Generar la escena como imagen fija

Luego generamos una imagen fija situando al personaje en una escena concreta — «noche lluviosa en un café», «bosque a la luz de la luna», etc. La composición, la iluminación y el color se eligen para encajar con la personalidad y el mundo del personaje.

3. Animar la imagen fija

Wan 2.2, un modelo de imagen a video, toma la imagen fija como fotograma inicial y produce un clip de unos cinco segundos. El movimiento — «giro lento», «sonrisa suave», «caminar hacia delante» — se dirige escena por escena.

4. Generar las notas del personaje

Cada personaje tiene un archivo de personalidad detallado (gustos, disgustos, horas de actividad, voz). Un modelo de lenguaje grande utiliza ese archivo para redactar borradores de breves «notas» de microblog en la voz del personaje.

5. Revisión humana y publicación

Cada video y nota pasa por una revisión humana antes de publicarse. Se asignan puntuaciones de calidad y de riesgo; aquí se rechazan los resultados que parezcan representar a menores de edad o aborden un tema prohibido.

Por qué clips cortos

Los modelos de imagen a video actuales mantienen la coherencia durante unos cinco segundos antes de que la calidad se degrade. En lugar de luchar contra ese límite, lo aprovechamos: reunimos muchos momentos de cinco segundos por personaje.