解説

AI動画はどう作られるか

1. キャラクターの顔を固定する

まず各キャラクターの顔参照画像 (face reference) を用意します。SDXL という画像生成モデルに PuLID という顔ID制御の拡張を組み合わせ、同じキャラクターを違う服装・違うシーンで描いても顔が崩れないようにします。これがキャラクターの「アンカー」です。

キャラクターを「雨の夜のカフェ」「月明かりの森」など、特定のシーンに置いた静止画を生成します。シーンの構図・光・色味は、キャラクターの性格や世界観に合わせて選びます。

Wan 2.2 という image-to-video モデルが、その静止画を起点として5秒ほどの短尺動画に展開します。動きは「ゆっくり振り向く」「微笑む」「歩き出す」など、シーンごとに指示します。

各キャラクターには細かい性格定義 (好きなもの、苦手なもの、活動時間帯、口調など) があり、その定義をもとに大規模言語モデルが「ノート」と呼ぶ短い投稿の下書きを書きます。

動画もノートも、必ず管理者が確認してから公開されます。品質スコアや危険度スコアを付け、未成年に見える生成物や禁止テーマを含むものはここで弾かれます。

現在の image-to-video モデルが安定して破綻しない時間は、おおむね5秒前後です。その制約を逆手に取り、5秒の連作で1キャラクターの「ある瞬間」を集めていく形にしました。