Alibaba Wan 動画AIガイド — オープン重み版とクラウド版の使い分け
Alibabaの動画生成AI「Wan」はオープン重み版とクラウド版の両方が提供される稀有なモデル。ローカル運用・LoRA対応・コスト構造・プロンプトのクセまで、実用観点で整理します。
動画生成AIの主要モデルがほぼ全てクラウドサービス前提で運営されている中、自分のGPUでローカル実行できる商用級モデルとして注目されているのがAlibabaの「Wan(万)」です。本記事では、Wanの位置づけ、オープン版とクラウド版の使い分け、プロンプトの作法を整理します。
Wanとは何か
Wan(正式名 Wan 2.x、通義万相系列)はAlibaba DAMOアカデミーが開発した動画生成モデルで、2024年からオープン重みがHuggingFace上で配布されています。同時にAlibaba Cloudのクラウドサービス版も存在し、用途に応じて選択肢が2つあるのが他社と決定的に違う点です。
技術的にはDiffusion TransformerベースのT2V/I2Vモデルで、最大尺は5秒〜(モデルバージョンにより異なる)。解像度は480p / 720p / 1080pをサポート。コミュニティではComfyUI向けのカスタムノードが整備されており、Stable Diffusion経験者なら導入の敷居は比較的低めです。
オープン版とクラウド版の比較
どちらを選ぶかで運用設計が大きく変わります。違いを整理します。
オープン重み版(ローカル)
- コスト:モデル本体は無料。GPU代と電気代のみ
- 必要環境:VRAM 24GB以上推奨(RTX 4090 / 5090 / A100クラス)
- 強み:LoRA学習で独自スタイルを焼き込める、データを外に出さない、生成回数無制限
- 弱み:初期セットアップが面倒、トラブル時の自助対応が必要
クラウド版(Tongyi/通義)
- コスト:従量課金(生成秒数ベース、比較的安価)
- 必要環境:ブラウザのみ
- 強み:すぐ使える、UIが整っている、計算リソース不要
- 弱み:UIが中国語中心、日本国外からのアカウント作成にやや手間、データ規約は要確認
私のおすすめはまずクラウド版で作風が合うかを確かめ、合えばオープン版でローカル運用に移行するという二段階アプローチです。
プロンプトの作法
Wanは中文プロンプト前提で学習されているため、純粋な日本語プロンプトはやや精度が落ちます。実用的な選択肢は次の3つ。
選択肢A:英語プロンプト 最も汎用性が高く、海外コミュニティのプロンプト資産も流用しやすい。Stable Diffusion経験者にも親しみやすい構造。
Bamboo forest under moonlight, a woman in traditional Hanfu walking slowly,
camera tracking sideways, cinematic, soft fog
選択肢B:中文プロンプト モデルとの相性は最も良い。コピペ用の中文例を持っておくと制作効率が上がります。専門用語(電影級、长镜头など)も通じやすい。
選択肢C:日本語+翻訳補助 日本語で書きつつ、ChatGPTなどで英語または中文に翻訳してからWanに渡す。手間はかかるが、思考の自然さは保てます。
実用ではAかCのハイブリッドが現実解で、純粋日本語の直書きは避けるべきです。
LoRA活用:Wanならではの強み
Wanのオープン版が他モデルと一線を画すのはLoRA対応です。Stable Diffusionで馴染みのある「キャラLoRA」「スタイルLoRA」を動画にも当てられます。
具体的な使い方の流れ:
- 既存のSDXLキャラLoRAを用意(自分で学習したもの、または公開LoRA)
- ComfyUIのWanノード経由でLoRAをロード
- プロンプト先頭に
<lora:character_name:0.8>のようなウェイト指定 - 動画生成時にLoRAの特徴が動的に反映される
これにより、自分のオリジナルキャラを動画で動かすという、クラウド型動画AIでは実現困難なことが可能になります。同人創作・YouTube動画クリエイター・VTuberクリップ制作などに刺さる用途です。
必要GPUの目安と所要時間
実機で計測した目安を共有します。
| GPU | VRAM | 5秒480p生成時間(目安) |
|---|---|---|
| RTX 4090 | 24GB | 約2〜3分 |
| RTX 5090 | 32GB | 約1.5〜2分 |
| A100 80GB | 80GB | 約1分 |
| RTX 4070 | 12GB | OOM多発、不推奨 |
VRAM 16GB環境では量子化版や低解像度モードでなんとか動くケースもありますが、実用域には届きません。24GB以上のGPUを境界線と考えるのが現実的です。
まとめ
Wanは「ローカル運用+LoRA対応」という、現状ほぼ他に選択肢のない動画AIです。クラウド型のVeo・Klingが画質・利便性で先行する一方で、データプライバシー・コスト構造・キャラ最適化で勝るユースケースが明確に存在します。ハイエンドGPUを持っている人にとっては、検証コストを劇的に下げる武器になります。
PromptForge JP では、Wan を含む主要モデル向けにプロンプトを組み立てる選択式UIを提供しています。中文・英語切替えで出力できるので、Wan特有の言語クセに対応した実用ベースとして活用してください。