動画AI2026-05-22

Alibaba Wan 動画AIガイド — オープン重み版とクラウド版の使い分け

Alibabaの動画生成AI「Wan」はオープン重み版とクラウド版の両方が提供される稀有なモデル。ローカル運用・LoRA対応・コスト構造・プロンプトのクセまで、実用観点で整理します。

動画生成AIの主要モデルがほぼ全てクラウドサービス前提で運営されている中、自分のGPUでローカル実行できる商用級モデルとして注目されているのがAlibabaの「Wan（万）」です。本記事では、Wanの位置づけ、オープン版とクラウド版の使い分け、プロンプトの作法を整理します。

Wanとは何か

Wan（正式名 Wan 2.x、通義万相系列）はAlibaba DAMOアカデミーが開発した動画生成モデルで、2024年からオープン重みがHuggingFace上で配布されています。同時にAlibaba Cloudのクラウドサービス版も存在し、用途に応じて選択肢が2つあるのが他社と決定的に違う点です。

技術的にはDiffusion TransformerベースのT2V/I2Vモデルで、最大尺は5秒〜（モデルバージョンにより異なる）。解像度は480p / 720p / 1080pをサポート。コミュニティではComfyUI向けのカスタムノードが整備されており、Stable Diffusion経験者なら導入の敷居は比較的低めです。

オープン版とクラウド版の比較

どちらを選ぶかで運用設計が大きく変わります。違いを整理します。

オープン重み版（ローカル）

コスト：モデル本体は無料。GPU代と電気代のみ
必要環境：VRAM 24GB以上推奨（RTX 4090 / 5090 / A100クラス）
強み：LoRA学習で独自スタイルを焼き込める、データを外に出さない、生成回数無制限
弱み：初期セットアップが面倒、トラブル時の自助対応が必要

クラウド版（Tongyi/通義）

コスト：従量課金（生成秒数ベース、比較的安価）
必要環境：ブラウザのみ
強み：すぐ使える、UIが整っている、計算リソース不要
弱み：UIが中国語中心、日本国外からのアカウント作成にやや手間、データ規約は要確認

私のおすすめはまずクラウド版で作風が合うかを確かめ、合えばオープン版でローカル運用に移行するという二段階アプローチです。

プロンプトの作法

Wanは中文プロンプト前提で学習されているため、純粋な日本語プロンプトはやや精度が落ちます。実用的な選択肢は次の3つ。

選択肢A：英語プロンプト 最も汎用性が高く、海外コミュニティのプロンプト資産も流用しやすい。Stable Diffusion経験者にも親しみやすい構造。

Bamboo forest under moonlight, a woman in traditional Hanfu walking slowly,
camera tracking sideways, cinematic, soft fog

選択肢B：中文プロンプト モデルとの相性は最も良い。コピペ用の中文例を持っておくと制作効率が上がります。専門用語（電影級、长镜头など）も通じやすい。

選択肢C：日本語＋翻訳補助 日本語で書きつつ、ChatGPTなどで英語または中文に翻訳してからWanに渡す。手間はかかるが、思考の自然さは保てます。

実用ではAかCのハイブリッドが現実解で、純粋日本語の直書きは避けるべきです。

LoRA活用：Wanならではの強み

Wanのオープン版が他モデルと一線を画すのはLoRA対応です。Stable Diffusionで馴染みのある「キャラLoRA」「スタイルLoRA」を動画にも当てられます。

具体的な使い方の流れ：

既存のSDXLキャラLoRAを用意（自分で学習したもの、または公開LoRA）
ComfyUIのWanノード経由でLoRAをロード
プロンプト先頭に <lora:character_name:0.8> のようなウェイト指定
動画生成時にLoRAの特徴が動的に反映される

これにより、自分のオリジナルキャラを動画で動かすという、クラウド型動画AIでは実現困難なことが可能になります。同人創作・YouTube動画クリエイター・VTuberクリップ制作などに刺さる用途です。

必要GPUの目安と所要時間

実機で計測した目安を共有します。

GPU	VRAM	5秒480p生成時間（目安）
RTX 4090	24GB	約2〜3分
RTX 5090	32GB	約1.5〜2分
A100 80GB	80GB	約1分
RTX 4070	12GB	OOM多発、不推奨

VRAM 16GB環境では量子化版や低解像度モードでなんとか動くケースもありますが、実用域には届きません。24GB以上のGPUを境界線と考えるのが現実的です。

まとめ

Wanは「ローカル運用＋LoRA対応」という、現状ほぼ他に選択肢のない動画AIです。クラウド型のVeo・Klingが画質・利便性で先行する一方で、データプライバシー・コスト構造・キャラ最適化で勝るユースケースが明確に存在します。ハイエンドGPUを持っている人にとっては、検証コストを劇的に下げる武器になります。

PromptForge JP では、Wan を含む主要モデル向けにプロンプトを組み立てる選択式UIを提供しています。中文・英語切替えで出力できるので、Wan特有の言語クセに対応した実用ベースとして活用してください。

← 他の記事を読むプロンプト生成ツールを試す →