画像AI2026-05-10

アスペクト比とモデル別の最適解像度 — 失敗しない指定のコツ

Stable Diffusion・Midjourney・Flux・動画AIにおける推奨解像度とアスペクト比の指定方法を整理。SDXLの学習解像度に合わせた指定テクニックも解説。

AI画像生成では、アスペクト比と解像度の指定が品質に大きく影響します。モデルごとに「学習されている解像度」があり、それを外すと崩れやすくなる。本記事では主要モデルの推奨解像度と、効果的な指定テクニックを整理します。

なぜ解像度が品質に影響するか

AI画像生成モデルは、特定の解像度・アスペクト比のデータで学習されています。学習データから外れた解像度で生成しようとすると：

構図の破綻（人物が複数生成される）
比率がおかしくなる（伸びた・縮んだ）
ディテールが甘くなる
細部の解剖学的破綻が増える

逆に、学習解像度に近いと品質が安定します。

モデル別の推奨解像度

Stable Diffusion 1.5 系

学習解像度：512×512 が基本

推奨解像度：

正方形：512×512、768×768
横長：768×512、960×512
縦長：512×768、512×960

512px から大きく外すと破綻しやすいので、Hires.fix などのアップスケール機能と組み合わせるのが定石。

SDXL 系

学習解像度：1024×1024 を中心とした複数解像度

SDXL は複数のアスペクト比で学習されているため、対応範囲が広い。代表的な学習サイズ：

1024×1024（1:1）
1152×896（約4:3）
1216×832（約3:2）
1344×768（約16:9）
1536×640（極端な横長）
832×1216（縦長3:2）
768×1344（縦長16:9）
640×1536（極端な縦長）

SDXLでは上記の "公式学習サイズ" にぴったり合わせるのが品質確保の鉄則。中途半端な値（例：1100×850）は避ける。

Flux

Flux は柔軟性が高く、512〜2048px の範囲で多様なアスペクト比に対応。とはいえ：

1024×1024（基本）
1024×1536（縦長）
1536×1024（横長）

これらが最も安定。

Midjourney

Midjourney は --ar パラメータで指定：

--ar 1:1     ← 正方形（デフォルト）
--ar 4:5     ← 縦長ポートレート
--ar 2:3     ← 縦長クラシック
--ar 9:16    ← 縦長スマホ
--ar 16:9    ← 横長ワイド
--ar 21:9    ← シネマスコープ

実際の出力解像度はバージョンごとに違いますが、--ar で比率を指定するのが標準。

NovelAI / Anlatan

学習データの中心は次のサイズ：

832×1216（縦長キャラ）
1216×832（横長）
1024×1024（正方形）

Portraitモデル系では特に縦長 832×1216 が最も安定。

動画AIの解像度

SORA：1080p までの複数アスペクト比に対応。16:9 が基本、9:16（縦動画）も実用レベル。

Veo：720p〜1080p、16:9 中心。

Kling：縦動画（9:16）に強い。SNS用途で頻用される。

Runway Gen-3：1280×768、768×1280 など。

Pika：720p、複数アスペクト比対応。

動画は容量・計算量の制約で、画像より低解像度がデフォルト。

アスペクト比の選び方

用途別の推奨：

ポートレート・キャラ立ち絵 → 縦長 2:3、3:4（896×1152、832×1216 等）

風景・背景 → 横長 16:9、3:2（1344×768、1216×832 等）

SNS投稿 → 正方形 1:1（Instagram フィード）、または縦長 4:5

バナー・ヘッダー → 極端な横長 21:9、5:1

スマホ壁紙 → 縦長 9:16（768×1344 等）

動画サムネ → 16:9 が業界標準

解像度を変える時のテクニック

1. Hires.fix（A1111系）

低解像度（512×512など）で生成してから、内蔵のHires.fixで2倍にアップスケール。安定した構図のまま高解像度化できる。

2. Upscaler（外部）

ESRGAN、SwinIR、LDSR などの専用アップスケーラーで高画質化。

3. SDXL の段階生成

SDXL では「Base モデル → Refiner」の2段階で生成すると品質が上がる。最終解像度を直接指定するより安定。

4. Tile Diffusion / MultiDiffusion

巨大解像度（4Kなど）を分割生成する技術。ノートPCでも8K生成が可能。

やりがちな失敗

1. 中途半端な解像度

例：1100×850 のような学習解像度から外れた値。SDXLでは破綻しやすい。学習サイズに合わせるか、Hires.fixで段階的に上げるのが鉄則。

2. アスペクト比の極端な指定

512×2048 のような極端な比率は、被写体が複数生成されるなどの破綻が起きやすい。--ar 16:9 程度までが無難。

3. 1024未満で生成して品質に文句を言う

512×512 で生成して「ディテールが甘い」と感じるのは当然。SDXL以降は 1024 が下限と割り切る。

4. アスペクト比とプロンプトの不一致

縦長アスペクト比を指定しているのにプロンプトが「wide landscape」だと、AIが混乱。アスペクト比とプロンプトの世界観を一致させる。

実用テンプレ

SDXL ポートレート（最も安定）

解像度: 832×1216
プロンプト: 1girl, portrait, ...

SDXL 横長ワイド風景

解像度: 1344×768
プロンプト: landscape, mountain, wide vista, ...

Midjourney ポートレート

prompt --ar 2:3 --v 6

SORA 動画

プロンプト末尾: "16:9 cinematic aspect ratio"

まとめ

アスペクト比と解像度は、AI画像生成の品質を左右する重要なパラメータ。モデルごとの学習解像度に合わせる、用途に応じたアスペクト比を選ぶ、極端な比率を避ける、低解像度ならアップスケール前提で生成する。これらを意識すると、破綻が減って歩留まりが大きく上がります。

PromptForge JP では、選択中のAIモデルに応じて推奨解像度を自動提案する機能を準備中です。「SDXLでポートレートなら832×1216」「Midjourneyの動画サムネなら --ar 16:9」のようなプリセットを選ぶだけで、最適な指定が反映される設計を予定しています。

← 他の記事を読む