PromptForge JP
← ブログ一覧
画像AI

アスペクト比とモデル別の最適解像度 — 失敗しない指定のコツ

Stable Diffusion・Midjourney・Flux・動画AIにおける推奨解像度とアスペクト比の指定方法を整理。SDXLの学習解像度に合わせた指定テクニックも解説。

AI画像生成では、アスペクト比と解像度の指定が品質に大きく影響します。モデルごとに「学習されている解像度」があり、それを外すと崩れやすくなる。本記事では主要モデルの推奨解像度と、効果的な指定テクニックを整理します。

なぜ解像度が品質に影響するか

AI画像生成モデルは、特定の解像度・アスペクト比のデータで学習されています。学習データから外れた解像度で生成しようとすると:

  • 構図の破綻(人物が複数生成される)
  • 比率がおかしくなる(伸びた・縮んだ)
  • ディテールが甘くなる
  • 細部の解剖学的破綻が増える

逆に、学習解像度に近いと品質が安定します。

モデル別の推奨解像度

Stable Diffusion 1.5 系

学習解像度:512×512 が基本

推奨解像度:

  • 正方形:512×512、768×768
  • 横長:768×512、960×512
  • 縦長:512×768、512×960

512px から大きく外すと破綻しやすいので、Hires.fix などのアップスケール機能と組み合わせるのが定石。

SDXL 系

学習解像度:1024×1024 を中心とした複数解像度

SDXL は複数のアスペクト比で学習されているため、対応範囲が広い。代表的な学習サイズ:

  • 1024×1024(1:1)
  • 1152×896(約4:3)
  • 1216×832(約3:2)
  • 1344×768(約16:9)
  • 1536×640(極端な横長)
  • 832×1216(縦長3:2)
  • 768×1344(縦長16:9)
  • 640×1536(極端な縦長)

SDXLでは上記の "公式学習サイズ" にぴったり合わせるのが品質確保の鉄則。中途半端な値(例:1100×850)は避ける。

Flux

Flux は柔軟性が高く、512〜2048px の範囲で多様なアスペクト比に対応。とはいえ:

  • 1024×1024(基本)
  • 1024×1536(縦長)
  • 1536×1024(横長)

これらが最も安定。

Midjourney

Midjourney は --ar パラメータで指定:

--ar 1:1     ← 正方形(デフォルト)
--ar 4:5     ← 縦長ポートレート
--ar 2:3     ← 縦長クラシック
--ar 9:16    ← 縦長スマホ
--ar 16:9    ← 横長ワイド
--ar 21:9    ← シネマスコープ

実際の出力解像度はバージョンごとに違いますが、--ar で比率を指定するのが標準。

NovelAI / Anlatan

学習データの中心は次のサイズ:

  • 832×1216(縦長キャラ)
  • 1216×832(横長)
  • 1024×1024(正方形)

Portraitモデル系では特に縦長 832×1216 が最も安定。

動画AIの解像度

SORA:1080p までの複数アスペクト比に対応。16:9 が基本、9:16(縦動画)も実用レベル。

Veo:720p〜1080p、16:9 中心。

Kling:縦動画(9:16)に強い。SNS用途で頻用される。

Runway Gen-3:1280×768、768×1280 など。

Pika:720p、複数アスペクト比対応。

動画は容量・計算量の制約で、画像より低解像度がデフォルト。

アスペクト比の選び方

用途別の推奨:

ポートレート・キャラ立ち絵 → 縦長 2:3、3:4(896×1152、832×1216 等)

風景・背景 → 横長 16:9、3:2(1344×768、1216×832 等)

SNS投稿 → 正方形 1:1(Instagram フィード)、または縦長 4:5

バナー・ヘッダー → 極端な横長 21:9、5:1

スマホ壁紙 → 縦長 9:16(768×1344 等)

動画サムネ → 16:9 が業界標準

解像度を変える時のテクニック

1. Hires.fix(A1111系)

低解像度(512×512など)で生成してから、内蔵のHires.fixで2倍にアップスケール。安定した構図のまま高解像度化できる。

2. Upscaler(外部)

ESRGAN、SwinIR、LDSR などの専用アップスケーラーで高画質化。

3. SDXL の段階生成

SDXL では「Base モデル → Refiner」の2段階で生成すると品質が上がる。最終解像度を直接指定するより安定。

4. Tile Diffusion / MultiDiffusion

巨大解像度(4Kなど)を分割生成する技術。ノートPCでも8K生成が可能。

やりがちな失敗

1. 中途半端な解像度

例:1100×850 のような学習解像度から外れた値。SDXLでは破綻しやすい。学習サイズに合わせるか、Hires.fixで段階的に上げるのが鉄則。

2. アスペクト比の極端な指定

512×2048 のような極端な比率は、被写体が複数生成されるなどの破綻が起きやすい。--ar 16:9 程度までが無難。

3. 1024未満で生成して品質に文句を言う

512×512 で生成して「ディテールが甘い」と感じるのは当然。SDXL以降は 1024 が下限と割り切る。

4. アスペクト比とプロンプトの不一致

縦長アスペクト比を指定しているのにプロンプトが「wide landscape」だと、AIが混乱。アスペクト比とプロンプトの世界観を一致させる。

実用テンプレ

SDXL ポートレート(最も安定)

解像度: 832×1216
プロンプト: 1girl, portrait, ...

SDXL 横長ワイド風景

解像度: 1344×768
プロンプト: landscape, mountain, wide vista, ...

Midjourney ポートレート

prompt --ar 2:3 --v 6

SORA 動画

プロンプト末尾: "16:9 cinematic aspect ratio"

まとめ

アスペクト比と解像度は、AI画像生成の品質を左右する重要なパラメータ。モデルごとの学習解像度に合わせる、用途に応じたアスペクト比を選ぶ、極端な比率を避ける、低解像度ならアップスケール前提で生成する。これらを意識すると、破綻が減って歩留まりが大きく上がります。

PromptForge JP では、選択中のAIモデルに応じて推奨解像度を自動提案する機能を準備中です。「SDXLでポートレートなら832×1216」「Midjourneyの動画サムネなら --ar 16:9」のようなプリセットを選ぶだけで、最適な指定が反映される設計を予定しています。