アスペクト比とモデル別の最適解像度 — 失敗しない指定のコツ
Stable Diffusion・Midjourney・Flux・動画AIにおける推奨解像度とアスペクト比の指定方法を整理。SDXLの学習解像度に合わせた指定テクニックも解説。
AI画像生成では、アスペクト比と解像度の指定が品質に大きく影響します。モデルごとに「学習されている解像度」があり、それを外すと崩れやすくなる。本記事では主要モデルの推奨解像度と、効果的な指定テクニックを整理します。
なぜ解像度が品質に影響するか
AI画像生成モデルは、特定の解像度・アスペクト比のデータで学習されています。学習データから外れた解像度で生成しようとすると:
- 構図の破綻(人物が複数生成される)
- 比率がおかしくなる(伸びた・縮んだ)
- ディテールが甘くなる
- 細部の解剖学的破綻が増える
逆に、学習解像度に近いと品質が安定します。
モデル別の推奨解像度
Stable Diffusion 1.5 系
学習解像度:512×512 が基本
推奨解像度:
- 正方形:512×512、768×768
- 横長:768×512、960×512
- 縦長:512×768、512×960
512px から大きく外すと破綻しやすいので、Hires.fix などのアップスケール機能と組み合わせるのが定石。
SDXL 系
学習解像度:1024×1024 を中心とした複数解像度
SDXL は複数のアスペクト比で学習されているため、対応範囲が広い。代表的な学習サイズ:
- 1024×1024(1:1)
- 1152×896(約4:3)
- 1216×832(約3:2)
- 1344×768(約16:9)
- 1536×640(極端な横長)
- 832×1216(縦長3:2)
- 768×1344(縦長16:9)
- 640×1536(極端な縦長)
SDXLでは上記の "公式学習サイズ" にぴったり合わせるのが品質確保の鉄則。中途半端な値(例:1100×850)は避ける。
Flux
Flux は柔軟性が高く、512〜2048px の範囲で多様なアスペクト比に対応。とはいえ:
- 1024×1024(基本)
- 1024×1536(縦長)
- 1536×1024(横長)
これらが最も安定。
Midjourney
Midjourney は --ar パラメータで指定:
--ar 1:1 ← 正方形(デフォルト)
--ar 4:5 ← 縦長ポートレート
--ar 2:3 ← 縦長クラシック
--ar 9:16 ← 縦長スマホ
--ar 16:9 ← 横長ワイド
--ar 21:9 ← シネマスコープ
実際の出力解像度はバージョンごとに違いますが、--ar で比率を指定するのが標準。
NovelAI / Anlatan
学習データの中心は次のサイズ:
- 832×1216(縦長キャラ)
- 1216×832(横長)
- 1024×1024(正方形)
Portraitモデル系では特に縦長 832×1216 が最も安定。
動画AIの解像度
SORA:1080p までの複数アスペクト比に対応。16:9 が基本、9:16(縦動画)も実用レベル。
Veo:720p〜1080p、16:9 中心。
Kling:縦動画(9:16)に強い。SNS用途で頻用される。
Runway Gen-3:1280×768、768×1280 など。
Pika:720p、複数アスペクト比対応。
動画は容量・計算量の制約で、画像より低解像度がデフォルト。
アスペクト比の選び方
用途別の推奨:
ポートレート・キャラ立ち絵 → 縦長 2:3、3:4(896×1152、832×1216 等)
風景・背景 → 横長 16:9、3:2(1344×768、1216×832 等)
SNS投稿 → 正方形 1:1(Instagram フィード)、または縦長 4:5
バナー・ヘッダー → 極端な横長 21:9、5:1
スマホ壁紙 → 縦長 9:16(768×1344 等)
動画サムネ → 16:9 が業界標準
解像度を変える時のテクニック
1. Hires.fix(A1111系)
低解像度(512×512など)で生成してから、内蔵のHires.fixで2倍にアップスケール。安定した構図のまま高解像度化できる。
2. Upscaler(外部)
ESRGAN、SwinIR、LDSR などの専用アップスケーラーで高画質化。
3. SDXL の段階生成
SDXL では「Base モデル → Refiner」の2段階で生成すると品質が上がる。最終解像度を直接指定するより安定。
4. Tile Diffusion / MultiDiffusion
巨大解像度(4Kなど)を分割生成する技術。ノートPCでも8K生成が可能。
やりがちな失敗
1. 中途半端な解像度
例:1100×850 のような学習解像度から外れた値。SDXLでは破綻しやすい。学習サイズに合わせるか、Hires.fixで段階的に上げるのが鉄則。
2. アスペクト比の極端な指定
512×2048 のような極端な比率は、被写体が複数生成されるなどの破綻が起きやすい。--ar 16:9 程度までが無難。
3. 1024未満で生成して品質に文句を言う
512×512 で生成して「ディテールが甘い」と感じるのは当然。SDXL以降は 1024 が下限と割り切る。
4. アスペクト比とプロンプトの不一致
縦長アスペクト比を指定しているのにプロンプトが「wide landscape」だと、AIが混乱。アスペクト比とプロンプトの世界観を一致させる。
実用テンプレ
SDXL ポートレート(最も安定)
解像度: 832×1216
プロンプト: 1girl, portrait, ...
SDXL 横長ワイド風景
解像度: 1344×768
プロンプト: landscape, mountain, wide vista, ...
Midjourney ポートレート
prompt --ar 2:3 --v 6
SORA 動画
プロンプト末尾: "16:9 cinematic aspect ratio"
まとめ
アスペクト比と解像度は、AI画像生成の品質を左右する重要なパラメータ。モデルごとの学習解像度に合わせる、用途に応じたアスペクト比を選ぶ、極端な比率を避ける、低解像度ならアップスケール前提で生成する。これらを意識すると、破綻が減って歩留まりが大きく上がります。
PromptForge JP では、選択中のAIモデルに応じて推奨解像度を自動提案する機能を準備中です。「SDXLでポートレートなら832×1216」「Midjourneyの動画サムネなら --ar 16:9」のようなプリセットを選ぶだけで、最適な指定が反映される設計を予定しています。