Stable Diffusion / Flux / Midjourney プロンプト書き分けの実践
同じイメージを生成する際に、Stable Diffusion・Flux・Midjourneyでプロンプトをどう書き分けるべきかを実例で比較。各モデルの解釈の癖と最適化のコツを解説します。
主要な画像生成AIである Stable Diffusion(SDXL系)、Flux、Midjourney は、それぞれプロンプトの解釈に明確な癖があります。同じプロンプトを投げても出力傾向が大きく異なるため、モデルに合わせて書き分けることで結果の質が劇的に変わります。本記事ではこの3モデルの特性と書き分けのコツを実例で整理します。
Stable Diffusion(SDXL系)の癖
Stable Diffusion 系モデルはタグベースの解釈が中心です。Danbooru タグや細かい形容詞をカンマ区切りで並べる「呪文形式」が定着しています。
効くプロンプト例:
1girl, long blonde hair, blue eyes, school uniform, classroom,
sitting at desk, sunlight from window, looking at viewer,
detailed face, masterpiece, best quality
特徴:
- 単語の順序が重みに直結する(先頭ほど強い)
(word:1.3)のような重み指定が機能- 同じ意味の単語でもタグ形式(
1girlvsa young woman)で結果が変わる - ネガティブプロンプトを併用するのが標準
- LoRA・Embedding との組み合わせで画風を細かく制御できる
Flux の癖
Flux(Black Forest Labs)は、自然言語で書かれた文章型プロンプトに最も強いモデルです。SDXLのタグ羅列ではなく、英文で完結に状況を記述したほうが結果が安定します。
効くプロンプト例:
A young woman with long blonde hair and blue eyes sits at a
classroom desk, wearing a school uniform. Soft afternoon
sunlight streams through the window behind her. She looks
directly at the camera with a calm expression. Photorealistic,
shallow depth of field.
特徴:
- 文法的に正しい英文ほど強い
- タグ羅列は逆に解釈精度を落とすことがある
- ネガティブプロンプトの効きが SDXL より弱い(モデル設計上の違い)
- 文字(テキスト)の描画精度が他モデルより高い
- 解像度の柔軟性が高い
Midjourney の癖
Midjourney は「短く詩的な記述」が最も効くモデルです。長文のシーン記述よりも、印象的な単語を厳選して並べたほうが質が上がる傾向があります。
効くプロンプト例:
young woman, blonde hair, blue eyes, classroom desk, golden
hour light, school uniform, cinematic, soft focus --ar 16:9 --v 6
特徴:
- 30〜60単語程度が最適
- 長すぎるプロンプトは効果が薄れる
--ar(アスペクト比)、--s(スタイライズ)、--c(カオス)等のパラメータで挙動を細かく制御- 「Midjourney らしい雰囲気」が初期設定で強く乗るため、その美的傾向が好きならそのまま使える
- ネガティブプロンプトは
--noパラメータ経由で指定
同じイメージでの3モデル書き分け実例
「夕日を背景にした和服の女性」を例に:
Stable Diffusion 用
1girl, traditional kimono, long black hair, sunset background,
ocean horizon, standing on beach, looking at sunset, golden
hour, cinematic lighting, masterpiece, best quality, ultra detailed
Negative: bad anatomy, extra fingers, blurry, low quality
Flux 用
A young Japanese woman in a traditional kimono stands on a
quiet beach at sunset. She gazes at the horizon where the sun
meets the ocean. Warm golden light bathes the scene, casting
long shadows on the sand. Photorealistic, shallow depth of field.
Midjourney 用
Japanese woman in kimono, sunset beach, golden hour, ocean
horizon, contemplative mood, cinematic, soft light --ar 3:2 --v 6
この3つは同じイメージですが、それぞれのモデル解釈に合わせて書き換えています。書き換えなしでそのまま流用すると、結果のブレが大きくなります。
モデル選択の指針
- アニメ・キャラクター系:Stable Diffusion(特にアニメ系チェックポイント)
- 写実・人物・自然描写:Flux か Midjourney
- アーティスティックな雰囲気作り:Midjourney
- テキストを画像に含めたい:Flux
- 細かいキャラ造形・LoRA活用:Stable Diffusion
まとめ
Stable Diffusion はタグ羅列、Flux は自然言語文、Midjourney は厳選された単語の並び。同じアイデアでもモデルに合わせて書き換える前提で運用すると、3モデルそれぞれの強みを引き出せます。
PromptForge JP では、ひとつの構造化された入力から各モデル向けに最適化された出力を同時生成できる機能を開発中です。モデル間の書き換えコストをゼロにし、用途に合わせたモデル選択を簡単にします。