PromptForge JP
← ブログ一覧
画像AI

ControlNet実用ガイド — 構図と姿勢を意のままに制御する5モード

ControlNetはStable Diffusionに「絵の構造を直接指示する」機能を追加する拡張。OpenPose・Canny・Depth・Lineart・Tileの5モードの使い分け、ComfyUI/A1111での違い、現場で効くコツを実用観点で整理します。

Stable Diffusionで「狙った構図にならない」「キャラのポーズが思い通りにいかない」と感じる原因の多くは、プロンプトだけで構図を制御しようとしているからです。これを根本的に解決するのがControlNet。本記事では、現場で実用される5モードと、ComfyUI/A1111での運用、よくある失敗を整理します。

ControlNetとは

ControlNetは2023年に発表されたStable Diffusion拡張で、追加の条件画像を渡して構造を直接指定する仕組みです。プロンプトで「カメラを左から」と書いても解釈は不安定ですが、参照画像から抽出した骨格・輪郭・深度情報を直接条件として渡せば、構図は確定的に決まります。

技術的にはU-Netの各層に補助ネットワークを接続し、条件画像由来の特徴を注入する設計。原論文の著者はZhang Lvmin氏で、その後コミュニティで複数のプリプロセッサ・モデルが追加されてきました。

実用5モードの使い分け

実務でよく使うのはこの5つに絞られます。

1. OpenPose — キャラのポーズ制御 人物のポーズを骨格情報として抽出し、それを再現する。最も多用するモード。

ユースケース:

  • 既存のポーズ写真からキャラを描き起こす
  • 自分でDAZ Studio等で組んだポーズを2D絵に転写
  • 複数キャラの位置関係を維持して別衣装で再生成

2. Canny — 輪郭再現 入力画像の輪郭線を抽出して構図を再現する。最も汎用的で、初心者でも扱いやすい。

ユースケース:

  • ラフスケッチから本番イラスト
  • 既存画像の構図を維持して別スタイルに描き直し
  • 複雑な機械・建物の形状をそのまま転写

3. Depth — 奥行き再現 入力画像から深度マップを抽出し、3D的な空間配置を再現する。

ユースケース:

  • ゲーム背景の3Dレンダリングをアニメ調に変換
  • 写真の空間構造を維持してファンタジー画にリミックス
  • 複雑な構造物(廊下・階段・橋)の奥行き表現

4. Lineart — 線画再現 イラスト用の線画として抽出。Cannyより滑らかで、アニメ系制作で重宝。

ユースケース:

  • 自分の手描き線画に着色
  • 既存イラストのトレース風リメイク
  • 同一線画で異なる塗り方を量産

5. Tile — 高解像度化補助 タイル分割再生成で大判出力を作る用途。最近はUpscalerと組み合わせて使うのが定石。

ユースケース:

  • 1024px原画 → 4Kへの精細化
  • A1Bポスターサイズの印刷物制作
  • ディテール強化(Tile + 0.4〜0.6のdenoising)

ComfyUIとA1111の比較

ControlNetはAUTOMATIC1111とComfyUIの両方で使えますが、運用思想がかなり違います。

AUTOMATIC1111

  • GUIが直感的で初心者向け
  • ワンクリックでプリプロセッサ→モデル適用が完了
  • 拡張機能のインストールが簡単
  • 複数ControlNetの並列適用がやや煩雑

ComfyUI

  • ノードグラフで処理を可視化
  • 複数ControlNet・複数LoRAを並列に組める
  • ワークフローを保存して再利用可能
  • 学習曲線がやや急

実務では「A1111で習熟 → ComfyUIで量産・複雑処理」という移行パスが多いです。最初からComfyUIに挑む人もいますが、ノード設計でつまずきがちなので、A1111でControlNetの感覚を掴んでから移行するのを推奨します。

強度(Weight)と適用範囲の調整

ControlNetを実用化する上で最重要なのがWeight(強度)と適用範囲の調整です。デフォルトの強度1.0は実は強すぎることが多く、自然な絵にならない原因になります。

実用域の目安:

  • 0.4〜0.6:構図は参照、ディテールは自由(最も実用的)
  • 0.7〜0.9:構図をしっかり再現したい時
  • 1.0以上:参照を完全に再現したい時(ただし破綻リスク)

さらに開始/終了ステップを絞ることで、構図のみ制御してディテールはプロンプトに任せる動きが作れます。例えば「開始0.0〜終了0.5」とすると、生成初期だけControlNetが効き、後半はプロンプトが主導するため、自然な絵になりやすい。

よくある失敗

実機で踏んだ罠を5つ。

罠1:プリプロセッサとモデルのミスマッチ OpenPoseのプリプロセッサに、Canny用のモデルを当てるなどの組み合わせミス。プリプロセッサの出力を確認してから対応するモデルを選ぶ。

罠2:強度1.0で破綻 「強くすれば再現される」と思いがちですが、1.0は強すぎてキャラのアイデンティティが崩れることが多い。0.5前後から試すのが鉄則。

罠3:解像度ミスマッチ プリプロセッサ画像と生成サイズが極端に違うと、構図がズレます。同じアスペクト比・近い解像度に揃える。

罠4:複数ControlNetの相殺 OpenPose + Depthのように複数当てると、お互いの指示が衝突して中途半端な絵になることがあります。Weightを下げるか、1つに絞る判断が必要。

罠5:プロンプトとの矛盾 ControlNetで「立っているポーズ」を指定しつつプロンプトに sitting と書くと混乱します。ControlNetの内容に矛盾しないプロンプトを書く。

まとめ

ControlNetは「プロンプトで構図を頑張る」から「構造は別経路で渡す」へのパラダイムシフトをもたらす拡張です。5モード(OpenPose・Canny・Depth・Lineart・Tile)を使い分けと強度調整で運用できるようになれば、Stable Diffusion での制作効率は劇的に上がります。まずはA1111でCanny+0.5から始めるのが最も無難な入り口です。

PromptForge JP では、Stable Diffusion / Flux 系プロンプトを選択式UIで組み立てるツールを提供しています。ControlNetと併用する際の「ベースプロンプト」を素早く整える用途にもぴったりです。