動画AI2026-05-12

SORA専用プロンプトの書き方 — 散文式でOpenAI動画AIの真価を引き出す

OpenAIのSORAは他の動画生成AIと書き方の作法が異なります。タグ羅列ではなく散文式・物語的な記述が最も効くSORAの特性を踏まえ、構造・表現・落とし穴までを解説します。

⚠ 2026年5月の追記：OpenAI は 2026-03-25 に Sora の提供終了を発表し、2026-04-26 にウェブ版・アプリ版を停止しました（API は 2026-09-24 まで）。本記事は記録目的で公開を継続しますが、今後 Sora を新規に利用することはできません。本記事で示した「散文式・自然言語プロンプト」の考え方は、Google Veo や Runway Gen-4 など他の自然文系動画AIにそのまま応用できます。代替モデル選びは動画AI比較記事を参照してください。

SORA は OpenAI が手がけた動画生成AIで、最大の特徴は「自然言語で書いた長文プロンプトを精度高く理解する」点にありました。Stable Diffusion 系で身につけた「タグを並べる」発想で書くと、むしろ性能を引き出せません。本記事では SORA に最適化したプロンプトの書き方、構造、頻出の失敗パターンを整理します（記事の知見は他の自然文系動画AIにも転用可能です）。

SORA の基本特性

SORA は GPT 系の言語モデルと同じ思想で訓練されているため、次の傾向があります。

長文プロンプトに強い：100〜300語の散文を破綻なく解釈できる
物語性・時系列に強い：「最初〜次に〜最後に」のような時系列指示が効く
マルチカット対応：1プロンプトから複数のカットを構成できる
物理シミュレーションに強い：水・布・髪などの物理挙動が自然
タグ羅列に弱い：単語の列挙だと意図を取り違えやすい

つまり、SORA は「プロンプトを文章として読む」モデルです。書き方も小説の地の文に近い方が成功率が上がります。

推奨される構造

SORA のプロンプトは、次の流れで書くと安定します。

シーン全体の俯瞰（1〜2文）
被写体の詳細（外見・状態・感情）
動きと時系列（何がどう変化するか）
環境とライティング
カメラワークと演出
画質・スタイル指定

各セクションを段落で分け、自然な日本語または英語の文章として書きます。箇条書きは避け、接続詞でなめらかにつなぐのがコツです。

実例：SORA向けプロンプトの典型

以下は5秒の短尺動画を想定した SORA 向け英文プロンプトです。

A young woman with short black hair stands at the edge of a
quiet rooftop garden in early morning. She wears a soft beige
trench coat over a white knit sweater, holding a steaming
ceramic mug with both hands. Steam curls upward and dissipates
in the cool air.

The camera begins behind her left shoulder, then slowly dollies
forward and around to her front, revealing her face as she
turns to look out across a foggy cityscape. Her hair moves
gently in a light breeze. The fog over the city slowly drifts.

Soft golden hour light from the right, with cool ambient
shadows. Cinematic depth of field, 35mm lens look, subtle film
grain. Natural color grading, warm highlights and cool shadows.

このプロンプトの設計ポイント：

状況描写から始める：いきなりタグを並べず、シーンの空気を最初に確立
動きを時系列で書く：「begins〜then〜revealing」と動作を順序立てる
環境の動きも明示：被写体だけでなく蒸気・霧・風など副次的な動き
カメラワークは2手以下：dolly + pan のような複合は避け、1動作に絞る
最後に画質・スタイル：レンズ、色味、グレインを文末で集約

SORA 特有の効くキーワード

経験的に SORA で安定して効果を発揮するキーワードを整理します。

画質・質感

cinematic — 映画的な質感を一発で寄せられる
photorealistic — 実写志向のときに必須
35mm lens / 85mm lens — レンズ名で被写界深度をコントロール
subtle film grain — のっぺり感を減らす
natural color grading — 過度な彩度調整を避ける

動きの記述

slowly / gently / gradually — 急激な変化を避けたいとき
the camera dollies / pans / orbits — カメラを擬人化する表現
in real-time — スローモーション化を防ぐ
seamlessly — カット間のなめらかさ

環境の生命感

softly drifts — 雲・霧・葉などの自然な動き
light breeze — 髪・布・草を揺らす定番
flickering — 炎・電灯のゆらぎ

失敗しやすいパターン

SORA で再現性を落とす書き方を確認しておきます。

1. タグ羅列

girl, rooftop, coffee, morning, fog, dolly shot, cinematic, 4k

これだと SORA は要素間の関係性を推測できず、構図が崩れがちです。同じ情報でも段落の文章として書き直すと安定します。

2. 矛盾する指示

「slow motion なのに real-time pacing」「夕方なのに高彩度のネオン」など、相反する指示は SORA が片方を無視するか、両方を中途半端に取り入れて品質が下がります。

3. 過剰なカメラワーク

dolly in while panning right while zooming out のような3軸以上の複合動作は破綻率が高くなります。動きの軸は1本に絞り、必要なら2カットに分けます。

4. 不要な技術用語

8k UHD HDR ultra detailed masterpiece のような Stable Diffusion 流のクオリティタグは SORA では効きが薄く、むしろ文体を壊します。cinematic、photorealistic 程度に抑えるのが無難です。

マルチカット指示の書き方

SORA は2〜3カットの構成を1プロンプトで指示できます。

The video begins with a wide establishing shot of a coastal
village at dawn, with fishing boats moored in still water.
After two seconds, cut to a close-up of a fisherman's weathered
hands tying a knot. After two more seconds, cut back to a
medium shot of the fisherman pushing his boat off the shore.

ポイントは：

各カットの秒数を明示する（after two seconds）
カット間の被写体・主題につながりを持たせる
全体の尺を冒頭または末尾に書き添える

英語と日本語、どちらで書くべきか

現状の SORA は英語入力に最適化されています。日本語でも理解はしますが、ニュアンス（「夕暮れの寂しい感じ」など）が抜け落ちやすいため、本気の出力を狙うなら英語で書く方が無難です。日本語で構想 → DeepL や ChatGPT で英文化 → SORA 投入、という二段ワークフローが現実解です。

まとめ

SORA は「文章を読み取る動画AI」です。タグの集合ではなく、シーンを描写する短編の地の文として書くのが最適解。被写体 → 動き → 環境 → カメラ → 画質、の流れで段落を構成し、複合カメラワークと矛盾指示を避ける。これだけで他のモデルとは一線を画す品質に到達できます。

PromptForge JP では、SORA 向けの「散文モード」と他モデル向けの「ラベル構造モード」を切り替えられる設計を準備中です。同じ構成要素を選択しても、出力されるプロンプト形式がモデルに合わせて自動最適化される、というのが目指す体験です。

← 他の記事を読む