動画AI2026-05-13

Veo 3プロンプト完全ガイド — Googleの動画AIをラベル構造で攻略する

Google Veo 3 はラベル付きの構造化プロンプトと相性が良く、SORA とは異なる作法が求められます。シーン・カメラ・音声を含めた構造設計と実例、商用利用時の注意点まで解説します。

Google が提供する Veo 3 は、SORA と並ぶ高品質動画AIですが、書き方の作法は大きく異なります。SORA が「散文型」なのに対し、Veo は「ラベル付き構造型」と相性が良い。さらに Veo 3 は音声生成にも対応しており、これが他モデルとの大きな差別化ポイントです。本記事では、Veo に最適化したプロンプト設計を整理します。

Veo の基本特性

ラベル付き構造に強い：Scene:、Camera: のように要素を明示するとブレが減る
音声・効果音生成に対応：環境音やセリフを同時に生成できる（Veo 3 以降）
物理挙動が安定：水・布・髪の動きが自然
商用利用フレンドリー：Google AI / Vertex AI 経由で商用条件が明確
8秒尺がスイートスポット：それ以上は破綻しやすい

つまり Veo は「映像と音声を同時に設計する道具」です。プロンプトには映像情報だけでなく音響デザインも含めるのが本質的な活用法です。

推奨される構造

Veo は以下のラベル付きセクションを持つプロンプトと相性が良いです。

Scene: [シーン全体の俯瞰]
Subject: [被写体の詳細]
Action: [動きと時系列]
Camera: [カメラワーク]
Lighting: [ライティング]
Style: [画風・質感]
Audio: [音響デザイン]
Negative: [避けたい要素]

すべて埋める必要はありませんが、Scene と Action と Camera の3つは最低限明示するのが推奨です。

実例：Veo 3向けプロンプト

Scene: A small ramen shop interior at night in Tokyo.
Steam rises from a large pot of broth on the counter.
Warm yellow lights from old bulbs.

Subject: A middle-aged chef in a white uniform and indigo
hachimaki, focused expression, steam reflecting off his
glasses.

Action: He skillfully scoops noodles from boiling water with
a long-handled strainer, taps it twice to drain, then places
them gently into a black bowl. The motion takes about 4 seconds.

Camera: Locked-off medium shot at counter level, slight low
angle. No camera movement.

Lighting: Warm tungsten light from above, soft shadows under
the counter. Slight steam haze in the air.

Style: Photorealistic, shallow depth of field, 50mm lens,
documentary film aesthetic.

Audio: Bubbling water, the rhythmic tap of the strainer
against the pot, faint distant city traffic. No music.

Negative: cartoon style, exaggerated motion, music.

このプロンプトの設計ポイント：

ラベルを明示して各要素の役割を分離
動作の所要時間を秒数で書く（takes about 4 seconds）
音響を映像と同じ密度で記述（環境音、効果音、不要な音の否定）
Negative セクションを活用して避けたい質感を明文化

Veo 3 の音声生成を活かす

Veo 3 の最大の差別化点は「映像に同期した音声生成」です。Audio セクションは Veo に専用の指示として渡せます。

環境音の記述例

Audio: Light rain falling on rooftops, distant thunder,
occasional car driving through wet streets. Calm and quiet.

効果音の記述例

Audio: Sharp metal-on-metal clang as the sword draws,
followed by a low resonant hum. No background music.

セリフ生成の記述例

Audio: A young woman softly says "I'm home" in Japanese,
followed by the door closing. Ambient room tone.

セリフ生成は短いフレーズなら安定しますが、長文や英語以外の言語ではアクセント・口の動きに違和感が出ることがあります。本気のセリフは音声をあとから差し替える前提で、Veo には「ガイド音声」として位置付けるのが現実的です。

カメラワーク指定の流儀

Veo はカメラ用語を業界標準で受け取ります。

Static / Locked-off — 固定
Dolly in / out — 前進後退
Pan left / right — 左右振り
Tilt up / down — 上下振り
Track / Follow — 被写体追従
Crane up / down — クレーン
Orbit — 被写体を中心に回転
Handheld — 手持ち感

複数のカメラ動作を組み合わせるときは、then を使って時系列で記述します。

Camera: Begins as a wide static shot, then dollies in slowly
toward the subject's face for the final 2 seconds.

失敗しやすいパターン

1. 過密なシーン

Veo は1ショット内の被写体数が増えると顔・体の整合性が崩れやすくなります。3人以下、できれば1〜2人に絞るのが推奨です。

2. 抽象表現の多用

「希望に満ちた」「儚い」など抽象的な情緒語だけでは Veo は具体的な絵を描けません。視覚的な要素（光の色、被写体の表情、動きの速度）に翻訳して書きます。

3. 矛盾する Audio 指示

Audio: silent but with footsteps のような半矛盾は Veo を混乱させます。No music, but ambient footsteps and breathing. のように、何があるか・何がないかを明確に分けます。

SORA / Veo / Kling の使い分け

同じシーンでも、最適なモデルは異なります。Veo の強みは「物理表現と音声」、弱点は「マルチカット構成と長尺」。実写ドキュメンタリー風、料理・職人モノ、自然風景といった「環境と音が主役のシーン」では Veo が頭ひとつ抜けます。

逆に、複雑な物語性・複数カット・SF的な発想が必要なシーンでは SORA、人物の細かい演技や中華アニメ調のシーンでは Kling が向いています。

商用利用とライセンス

Veo は Google AI Studio や Vertex AI 経由で利用する場合、生成物の商用利用が明確に許可されています。ただし、生成された動画が訓練データに含まれるかどうかはプラン次第なので、機密性の高いプロジェクトでは Vertex AI のエンタープライズプランを選ぶのが安全です。

まとめ

Veo は「ラベル付き構造プロンプト」と「映像＋音声の同時設計」を前提に書くと真価を発揮します。Scene/Subject/Action/Camera/Lighting/Style/Audio/Negative の枠組みを使い、各セクションを具体的な視覚・聴覚情報で埋める。これだけで SORA とは別系統の高品質出力が得られます。

PromptForge JP では Veo 向けのラベル構造UIと、SORA 向け散文UIをモデル切替で出し分ける設計を進めています。同じ「夜のラーメン屋」というシーン素材でも、Veo にはラベル付きで、SORA には段落として、自動的に整形されるのが目標です。

← 他の記事を読む