動画AI
動画AIで音・セリフ・環境音を扱う — 音声対応モデルのプロンプト術
音声生成に対応した動画AIで、効果音・環境音・セリフ・BGMを狙い通りに出すためのプロンプトの書き方を解説。音の指示の構文、口の動きとの同期、無音にしたいときの指定までまとめます。
動画AIの進化で、映像と同時に音声まで生成できるモデルが登場しています。環境音やセリフが乗るだけで、映像の没入感は段違いになります。一方で「音の指示の書き方」はまだ情報が少なく、戸惑う人も多い領域です。本記事では音声対応動画AIのプロンプト術を整理します。
なお音声対応の有無や仕様はサービス・プランにより異なり、更新も早いため、最新仕様は各サービスの公式情報をご確認ください。映像側の基礎は動画プロンプトの構造化を参照してください。
音の指示は「映像」と分けて書く
音声対応モデルでは、映像描写と音指示を分けて書くと意図が通りやすくなります。Audio: のようなラベルで区切るのが分かりやすい書き方です。
A cozy cafe interior, rain outside the window, a woman reading a book.
Audio: gentle rain, soft jazz music, occasional clink of a coffee cup.
音の4分類
音は大きく4種類に整理できます。
| 種類 | 英語表現の例 |
|---|---|
| 環境音(アンビエンス) | room ambience, city traffic, forest sounds, ocean waves |
| 効果音(SFX) | footsteps, door creaking, glass breaking, thunder |
| セリフ・発話 | a woman says "..." , whispering, laughing |
| 音楽(BGM) | soft piano, upbeat jazz, tense orchestral music |
欲張ってすべてを盛ると音が濁るので、主役の音を1〜2種に絞るのがコツです。
環境音・効果音のコツ
- シーンと一致させる:雨のシーンに
gentle rain、街ならdistant traffic。映像と矛盾する音は不自然 - 強さを添える:
soft/distant/loudで音量感を指定 - タイミング語:
as the door opens, a creaking soundのように映像イベントと結びつける
セリフ・発話のコツ
セリフを出す場合は、内容と話し方を指定します。
a young man looks at the camera and says "I'll be back soon", calm voice
- 短いセリフから:長いセリフは口の動き(リップシンク)とのズレが出やすい
- 声質を添える:
calm voice,cheerful tone,whisperingなど - 言語を意識:出力言語によって発話の自然さが変わる。日本語セリフ対応はサービス差が大きい
音楽(BGM)のコツ
- ジャンルとムードで指定:
upbeat acoustic guitar,melancholic piano,epic orchestral - テンポ感:
slow tempo,energetic - 映像のムード(ライティング表現の辞典で作る雰囲気)と音楽の方向性を揃える
無音・音を抑えたいとき
音声生成が不要な場合は明示します。
no music/silent/ambient sound only- BGMを切って環境音だけにしたいなら
no music, only natural ambience
後から編集ソフトで音を差し替える前提なら、最初から無音指定にしておくと扱いやすくなります。
サービス別の傾向
- Veo:音声生成に対応し、環境音・効果音の同時生成が特徴。詳細はVeoプロンプト完全ガイド
- その他のモデルも順次音声対応が進行中。対応状況はプラン・バージョンで変わるため都度確認を
よくある失敗と回避
| 失敗 | 回避 |
|---|---|
| 音が映像と合わない | シーンと一致する音を指定 |
| 音が濁る・うるさい | 主役の音を1〜2種に絞る |
| セリフがズレる | 短いセリフにする |
| 余計なBGMが乗る | no music を明示 |
まとめ
- 音指示は映像と分け、
Audio:ラベルで区切ると伝わる - 音は環境音・効果音・セリフ・BGMの4分類。主役を1〜2種に絞る
- セリフは短く・声質を添える、不要なら無音を明示
映像側のプロンプトはPromptForge JP のツールで組み立て、音の指示を末尾に足す形が扱いやすいです。まずは環境音1種から、映像に「音の厚み」を足してみてください。