PromptForge JP
← ブログ一覧
動画AI

動画AIで音・セリフ・環境音を扱う — 音声対応モデルのプロンプト術

音声生成に対応した動画AIで、効果音・環境音・セリフ・BGMを狙い通りに出すためのプロンプトの書き方を解説。音の指示の構文、口の動きとの同期、無音にしたいときの指定までまとめます。

動画AIの進化で、映像と同時に音声まで生成できるモデルが登場しています。環境音やセリフが乗るだけで、映像の没入感は段違いになります。一方で「音の指示の書き方」はまだ情報が少なく、戸惑う人も多い領域です。本記事では音声対応動画AIのプロンプト術を整理します。

なお音声対応の有無や仕様はサービス・プランにより異なり、更新も早いため、最新仕様は各サービスの公式情報をご確認ください。映像側の基礎は動画プロンプトの構造化を参照してください。

音の指示は「映像」と分けて書く

音声対応モデルでは、映像描写と音指示を分けて書くと意図が通りやすくなります。Audio: のようなラベルで区切るのが分かりやすい書き方です。

A cozy cafe interior, rain outside the window, a woman reading a book.
Audio: gentle rain, soft jazz music, occasional clink of a coffee cup.

音の4分類

音は大きく4種類に整理できます。

種類 英語表現の例
環境音(アンビエンス) room ambience, city traffic, forest sounds, ocean waves
効果音(SFX) footsteps, door creaking, glass breaking, thunder
セリフ・発話 a woman says "..." , whispering, laughing
音楽(BGM) soft piano, upbeat jazz, tense orchestral music

欲張ってすべてを盛ると音が濁るので、主役の音を1〜2種に絞るのがコツです。

環境音・効果音のコツ

  • シーンと一致させる:雨のシーンに gentle rain、街なら distant traffic。映像と矛盾する音は不自然
  • 強さを添えるsoft / distant / loud で音量感を指定
  • タイミング語as the door opens, a creaking sound のように映像イベントと結びつける

セリフ・発話のコツ

セリフを出す場合は、内容と話し方を指定します。

a young man looks at the camera and says "I'll be back soon", calm voice
  • 短いセリフから:長いセリフは口の動き(リップシンク)とのズレが出やすい
  • 声質を添えるcalm voice, cheerful tone, whispering など
  • 言語を意識:出力言語によって発話の自然さが変わる。日本語セリフ対応はサービス差が大きい

音楽(BGM)のコツ

  • ジャンルとムードで指定:upbeat acoustic guitar, melancholic piano, epic orchestral
  • テンポ感:slow tempo, energetic
  • 映像のムード(ライティング表現の辞典で作る雰囲気)と音楽の方向性を揃える

無音・音を抑えたいとき

音声生成が不要な場合は明示します。

  • no music / silent / ambient sound only
  • BGMを切って環境音だけにしたいなら no music, only natural ambience

後から編集ソフトで音を差し替える前提なら、最初から無音指定にしておくと扱いやすくなります。

サービス別の傾向

  • Veo:音声生成に対応し、環境音・効果音の同時生成が特徴。詳細はVeoプロンプト完全ガイド
  • その他のモデルも順次音声対応が進行中。対応状況はプラン・バージョンで変わるため都度確認を

よくある失敗と回避

失敗 回避
音が映像と合わない シーンと一致する音を指定
音が濁る・うるさい 主役の音を1〜2種に絞る
セリフがズレる 短いセリフにする
余計なBGMが乗る no music を明示

まとめ

  • 音指示は映像と分け、Audio: ラベルで区切ると伝わる
  • 音は環境音・効果音・セリフ・BGMの4分類。主役を1〜2種に絞る
  • セリフは短く・声質を添える、不要なら無音を明示

映像側のプロンプトはPromptForge JP のツールで組み立て、音の指示を末尾に足す形が扱いやすいです。まずは環境音1種から、映像に「音の厚み」を足してみてください。