動画AI2026-05-14

Kling AIプロンプトのコツ — 中国発・人物動画特化モデルの最適解

Kuaishou が手がける Kling AI は、人物の演技と Image-to-Video で頭ひとつ抜けた品質を出します。SORA / Veo とは異なる作法とパラメータ設計を、実例つきで解説します。

Kling AI は中国の Kuaishou 社が開発した動画生成AIで、人物の自然な動き、表情、Image-to-Video（画像から動画化）で特に高い評価を得ています。SORA や Veo と比べると、中国語/英語の混在プロンプトに強く、また「画像 + 短いプロンプト」で意図を表現する文化が根付いている点が特徴です。本記事では Kling 特有のコツを整理します。

Kling の基本特性

人物動画に強い：表情・口元・瞬きが自然
Image-to-Video の精度が高い：1枚の画像を起点に動かすのが得意
Text-to-Video もまずまず：ただし Image-to-Video の方が安定する
5秒〜10秒尺がスイートスポット：Pro プランで最大2分程度まで延長可
中国語プロンプトもネイティブに解釈：日本語よりも英語/中国語が安定

つまり Kling は「絵があって、それをどう動かすか」を考えるモデルです。プロンプトだけで一から動画を作るより、Stable Diffusion / Flux で生成した画像を起点に動かす方が圧倒的に効率的です。

推奨ワークフロー

Kling の真価を引き出すには、以下のワークフローが定番です。

Stable Diffusion / Flux / Midjourney で起点画像を生成
画像をアップロードし、動かしたい箇所と動き方を短文で指示
必要に応じてカメラ動作とテンポを追記
生成後にカメラ動作だけ別パスで再生成して合成

このアプローチにより、構図と被写体の品質は静止画AIで担保しつつ、動きの自然さは Kling に任せる、という分業が成立します。

Image-to-Video のプロンプト例

起点画像：和装の女性が縁側に座っている1枚の高解像度画像。

The woman slowly turns her head to the right and looks toward
the garden, then smiles gently. A light breeze moves her hair
and the wind chime in the background sways. Camera holds
steady. Real-time pacing, calm mood.

ポイント：

動きを2〜3個に絞る（顔の動き＋髪の動き＋風鈴）
画像にない要素を増やさない（背景の人を追加するなどはNG）
テンポと雰囲気は文末に（calm / energetic / contemplative）
カメラは静止が無難（動かすなら別生成で合成）

Text-to-Video のプロンプト例

画像なしで Kling に直接生成させる場合のサンプル：

A young Asian woman in a red qipao stands in a traditional
Chinese garden with stone bridges and koi ponds. She slowly
walks across the bridge, her dress flowing in the breeze.
Cherry blossom petals drift in the air. Soft afternoon light,
cinematic 35mm look. The camera follows her from behind in
a smooth tracking shot.

Text-to-Video でも、Kling は人物の質感が安定します。ただし環境のディテール（建築物、背景の人物）は SORA / Veo より弱いので、複雑な背景は避けるのが安全です。

Kling 特有のパラメータ

UI 上で設定できる主要パラメータも押さえておきます。

Creativity（クリエイティビティ）

低めにすると入力画像/プロンプトに忠実、高めにすると AI が自由に解釈。人物 Image-to-Video では低め（0.3〜0.5）が無難。

Mode

Standard — 速い、コスト安、品質はまずまず
Professional — 遅い、コスト高、品質が大幅に向上

商用や本番用途は Professional 一択。テストは Standard で回す。

Duration

5秒、10秒の二択が基本。Pro プランで延長可。

Camera Control

UIから「dolly in / pan / tilt / static」などを直接指定できる。プロンプト中の英語指示よりこちらの方が確実。

人物表現に効くキーワード

Kling で表情・身振りを安定させる頻出表現を整理します。

gentle smile / subtle smile — 微笑み
slowly blinks — 自然な瞬き
tilts her head slightly — 首の傾け
looks toward the camera — カメラ目線
hands rest naturally — 不自然なポーズ防止
breathing softly — 呼吸感
hair sways in the wind — 髪のなびき

逆に、以下の表現は破綻しやすいので注意：

複雑な手の動き（指の数を間違える）
ジャンプや回転（体型が崩れる）
急激な表情変化（モーフィングのように見える）
複数人の同期した動き（誰か一人を捨てる）

失敗しやすいパターン

1. 画像にない要素を要求

「画像の女性の隣に犬を出して」と指示しても、Kling は元画像の構図を維持しようとして無理に犬を生やし、奇形になりがちです。新規要素は別の起点画像で作り直すべきです。

2. 動きを詰め込みすぎ

「彼女は振り返って、立ち上がって、歩き始める」のように3アクション以上を5秒に詰めると破綻します。1アクションに絞り、続きが必要なら次のショットで分けます。

3. Negative の効きを過信

Kling の Negative プロンプトは Stable Diffusion ほど強力ではありません。「不自然な手」のような構造的な問題は Negative では防げないので、起点画像の段階で品質を担保します。

Kling と SORA / Veo の使い分け

シーン	推奨モデル
人物のクローズアップ・表情演技	Kling
複雑な物語・マルチカット	SORA
料理・自然・環境＋音声	Veo
演出・エフェクト多めの短尺	Runway / Pika
アジア人モデル・アジアの景観	Kling

Kling はアジア系の被写体・景観で特に学習データが厚く、SORA / Veo よりも自然に仕上がる傾向があります。

商用利用と料金

Kling は中国本土向けの「快影」と国際版の「Kling AI」で別運営。国際版は月額サブスクで商用利用可、生成物の権利は基本的にユーザーに帰属します。ただし利用規約は日本語圏で言及が少ないので、商用前には公式 Terms を読み直すのが安全です。

まとめ

Kling は「人物 + 画像起点」で本領を発揮するモデルです。動かす箇所を2〜3個に絞り、画像にない要素を足さず、Professional モードで生成する。この3点を守るだけで、SORA / Veo とは違う「演技する被写体」が得られます。

PromptForge JP では、Image-to-Video 向けの「動かしたい箇所選択UI」を Kling 専用モードとして検討中です。起点画像をアップロード → クリックで「ここを動かす / カメラはこう」の選択 → Kling 用プロンプトを自動生成、という流れを目指します。

← 他の記事を読む