学べること
- 毎回使い回せる5要素プロンプト(被写体・動作・舞台・スタイル・カメラ)
- 曖昧なプロンプトを精密に書き換える方法——ビフォー/アフター例つき
- ネガティブ指定(「テキストなし・透かしなし」など)が結果をクリーンにする理由
- 当てずっぽうを排す“一度に一変更”の反復ループでショットを磨く
モデルはプロンプトをどう読むか
テキストから動画のモデルは人のように物語を“理解”しません。学習した視覚パターンに言葉を照合します。画面に何を映し、カメラをどう動かすかを具体的に書くほど、モデルの推測は減ります。固有名詞、明快な単一アクション、名前のあるカメラワークは、曖昧な形容詞の羅列より有効です。
効くプロンプトの型
監督のようにショットを記述——被写体・動作・舞台・スタイル・カメラ。1〜2文の明快な記述にまとめましょう。
- 1被写体:画面に誰/何がいるか(「バリスタ」「洗練されたスマホ」)。
- 2動作:何が起きるか(「ラテアートを注ぐ」「台座の上でゆっくり回転」)。
- 3舞台:どこか(「日差しの入るスペシャルティカフェ」「最小限のスタジオ、柔らかな影」)。
- 4スタイル:見た目(「シネマティック、浅い被写界深度、ウォームなグレーディング」)。
- 5カメラ:動き(「ゆっくりプッシュイン」「オービット」「固定のワイド」)。
ビフォー/アフター
曖昧:「コーヒーの動画」。改善:「白いカップにラテアートを注ぐバリスタのクローズアップ。木製カウンター、日差しの入るスペシャルティカフェ。シネマティック、浅い被写界深度、ゆっくりプッシュイン、テキストなし。」後者は被写体・舞台・照明・レンズ・モーションを制御するため、モデルの“創作”が大幅に減り、使えるショットになりやすい。
いらないものは明言する
ネガティブ指定で仕上がりが整います。「テキストなし、透かしなし、ロゴなし、余計な指なし」を加えて人工知能あるあるの破綻を回避。ブランドセーフにするなら「汎用パッケージ、ブランドロゴなし」を。短い除外リストは、形容詞を足すより効くことが多いです。
盛り込みすぎず反復する
焦点を絞ったプロンプトで生成→一度に一要素だけ変更——まず照明、次にカメラワーク、その次にムード。形容詞を一気に10個も積むと、何が効いたのか判別不能に。各生成は単一変数の実験として扱いましょう。
再利用可能な“ハウススタイル”を作る
気に入ったルックが見つかったら、プロンプトのスタイリング後半を接尾句として保存(例:「cinematic, 4K, soft natural light, shallow depth of field」)し、複数クリップで再利用。各ショットでは被写体と動作を変えつつ、ハウススタイルでシリーズの見た目を統一——チャンネルに“意図”が宿ります。
クイックヒント
- 最重要のビジュアルを冒頭に——多くのモデルはプロンプトの書き出しを強く重み付けします。
- エネルギー感とテンポを操るため、カメラワーク名(「スローパン」「オービット」「静止」など)を指定。
- 全クリップで統一感を出すため、“ハウススタイル”のサフィックスを再利用。
- 1ショット1アクション — 「入ってきて座って話す」はシーンを分ける。
- 良いカットを生んだプロンプトのスワイプファイルを作り、再利用・リミックスする。
よくある質問
プロンプトはどれくらいの長さが最適?
1〜2文の明快な文章が、長文よりも高確率で有効。長くするより具体的に。
同じプロンプトをモデル間で使い回せる?
はい — Vivideoでは1つのプロンプトを複数モデル(Sora、Veo、Kling ほか)で実行して比較できます。
なぜ動画がプロンプトの一部を無視するの?
モデルは冒頭を優先し、後半の要素を落とすことがあります。重要要素は前方に移すか、シーンを分けましょう。
プロンプトは画像から動画(image-to-video)でも機能する?
はい — 入力画像がある場合、プロンプトは主に動きやカメラを指示し、被写体自体は左右しにくくなります。
ショットをまたいでキャラクターを一貫させるには?
同じ詳細な被写体説明を再利用するか、アバター/参照画像を使ってルックを安定させる。