用語集

生成AI動画の辞典

生成AIで動画を作るときに出会うすべての用語を平易に定義。カメラやコーデックの基礎から、拡散モデル、アバター、エージェント型生成まで。

74 用語 · 動画 · 生成AI · 生成AI動画

Bロール動画
本編ショットに挿入する補助映像。文脈を加えたり、説明を補強したり、編集点を隠したりします。
GAN生成AI
敵対的生成ネットワーク。生成器と識別器が競い合う旧来の方法。高品質動画では拡散モデルに置き換わりつつあります。
HDR(ハイダイナミックレンジ)動画
標準(SDR)より広い明るさと色域を持つ映像。ハイライトやシャドウがより現実的に、色調も豊かに。
LoRA生成AI
Low-Rank Adaptation。モデル全体を再学習せず、小さな追加ファイルで新しいスタイルやキャラクター、概念を教える軽量手法。
LUT(ルックアップテーブル)動画
色を再マッピングしてワンクリックで特定のルックを適用するプリセット、または色空間を変換するためのテーブル。
RLHF生成AI
人間のフィードバックによる強化学習。人の好みに合わせて出力を調整・整列させる学習方法。
アスペクト比動画
フレームの横と縦の比率。16:9(ワイド)、9:16(縦長・リールやTikTok向け)、1:1(正方形)など。各プラットフォームや画面への収まりを左右します。
アップスケーリング生成AI動画
動画の解像度を向上。たとえば1080pを4Kへ。単なる引き伸ばしではなく、もっともらしい細部を補います。
インペインティング/アウトペインティング生成AI動画
フレームの一部を塗り直す(インペインティング)、または枠外へ拡張する(アウトペインティング)こと。動画では時間方向にわたり領域の除去・置換・拡張に用います。
ウォーターマーク動画
所有権を示すロゴやテキストのオーバーレイ。多くの無料生成AIは付与し、有料プランで外れるのが一般的。
エージェント型動画生成AI動画
単発のクリップではなく、1つのブリーフから台本・シーン・音声・アバター・編集まで全制作工程を計画・実行する生成AIエージェント。
エスタブリッシングショット動画
シーンの場所や状況を示す冒頭の広い画。そこから寄りのカットへ繋ぎます。
オープンウェイトモデル生成AI
重みが公開され、誰でも実行・解析・微調整できるモデル(例:falやローカル)。API経由でしか触れないクローズドモデルと対比。
ガイダンススケール(CFG)生成AI
プロンプトへの忠実度とモデルの自律性のバランス。高いと指示に厳密、低いと創造的な自由度が増します。
カメラコントロール生成AI動画
AI生成ショット内での仮想カメラ操作。パン、ズーム、オービット、ドリーなどを指示。
カラーグレーディング動画
ポストプロダクションで色やコントラスト、雰囲気を調整し、意図した統一感ある見た目に仕上げる創造的工程。
キーフレーム動画
編集では、位置・スケール・不透明度などの値を設定し、ソフトがその間を補間する基準フレーム。圧縮では、周辺フレームの再構成に使う完全参照フレーム。
キャプション/字幕動画
音声の内容を画面上に表示。キャプションは音や話者も示してアクセシビリティに配慮、字幕は主に台詞の書き起こしや翻訳。
クロマキー(グリーンバック)動画
特定色(通常は緑)の背景を透過処理し、別の画像や動画に置き換える技術。
コーデック動画
動画を圧縮・伸張するアルゴリズム。例:H.264、H.265/HEVC、AV1、VP9。画質とファイルサイズのバランスを取ります。
コンテナ(ファイル形式)動画
動画・音声・メタデータをまとめる器。MP4、MOV、WebM、MKVなど。内部に格納されるコーデックとは別物です。
コンポジット動画
実写、グラフィック、エフェクト、テキストなど複数要素を重ねて1つのフレームに合成すること。
サンプリングステップ生成AI
拡散モデルがノイズから最終フレームに至るまでの反復回数。多いほど高品質になり得ますが、遅く高コストに。
シード生成AI
生成の出発点となる乱数。プロンプトと同じ設定で同じシードを再利用すると同じ結果を再現でき、整合性や微調整に便利。
ショット動画
1つながりの連続映像。代表的にはロング、ミディアム、クローズアップ。
スタイル転写生成AI動画
参照のビジュアルスタイルを自分の映像や生成結果に適用する手法。
チェックポイント生成AI
モデルの重みを保存したスナップショット。配布される「モデルファイル」として共有されることが多い。
ディープフェイク生成AI動画
顔や声をリアルに差し替え・捏造する合成メディア。強力だが、同意・真正性・法的リスクの懸念が伴います。
ディープラーニング生成AI
多層のニューラルネットワークを用いる機械学習。画像・動画・音声・言語モデルを支えています。
データセット生成AI
学習に使うサンプルの集合(動画・画像・テキストなど)。質と多様性がモデルの能力を左右します。
デジタルヒューマン/デジタルツイン生成AI動画
実在の人物を高精細に再現した生成AIのレプリカ。一度学習すれば、オンカメラのプレゼンターとして再利用可能。
テキストから動画(T2V)生成AI動画
文章の説明から直接クリップを生成。カメラも俳優もストック映像も不要。
トーキングヘッド生成AI動画
カメラに向かって話す人物を中心に据えた動画。生成AIアバターやプレゼンターの典型用途。
トークン生成AI
モデルが処理する最小単位。テキストなら語の一部、動画ならパッチやフレームなど。
トランジション動画
あるショットから次のショットへの切り替え方。カット、ディゾルブ、フェード、ワイプなど。
トランスフォーマー生成AI
入力間の関係性を重み付けする「アテンション」に基づくアーキテクチャ。大規模言語モデルや最新の動画モデルの基盤。
ニューラルネットワーク生成AI
脳をヒントにした層状の結合構造でデータからパターンを学ぶモデル。現代の生成AIの土台。
ネガティブプロンプト生成AI
出力に含めたくない要素の記述。不要な物体・スタイル・アーティファクトを避ける方向に誘導します。
パラメータ(重み)生成AI
学習でモデルが獲得する内部数値。モデルの「知識」を保持。多いほど高性能になる場合があります。
ハルシネーション生成AI
モデルが自信満々に誤情報や虚構を出す現象。判読不能な文字、指の本数の異常、不可能な動きなど。
ビットレート動画
動画1秒あたりに使うデータ量。kbpsやMbpsで測定。高いほど情報量を保持できるが、ファイルは大きくなります。
ファースト&ラストフレーム生成AI動画
開始フレームや終了フレームを与え、その間をモデルにアニメーションさせることで、カットの入りと締めを正確にコントロール。
ファインチューニング生成AI
汎用の基盤モデルを特定のデータで追加学習し、特定のスタイル・ブランド・人物に特化させること。
フレームレート(FPS)動画
1秒あたりに再生される静止画の枚数。24fpsはシネマ風、30fpsはウェブの標準、60fpsは動きやスポーツで超なめらか。
フレーム補間生成AI動画
中間フレームを生成してフレームレートを上げたり、動きをなめらかにする手法。例:24fpsをシルキーな60fpsへ。
プロンプト生成AI
モデルに与える指示。通常はテキスト、時に画像を添えて、作りたい動画を具体的に記述します。
プロンプト設計生成AI
モデルが意図通りの結果を安定して出すよう、被写体・スタイル・カメラ・雰囲気まで言葉を工夫する技術。
ボイスクローン生成AI動画
短いサンプルから特定人物の声を再現し、その声で新しいテキストを話せるようにすること。
ボケ動画
背景のやわらかなアウトフォーカス表現。光が丸く滲むような描写が典型。
マルチモーダル生成AI
複数のデータ形式を同時に理解・生成できるモデル。例:テキスト、画像、動画、音声の組み合わせ。
モーションコントロール/モーションブラシ生成AI動画
生成クリップ内で、どこをどう動かすかを指示できるツール。モデル任せにせず動きを演出します。
モデル生成AI
入力(例:テキストプロンプト)を出力(例:動画)に変換する学習済みの生成AIシステム。モデルごとに得意分野、速度、価格が異なります。
リップシンク生成AI動画
話し声に合わせてキャラクターやアバターの口の動きを一致させ、本当に話しているように見せること。
リファレンス画像生成AI動画
生成する動画の被写体・キャラクター・スタイルを誘導するためにモデルへ渡す画像。
レターボックス動画
別のアスペクト比に合わせるため、上下(または左右)に黒帯を付け、画をトリミングせず収める手法。
レンダー/レンダリング動画
プロジェクトを最終的な動画ファイルに書き出す処理。生成AIでは、モデルがフレームを作り最終クリップにまとめることも指します。
ローワーサード動画
画面下部に置くテキスト。登壇者の氏名・肩書やキャプションに用います。
ワールドモデル生成AI動画
シーン・物体・物理の振る舞いを内部でシミュレーションし、より長く首尾一貫した動画生成を助ける生成AI。
音声合成(TTS)生成AI動画
文章を合成音声で自然な読み上げに変換。生成AIのボイスオーバーエンジン。
画像から動画(I2V)生成AI動画
静止画を動画として動かす手法。望むモーションをプロンプトで指示することが多い。
解像度動画
各フレームの画素数。横×縦で表記(例:1920×1080)。画素が多いほど細部が鮮明。一般的な層は720p(HD)、1080p(Full HD)、4K、8K。
絵コンテ(ストーリーボード)動画
制作・生成前に各カットの流れをスケッチやフレームで計画する設計図。
拡散モデル生成AI
生成AIの主流手法。ランダムノイズから始め、段階的にノイズを取り除いて、プロンプトに合致する一貫した結果を出します。
学習(トレーニング)生成AI
大量のデータを見せ、内部パラメータを徐々に調整して良い結果を出せるように教えること。
基盤モデル生成AI
幅広いデータで学習した大規模・汎用のモデル。多様な下流タスクに適応できます。
時間的一貫性生成AI動画
フレーム間でキャラクター・オブジェクト・スタイルを安定させ、チラつきや歪み、不要な変形を防ぐこと。
推論(インファレンス)生成AI
学習済みモデルを実行して出力を得ること。例:プロンプトから動画を生成。課金は通常この生成単位で発生します。
生成AIアバター生成AI動画
画面上のプレゼンターを生成またはクローン化し、指定の声や言語でスクリプトを話す存在。
生成AIダビング生成AI動画
別言語の話し声に置き換え/追加すること。理想的には話者の声質や口の動きにも整合。
潜在空間生成AI
モデルが実際に計算を行う圧縮表現の領域。ここでまず生成が起こり、その後ピクセルへ復号されます。
動画から動画(V2V)生成AI動画
既存のクリップの動きやタイミングを保ちながら、新しいスタイルや見た目に変換。
動画延長生成AI動画
元の長さを超えて自然に続くフレームを生成し、クリップを伸ばすこと。
被写界深度動画
ピントが合う範囲の深さ。浅いと背景がボケ、被写体が際立ちます。
埋め込み(エンベディング)生成AI
テキスト・画像・音声の意味を数値ベクトルで表したもの。異なる入力同士を比較・結合できるようにします。

プロンプトからレンダーまで:生成AI動画の言語

生成AIでの動画制作は、長年の映画・映像制作の語彙と、急速に進化する機械学習の言語が交わる地点にあります。本辞典はその両方を統合し、さらに生成動画特有の新語も加えて、ツール、チュートリアル、モデルカードを自信をもって読み解けるようにします。

まずは基本から——アスペクト比、解像度、フレームレート、コーデックが見た目と掲載先を決めます。次に生成AIの層——モデル、拡散、プロンプト、シード、LoRAが生成内容を形作ります。最後に生成AI動画の要点——テキストから動画、画像から動画、リップシンク、アバター、時間的な一貫性、ワールドモデルが、いまのジェネレーターに何ができるかを示します。

すべての定義は数式不要のやさしい言葉で。キーワード検索、トピック別フィルタ、A–Zのブラウズで探し、見つけた語彙はVivideoのスタジオで即活用しましょう。