术语表

AI 视频词典

用人工智能制作视频会遇到的每个术语——从相机与编码基础到扩散、数字人和代理式生成——均用通俗语言解释。

74 术语 · 视频 · 人工智能 · 人工智能视频

“说头”视频人工智能视频: 以直面镜头讲话的人物为核心的视频——是数字人和主持类应用的经典场景。

比特率视频: 每秒视频使用的数据量，以 kbps 或 Mbps 计。比特率越高，细节保留越多，但文件也更大。

编码格式（Codec）视频: 压缩与解压视频的算法——如 H.264、H.265/HEVC、AV1 或 VP9。它在画质与文件体积间权衡。

采样步数人工智能: 扩散模型将噪声变为最终画面的迭代次数。步数越多，质量通常更高，但耗时与成本也更大。

参考图像人工智能视频: 你提供给模型的图像，用来引导生成视频的主体、角色或风格。
参数（权重）人工智能: 模型在训练中学到的内部数值，存放模型的“知识”；参数越多，潜在能力通常越强。

超分辨率人工智能视频: 用人工智能提升视频分辨率——如从 1080p 升级至 4K——增加合理细节，而非仅拉伸像素。

代理式视频生成人工智能视频: 由智能代理统筹整套制作——脚本、分场、配音、数字人与剪辑——基于一份简报一次性完成，而非逐个片段手动生成。

调色视频: 在后期中创造性地调整素材的色彩、对比度与氛围，使整片呈现一致且有意图的观感。

多模态人工智能: 可同时理解或生成多种数据类型的模型——例如文本、图像、视频与音频的结合。

反向提示词人工智能: 描述你“不想要”的元素，引导模型避开不需要的物体、风格或伪影。

分辨率视频: 每帧的像素尺寸，写作宽 × 高（如 1920×1080）。像素越多细节越丰富。常见级别有 720p（HD）、1080p（Full HD）、4K 与 8K。
分镜头脚本视频: 在制作或生成视频前，以连贯草图或画格规划每个镜头的顺序。

风格迁移人工智能视频: 将某个参考的视觉风格应用到你的素材或生成结果上。

封装格式（文件格式）视频: 承载视频、音频与元数据的“容器”——MP4、MOV、WebM 或 MKV。它与内部所用的编码格式相互独立。

关键帧视频: 在剪辑中，标记一个帧的数值（位置、缩放、不透明度），软件将在其间补间动画。在压缩中，指可作为参考的完整帧，临近帧据此重建。

合成视频: 将多种视觉元素——素材、图形、特效、文字——分层叠加成单一画面。

幻觉人工智能: 模型自信地产生却不正确或凭空捏造的输出——如乱码文字、手指数量异常或不可能的运动。

基础模型人工智能: 在广泛数据上训练、可适配多种下游任务的大型通用模型。

加黑边（信箱格式）视频: 为适配不同纵横比而在视频上下（或左右）添加黑边，避免裁切画面。

检查点人工智能: 模型权重的快照存档。检查点常作为可下载的“模型文件”分享与运行。

建立镜头视频: 用于开场的广角镜头，在推进到近景前交代场景位置与语境。

景深视频: 画面中清晰成像的范围。浅景深可虚化背景，让主体更突出。

镜头视频: 一段连续不断的画面。常见类型包括大全景、中景与特写。
镜头运动控制人工智能视频: 在人工智能生成的镜头中指挥虚拟摄影机的移动——平移、变焦、环绕、推拉等。

开源权重模型人工智能: 公开权重、任何人都可运行、研究或微调的模型（如在 fal 或本地），相对的则是只能通过 API 访问的闭源模型。

口型同步人工智能视频: 让角色或数字人的嘴部动作与语音精确匹配，看起来确实在说话。

扩散模型人工智能: 当前图像与视频生成的主流方法：模型从随机噪声出发，逐步去噪，直到呈现与你的提示词匹配的连贯结果。

模型人工智能: 经过训练的人工智能系统，将输入——如文本提示词——转为输出，如视频。不同模型在能力、速度与价格上各有差异。

潜空间人工智能: 模型实际工作的压缩表示空间。生成先在此处完成，再解码为可见像素。

嵌入向量人工智能: 以一串数字（向量）表达文本、图像或音频的语义，便于模型比较与融合多种输入。

人工智能配音人工智能视频: 以另一种语言替换或新增口语音轨，理想情况下还能匹配原说话者的嗓音与口型。
人工智能数字人人工智能视频: 由人工智能生成或克隆的上镜讲述者，可用所选声音与语言朗读你的台词。

散景视频: 画面中柔和、悦目的失焦虚化，常呈现为发光的圆形高光。

色度键（绿幕）视频: 将单一背景色——通常为绿色——设为透明，以另一张图像或视频替换背景。

深度伪造人工智能视频: 以逼真方式替换或合成人脸或声音的合成媒体。功能强大，但伴随真实同意、真实性与法律等方面的严肃问题。
深度学习人工智能: 使用多层神经网络的机器学习方法。它驱动了当今的图像、视频、语音与语言模型。

神经网络人工智能: 受大脑启发的模型：由层层相连的“神经元”学习数据中的模式，是现代生成式人工智能的基础。

声音克隆人工智能视频: 基于短样本重现特定人物的嗓音，使其能用同一声音朗读新文本。

时间一致性人工智能视频: 在连续帧间保持角色、物体与风格稳定，避免画面闪烁、扭曲或不自然变形。

世界模型人工智能视频: 能够在内部模拟场景、物体与物理规律的人工智能，帮助生成更长、更连贯、更一致的视频。

视频生成视频（V2V）人工智能视频: 在保留原有运动与时序的前提下，将现有片段转换为新的风格或观感。
视频延展人工智能视频: 在原片基础上自然续写更多帧，让片段更长。

首末帧人工智能视频: 提供起始帧与/或结束帧，让模型在两者之间生成动画，从而精确掌控镜头的开头与结尾。

数据集人工智能: 用于训练模型的样本集合——视频、图像、文本等。其质量与多样性决定模型能力边界。
数字人 / 数字孪生人工智能视频: 真实人物的高拟真人工智能复制体，一次训练，可反复作为上镜主持人使用。

水印视频: 覆盖在视频上的标识或文字，用于声明归属。许多免费的人工智能生成器会加水印；付费方案通常可移除。

提示词人工智能: 你给模型的指令——通常是文本，有时配合图像——描述你想要生成的视频。
提示词工程人工智能: 组织与打磨提示词的技巧，使模型稳定产出目标结果，包括主体、风格、机位与氛围。

图像生成视频（I2V）人工智能视频: 让静态图像“动”起来并输出为视频，通常配合提示词描述所需的运动。

推理人工智能: 让已训练好的模型产出结果——例如根据提示词生成你的视频。这通常按每次生成计费。

微调人工智能: 在基础模型上追加特定数据的训练，使其专精于某种风格、品牌或人物。

文本生成视频（T2V）人工智能视频: 直接从文字描述生成视频片段——无需相机、演员或素材库。
文本转语音（TTS）人工智能视频: 将文字转换为自然的合成语音——是人工智能配音的核心引擎。

下三分之一字幕视频: 位于画面下方的文字，通常显示说话者姓名与头衔，或用作说明。

修补绘制 / 外延绘制人工智能视频: 在画面内部填补（修补绘制）或向画面边界外扩展（外延绘制）。在视频中，可用于随时间移除、替换或扩展区域。

渲染视频: 将项目处理为成片视频文件——在人工智能生成中，也指模型把帧生成并输出为最终片段。

训练人工智能: 通过大量数据教会模型，并逐步调整其内部参数，直到产生理想结果。

引导强度（CFG）人工智能: 模型遵从提示词与自由发挥之间的权衡。数值越高越贴近文字，越低则更具创造性。

运动控制 / 运动笔刷人工智能视频: 让你指定生成片段中事物如何、在哪里运动的工具，而非完全交给模型自发决定。

帧插值人工智能视频: 生成过渡帧以提高帧率或平滑运动——例如把 24fps 转为更顺滑的 60fps。
帧率（FPS）视频: 每秒显示的静帧数量。24fps 具电影感，30fps 是网页常用标准，60fps 适合高速运动与体育画面，更显顺滑。

种子人工智能: 一次生成的起始随机数。用同一提示词与同一种子可复现同样结果——有助于保持一致性与微调。

转场视频: 一个镜头如何过渡到下一个——硬切、叠化、淡入淡出或划像。

字幕视频: 将口语音频转为屏幕文字。为无障碍，字幕还会标注声音与说话者；而“对白字幕”通常转写或翻译对话。

纵横比视频: 画面宽与高的比例——16:9（宽屏）、9:16（竖屏，适用于 Reels 和 TikTok）或 1:1（正方形）。它决定视频在不同平台与屏幕上的适配方式。

B-roll 辅助镜头视频: 穿插在主镜头之上的补充画面，用于提供背景、阐释要点或无痕遮盖剪辑点。

GAN人工智能: 生成对抗网络——早期方法，让生成器与判别器相互博弈。为追求高质量视频，现多被扩散方法取代。

HDR（高动态范围）视频: 比标准动态范围（SDR）拥有更宽亮度与色彩范围的视频，更逼真的高光、阴影与色调层次。

LoRA人工智能: 低秩适配——用体积很小的增量文件教会模型新的风格、角色或概念，无需重训整个模型。
LUT（查找表）视频: 一种一键套用特定观感的色彩映射预设，或用于不同色彩空间之间的转换。

RLHF人工智能: 基于人类反馈的强化学习——利用人类偏好训练模型，使其输出更贴近人类期望。

Token人工智能: 模型处理的最小输入单元——文本中的字词片段，或视频中的图块、帧。
Transformer人工智能: 基于“注意力机制”的神经网络架构，衡量输入各部分的相互关联。它支撑大语言模型与许多现代视频模型。

从提示到渲染：AI 视频的通用语言

用人工智能做视频，横跨两种话语体系——数十年的电影与视频制作词汇，以及快速演进的机器学习语言。本词典将两者融会贯通，再加上生成式视频特有的新概念，助你读懂任何工具、教程或模型卡。

先掌握基础：纵横比、分辨率、帧率与编码决定你的视频观感与发布场景。接着是人工智能层——模型、扩散、提示词、种子与 LoRA 决定会生成什么。最后是 AI 视频的细项——文本生成视频、图生视频、口型同步、数字人、时间一致性与世界模型——解释当下生成器的实际能力。

所有定义均以通俗中文撰写，无需数学背景。可按关键词搜索、按主题筛选或按字母顺序浏览——然后把这套词汇直接用在 Vivideo 工作室。

AI 视频词典

免费开始创作什么是 AI 视频？

“

比

编

采

参

超

代

调

多

反

分

风

封

关

合

幻

基

加

检

建

景

镜

开

口

扩

模

潜

嵌

人

散

色

深

神

声

时

世

视

首

数

水

提

图

推

微

文

下

修

渲

训

引

运

帧

种

转

字

纵

B

G

H

L

R

T

从提示到渲染：AI 视频的通用语言

AI 视频词典