术语表

AI 视频词典

用人工智能制作视频会遇到的每个术语——从相机与编码基础到扩散、数字人和代理式生成——均用通俗语言解释。

74 术语 · 视频 · 人工智能 · 人工智能视频

“说头”视频人工智能视频
以直面镜头讲话的人物为核心的视频——是数字人和主持类应用的经典场景。
比特率视频
每秒视频使用的数据量,以 kbps 或 Mbps 计。比特率越高,细节保留越多,但文件也更大。
编码格式(Codec)视频
压缩与解压视频的算法——如 H.264、H.265/HEVC、AV1 或 VP9。它在画质与文件体积间权衡。
采样步数人工智能
扩散模型将噪声变为最终画面的迭代次数。步数越多,质量通常更高,但耗时与成本也更大。
参考图像人工智能视频
你提供给模型的图像,用来引导生成视频的主体、角色或风格。
参数(权重)人工智能
模型在训练中学到的内部数值,存放模型的“知识”;参数越多,潜在能力通常越强。
超分辨率人工智能视频
用人工智能提升视频分辨率——如从 1080p 升级至 4K——增加合理细节,而非仅拉伸像素。
代理式视频生成人工智能视频
由智能代理统筹整套制作——脚本、分场、配音、数字人与剪辑——基于一份简报一次性完成,而非逐个片段手动生成。
调色视频
在后期中创造性地调整素材的色彩、对比度与氛围,使整片呈现一致且有意图的观感。
多模态人工智能
可同时理解或生成多种数据类型的模型——例如文本、图像、视频与音频的结合。
反向提示词人工智能
描述你“不想要”的元素,引导模型避开不需要的物体、风格或伪影。
分辨率视频
每帧的像素尺寸,写作 宽 × 高(如 1920×1080)。像素越多细节越丰富。常见级别有 720p(HD)、1080p(Full HD)、4K 与 8K。
分镜头脚本视频
在制作或生成视频前,以连贯草图或画格规划每个镜头的顺序。
风格迁移人工智能视频
将某个参考的视觉风格应用到你的素材或生成结果上。
封装格式(文件格式)视频
承载视频、音频与元数据的“容器”——MP4、MOV、WebM 或 MKV。它与内部所用的编码格式相互独立。
关键帧视频
在剪辑中,标记一个帧的数值(位置、缩放、不透明度),软件将在其间补间动画。在压缩中,指可作为参考的完整帧,临近帧据此重建。
合成视频
将多种视觉元素——素材、图形、特效、文字——分层叠加成单一画面。
幻觉人工智能
模型自信地产生却不正确或凭空捏造的输出——如乱码文字、手指数量异常或不可能的运动。
基础模型人工智能
在广泛数据上训练、可适配多种下游任务的大型通用模型。
加黑边(信箱格式)视频
为适配不同纵横比而在视频上下(或左右)添加黑边,避免裁切画面。
检查点人工智能
模型权重的快照存档。检查点常作为可下载的“模型文件”分享与运行。
建立镜头视频
用于开场的广角镜头,在推进到近景前交代场景位置与语境。
景深视频
画面中清晰成像的范围。浅景深可虚化背景,让主体更突出。
镜头视频
一段连续不断的画面。常见类型包括大全景、中景与特写。
镜头运动控制人工智能视频
在人工智能生成的镜头中指挥虚拟摄影机的移动——平移、变焦、环绕、推拉等。
开源权重模型人工智能
公开权重、任何人都可运行、研究或微调的模型(如在 fal 或本地),相对的则是只能通过 API 访问的闭源模型。
口型同步人工智能视频
让角色或数字人的嘴部动作与语音精确匹配,看起来确实在说话。
扩散模型人工智能
当前图像与视频生成的主流方法:模型从随机噪声出发,逐步去噪,直到呈现与你的提示词匹配的连贯结果。
模型人工智能
经过训练的人工智能系统,将输入——如文本提示词——转为输出,如视频。不同模型在能力、速度与价格上各有差异。
潜空间人工智能
模型实际工作的压缩表示空间。生成先在此处完成,再解码为可见像素。
嵌入向量人工智能
以一串数字(向量)表达文本、图像或音频的语义,便于模型比较与融合多种输入。
人工智能配音人工智能视频
以另一种语言替换或新增口语音轨,理想情况下还能匹配原说话者的嗓音与口型。
人工智能数字人人工智能视频
由人工智能生成或克隆的上镜讲述者,可用所选声音与语言朗读你的台词。
散景视频
画面中柔和、悦目的失焦虚化,常呈现为发光的圆形高光。
色度键(绿幕)视频
将单一背景色——通常为绿色——设为透明,以另一张图像或视频替换背景。
深度伪造人工智能视频
以逼真方式替换或合成人脸或声音的合成媒体。功能强大,但伴随真实同意、真实性与法律等方面的严肃问题。
深度学习人工智能
使用多层神经网络的机器学习方法。它驱动了当今的图像、视频、语音与语言模型。
神经网络人工智能
受大脑启发的模型:由层层相连的“神经元”学习数据中的模式,是现代生成式人工智能的基础。
声音克隆人工智能视频
基于短样本重现特定人物的嗓音,使其能用同一声音朗读新文本。
时间一致性人工智能视频
在连续帧间保持角色、物体与风格稳定,避免画面闪烁、扭曲或不自然变形。
世界模型人工智能视频
能够在内部模拟场景、物体与物理规律的人工智能,帮助生成更长、更连贯、更一致的视频。
视频生成视频(V2V)人工智能视频
在保留原有运动与时序的前提下,将现有片段转换为新的风格或观感。
视频延展人工智能视频
在原片基础上自然续写更多帧,让片段更长。
首末帧人工智能视频
提供起始帧与/或结束帧,让模型在两者之间生成动画,从而精确掌控镜头的开头与结尾。
数据集人工智能
用于训练模型的样本集合——视频、图像、文本等。其质量与多样性决定模型能力边界。
数字人 / 数字孪生人工智能视频
真实人物的高拟真人工智能复制体,一次训练,可反复作为上镜主持人使用。
水印视频
覆盖在视频上的标识或文字,用于声明归属。许多免费的人工智能生成器会加水印;付费方案通常可移除。
提示词人工智能
你给模型的指令——通常是文本,有时配合图像——描述你想要生成的视频。
提示词工程人工智能
组织与打磨提示词的技巧,使模型稳定产出目标结果,包括主体、风格、机位与氛围。
图像生成视频(I2V)人工智能视频
让静态图像“动”起来并输出为视频,通常配合提示词描述所需的运动。
推理人工智能
让已训练好的模型产出结果——例如根据提示词生成你的视频。这通常按每次生成计费。
微调人工智能
在基础模型上追加特定数据的训练,使其专精于某种风格、品牌或人物。
文本生成视频(T2V)人工智能视频
直接从文字描述生成视频片段——无需相机、演员或素材库。
文本转语音(TTS)人工智能视频
将文字转换为自然的合成语音——是人工智能配音的核心引擎。
下三分之一字幕视频
位于画面下方的文字,通常显示说话者姓名与头衔,或用作说明。
修补绘制 / 外延绘制人工智能视频
在画面内部填补(修补绘制)或向画面边界外扩展(外延绘制)。在视频中,可用于随时间移除、替换或扩展区域。
渲染视频
将项目处理为成片视频文件——在人工智能生成中,也指模型把帧生成并输出为最终片段。
训练人工智能
通过大量数据教会模型,并逐步调整其内部参数,直到产生理想结果。
引导强度(CFG)人工智能
模型遵从提示词与自由发挥之间的权衡。数值越高越贴近文字,越低则更具创造性。
运动控制 / 运动笔刷人工智能视频
让你指定生成片段中事物如何、在哪里运动的工具,而非完全交给模型自发决定。
帧插值人工智能视频
生成过渡帧以提高帧率或平滑运动——例如把 24fps 转为更顺滑的 60fps。
帧率(FPS)视频
每秒显示的静帧数量。24fps 具电影感,30fps 是网页常用标准,60fps 适合高速运动与体育画面,更显顺滑。
种子人工智能
一次生成的起始随机数。用同一提示词与同一种子可复现同样结果——有助于保持一致性与微调。
转场视频
一个镜头如何过渡到下一个——硬切、叠化、淡入淡出或划像。
字幕视频
将口语音频转为屏幕文字。为无障碍,字幕还会标注声音与说话者;而“对白字幕”通常转写或翻译对话。
纵横比视频
画面宽与高的比例——16:9(宽屏)、9:16(竖屏,适用于 Reels 和 TikTok)或 1:1(正方形)。它决定视频在不同平台与屏幕上的适配方式。
B-roll 辅助镜头视频
穿插在主镜头之上的补充画面,用于提供背景、阐释要点或无痕遮盖剪辑点。
GAN人工智能
生成对抗网络——早期方法,让生成器与判别器相互博弈。为追求高质量视频,现多被扩散方法取代。
HDR(高动态范围)视频
比标准动态范围(SDR)拥有更宽亮度与色彩范围的视频,更逼真的高光、阴影与色调层次。
LoRA人工智能
低秩适配——用体积很小的增量文件教会模型新的风格、角色或概念,无需重训整个模型。
LUT(查找表)视频
一种一键套用特定观感的色彩映射预设,或用于不同色彩空间之间的转换。
RLHF人工智能
基于人类反馈的强化学习——利用人类偏好训练模型,使其输出更贴近人类期望。
Token人工智能
模型处理的最小输入单元——文本中的字词片段,或视频中的图块、帧。
Transformer人工智能
基于“注意力机制”的神经网络架构,衡量输入各部分的相互关联。它支撑大语言模型与许多现代视频模型。

从提示到渲染:AI 视频的通用语言

用人工智能做视频,横跨两种话语体系——数十年的电影与视频制作词汇,以及快速演进的机器学习语言。本词典将两者融会贯通,再加上生成式视频特有的新概念,助你读懂任何工具、教程或模型卡。

先掌握基础:纵横比、分辨率、帧率与编码决定你的视频观感与发布场景。接着是人工智能层——模型、扩散、提示词、种子与 LoRA 决定会生成什么。最后是 AI 视频的细项——文本生成视频、图生视频、口型同步、数字人、时间一致性与世界模型——解释当下生成器的实际能力。

所有定义均以通俗中文撰写,无需数学背景。可按关键词搜索、按主题筛选或按字母顺序浏览——然后把这套词汇直接用在 Vivideo 工作室。