如何写好文本转视频提示词（含示例）

优秀的人工智能视频始于清晰的提示词。模型会把你的文字同时当成脚本与分镜，模糊的提示会得到模糊结果；精确的提示能掌控主体、场景、光线与镜头。本文提供一套可复用的提示词结构、真实前后对比改写、显著提升效果的关键词，以及不丢失已有有效元素的迭代方法。

你将学到什么

文本转视频模型并非像人一样“理解”故事——它会将你的词语与学到的视觉模式匹配。你越具体地描述屏幕上该出现什么、镜头如何运动，模型的猜测就越少。明确的名词、唯一的动作、且点名镜头运动，远胜一堆情绪形容词。

像导演一样描述镜头——主体、动作、场景、风格与镜头。控制在一两句清晰的话内。

模糊版：“一段咖啡视频”。更好：“特写镜头：咖啡师在木质吧台上向白杯中拉花，阳光洒入的精品咖啡馆，电影感、浅景深，慢速推进，无文字。”第二条提示控制了主体、场景、光线、镜头与运动，模型可“发挥”的空间更少，因此更常得到可用镜头。

否定提示能有效“除噪”。加入“无文字、无水印、无 Logo、无多余手指”等，避免常见人工智能瑕疵。若需品牌安全，补充“通用包装、无品牌 Logo”。简短的排除清单常比再加一个形容词更有效。

从聚焦的提示开始，生成后一次只改一处——先光线，再镜头运动，再情绪。一次堆十个形容词会让你无法判断哪个因素真正起作用。把每次生成都当作单变量实验。

找到喜欢的画面后，把提示中“风格半句”存为后缀（如“cinematic, 4K, 自然柔光, 浅景深”），在多个镜头中反复使用。主体与动作因镜头而异，但这套频道风格能让系列画面保持一致——这是频道显得“有意图”的关键。

提示词多长合适？

一两句清晰描述往往胜过一大段。要具体，而非冗长。

同一提示能跨模型用吗？

可以——在 Vivideo 上，你可以用同一提示跑不同模型（Sora、Veo、Kling 等）并对比。

为什么有时视频忽略了提示的一部分？

模型更优先处理开头，后半可能被忽略。把关键元素提前，或拆成独立场景。

提示词对图生视频也有效吗？

有效——在有输入图像的情况下，提示主要指导运动与镜头，而非主体本身。

如何让角色在多个镜头中保持一致？

重复使用同样的、细致的主体描述，或使用数字人/参考图，保持外观稳定。