你将学到什么
- 五要素提示结构(主体、动作、场景、风格、镜头),次次可复用
- 如何把模糊提示改写为精确描述——附前后对比示例
- 为何加入否定提示(“不要文字、不要水印”)能显著净化结果
- 一次只改一个变量的迭代循环,稳步提升镜头质量
模型如何“阅读”你的提示
文本转视频模型并非像人一样“理解”故事——它会将你的词语与学到的视觉模式匹配。你越具体地描述屏幕上该出现什么、镜头如何运动,模型的猜测就越少。明确的名词、唯一的动作、且点名镜头运动,远胜一堆情绪形容词。
一套好用的提示结构
像导演一样描述镜头——主体、动作、场景、风格与镜头。控制在一两句清晰的话内。
- 1主体:屏幕上的人或物(“咖啡师”“一部纤薄手机”)。
- 2动作:发生了什么(“拉花”“在底座上缓慢旋转”)。
- 3场景:在哪里(“日照充足的精品咖啡馆”“极简棚拍,柔和阴影”)。
- 4风格:画面质感(“电影感、浅景深、暖色调”)。
- 5镜头:运动方式(“慢推进”“环绕”“固定大全景”)。
改写前后对比
模糊版:“一段咖啡视频”。更好:“特写镜头:咖啡师在木质吧台上向白杯中拉花,阳光洒入的精品咖啡馆,电影感、浅景深,慢速推进,无文字。”第二条提示控制了主体、场景、光线、镜头与运动,模型可“发挥”的空间更少,因此更常得到可用镜头。
说清楚你不要什么
否定提示能有效“除噪”。加入“无文字、无水印、无 Logo、无多余手指”等,避免常见人工智能瑕疵。若需品牌安全,补充“通用包装、无品牌 Logo”。简短的排除清单常比再加一个形容词更有效。
迭代,而非堆砌
从聚焦的提示开始,生成后一次只改一处——先光线,再镜头运动,再情绪。一次堆十个形容词会让你无法判断哪个因素真正起作用。把每次生成都当作单变量实验。
打造可复用的“频道风格”
找到喜欢的画面后,把提示中“风格半句”存为后缀(如“cinematic, 4K, 自然柔光, 浅景深”),在多个镜头中反复使用。主体与动作因镜头而异,但这套频道风格能让系列画面保持一致——这是频道显得“有意图”的关键。
速览要点
- 把最重要的画面信息放在最前面——模型会更重视开头。
- 点名镜头运动(“慢摇”“环绕”“固定”)以掌控节奏与能量。
- 复用“频道风格”后缀,确保每条视频的统一质感。
- 一镜头一动作——将“走进来又坐下又开讲”拆成多场景。
- 保留产生好镜头的提示词案例库;循环复用与改造。
常见问题
提示词多长合适?
一两句清晰描述往往胜过一大段。要具体,而非冗长。
同一提示能跨模型用吗?
可以——在 Vivideo 上,你可以用同一提示跑不同模型(Sora、Veo、Kling 等)并对比。
为什么有时视频忽略了提示的一部分?
模型更优先处理开头,后半可能被忽略。把关键元素提前,或拆成独立场景。
提示词对图生视频也有效吗?
有效——在有输入图像的情况下,提示主要指导运动与镜头,而非主体本身。
如何让角色在多个镜头中保持一致?
重复使用同样的、细致的主体描述,或使用数字人/参考图,保持外观稳定。