博客指南

让优秀的人工智能(AI)视频脱颖而出的5种提示词模式

顶级AI视频背后的5种提示词模式——附可复制的强弱对比示例。别再盲目尝试,立即产出可用片段。

大多数AI视频翻车的原因都很无聊:主体在镜头中途变形,镜头做了没人要求的运动,产品在第2到第4秒之间变了颜色。输出在技术上“是个视频”,在实用上却不可用。

在审视了成千上万条真实AI视频提示后——既包括最终被发布的好片子,也包括被人一删了之的垃圾——一个规律浮出水面。好的提示不是更长或更诗意,而是更有“结构”。它会告诉模型哪些元素会发生变化,镜头如何运动,哪些必须保持锁定,以及你坚决不能接受什么。

这篇是我们数据报告的实操搭档,报告探讨了4万条AI视频提示揭示了什么人们在做什么。那篇讲“做什么”,这篇讲“怎么写得好”。五种模式,每种都有弱版、强版,以及差异为何重要。

关键要点

- 以“主体 + 动作 + 清晰的时间变化”开头——静态描述只会产出静态、无生命力的片段。

- 像指导摄影指导一样指定镜头:景别、镜头/光学感觉,以及一个刻意的机位运动。

- 锁定连续性令牌(面孔、产品、颜色、Logo),让它们贯穿全片不漂移。

- 在生成前就把镜头与平台和时长匹配好,而不是生成后再凑。

- 用否定项和清晰的输出规格做约束,让模型知道该避免什么,而不仅是尝试什么。

模式1:以主体、动作和时间变化开头

视频即“运动”。能产出鲜活画面的提示,与只产出一张照片慢慢推近的提示,最大的差别在于你是否描述了某件“正在发生的事”。

弱提示只描述场景。强提示描述“会发生变化”的场景。

弱版:A coffee cup on a wooden table in a cafe.

强版:A steaming coffee cup on a wooden cafe table; steam curls upward and drifts left as morning light slowly brightens across the surface over 5 seconds.

弱版给了模型一张静态画,再逼它硬编运动——通常是懒散的推镜或背景抖动。强版点名了主体(咖啡杯)、动作(蒸汽盘旋并向左飘)、以及时间维度上的变化(晨光在5秒内逐渐变亮)。模型因此拥有可在时间轴内插的起点与终点——这正是视频模型的强项。

修正方法是机械性的。每写一条提示,都自问:这条片子结尾与开头“有什么一处不同”?答不上来,你八成会得到一张“会动的明信片”。把那处变化写进句子里。哪怕是很小的——抬头、开门、雾气涌入——都能给模型一个在时间线上的明确任务。

模式2:像摄影指导一样调度镜头

Illustration: structure beats cleverness

如果你不指明镜头,模型会替你选——而且往往很差:通用的缓慢推进,或带着“AI味”的漂浮手持晃动。最佳提示把镜头当作创作选择,而非事后想起。

你需要三样:景别(大全/中景/特写)、镜头/画面感觉(35mm、广角、浅景深),以及“一种”机位运动(缓慢推近、并行跟拍、静态锁定)。只要一种,不要贪多。

弱版:A car driving down a coastal road, cinematic.

强版:Wide tracking shot of a vintage convertible on a coastal highway, shot on a 35mm lens with shallow depth of field, camera tracks alongside the car at matching speed, golden hour.

“cinematic(电影感)”是愿望,不是指令。强版清楚交代了构图(广角并行跟拍)、光学特性(35mm、浅景深),以及唯一一致的运动(与车辆同速侧向跟拍)。这种一致性才显得专业。互相打架的机位指令——“环绕同时变焦再摇移”——最容易让模型崩,产出那种漂浮、不稳定的观感。

如果你刚开始用镜头语言思考,我们的指南如何撰写AI视频提示会拆解词汇。速记版:想象你只给机位操作员一句话,他会“只做这句话里的事”。就该这么具体。

模式3:锁定你的连续性令牌

这是把爱好者与可交付素材制作者分开的关键。AI视频模型会“漂移”。几秒钟内,面孔会微妙地重绘成另一个人,红色Logo变成橙色,产品多出本不该有的按钮。连续性令牌,就是你用来钉住这些元素的、短小且可复用的特征短语。

连续性令牌是你承诺并逐字复用的简短而独特的描述——用于主体身份、产品、配色和任何品牌元素。

弱版:A woman in a red jacket walks through a city, then we see her closer up.

强版:A woman with shoulder-length curly black hair and a bright crimson leather jacket walks through a neon-lit city; same crimson jacket and same hairstyle held consistent throughout the clip.

“穿红夹克的女人”是在邀请模型重造她。“齐肩卷曲黑发、亮猩红皮夹克”,并明确要求全片保持一致,则给了模型可以抓牢的锚点。为同一项目生成多段素材时,把这些令牌原封不动地复制到每条提示里——绝不意译。意译就是第三镜的人物不再像第一镜那个人物的开端。

做品牌项目,这点是刚性要求。把精确的色名(可贴近十六进制命名)、Logo位置、产品的决定性特征写进每条提示。若平台支持图片参考或用文本转视频的起始帧,尽管用——但务必用文本令牌“二次锁定”,因为贯穿运动保持身份的是描述本身,而不是第一帧。

模式4:让镜头匹配平台与时长

Illustration: directing the camera

适合做12秒YouTube主视觉的提示,不适合做4秒TikTok开场钩子,差别远不止比例。最佳提示是从“成片要发布在哪里”反推而来。

写描述前先定三件事:画幅比例(9:16竖屏用于信息流,16:9用于YouTube和落地页)、时长(决定能发生多少事)、节奏(短循环用一个稳定节拍,长一点的片子安排清晰弧线)。

弱版:An energetic montage of a fitness product with lots of quick cuts and text, for social media.

强版:9:16 vertical, single continuous 5-second shot: a runner laces up bright orange sneakers and pushes off frame-left into a sprint, fast-paced, punchy, designed as a TikTok hook with the action landing in the first 2 seconds.

在一次短时长生成里要求“很多快切”,基本等于求灾难——多数模型一次生成只产出一个连续镜头,这个要求和工具天性对着干。强版尊重格式:竖屏、单镜头、把动作设计在平台要求的前2秒里“落点”。通常,按这个规格生成若干干净的单镜头,再剪在一起,会比试图在一条提示里“塞剪辑”好得多。

时长也决定你能要求多少变化。4秒里,只能落一个清晰动作。12秒里,可以安排一个小弧线。想在4秒里讲三幕故事,只会糊成一团。

模式5:用否定项与清晰的输出规格做约束

最后这一条很少有人用,也正因此是优势。告诉模型你“不想要什么”,往往比继续堆你“想要什么”更有效。再配上明确的输出规格,你就不再把那些不起眼却关键的决定交给运气。

两步:否定项(你坚决拒绝的瑕疵和陈词滥调——手部畸变、文字乱码、额外肢体、闪烁、无端慢推)和输出规格(帧率质感、用光、情绪、画幅比例,在结尾清楚写出)。

弱版:A chef plating a dish in a restaurant kitchen.

强版:A chef precisely plating a dish in a warm restaurant kitchen; medium shot, soft key light from the left, calm and deliberate pacing, 16:9. Avoid: distorted hands, extra fingers, floating utensils, on-screen text, fast camera movement.

否定清单是有效负担。手部最容易让视频模型出糗,所以点名“手部畸变、额外手指”会引导模型在这儿投入更多精力。“避免屏幕文字”能掐掉模型爱臆造的乱码字母。最后用输出规格收尾——景别、光向、节奏、比例——你不再指望模型去“猜你的意图”,而是直说。

让否定清单简短且相关。十条泛泛的否定会稀释信号。三四条直指“这条提示最可能翻车点”的否定,会更锋利。不同模型短板不同,了解你在用哪一个很有价值——我们的AI模型能力地图拆解了各模型的长处与易崩点。

如何把五条合成“一条提示”

Illustration: locking continuity tokens

这些模式不是点菜,而是叠加。它们天然的顺序是:

  1. 主体 + 动作 + 变化(“厨师装盘;当她放上最终点缀时蒸汽升起”)
  2. 镜头(“中景,50mm,缓慢推近”)
  3. 连续性令牌(“同一位厨师,全程穿白色双排扣厨师服”)
  4. 平台与时长规格(“16:9,8秒,平静节奏”)
  5. 否定项与输出(“左侧暖色主光。避免:手部畸变、屏幕文字”)

自上而下,这就是一条模型能自信执行的连贯指令。每个分句都在回答一个模型原本会替你“自行决定”的问题——而“自行决定”,正是糟糕AI视频的来源。

你也不必每次都从空白页开始。我们的可复制提示模板库为常见镜头类型提供了验证过的骨架;你只需替换主体和令牌,就能不费脑地跑齐五种模式。

下一步

挑一条你写过但产出不理想的提示。用这五条过一遍:有没有写清时间上的变化?是否指定了一个清晰的机位运动?连续性令牌是否锁定并复用?是否按真实的平台与时长做了规格?是否告诉模型该避免什么?

修正其中最弱的两处再生成。一次这样的编辑,往往就是“删片”和“上片”的分水岭。

当你准备把这些模式用起来,打开应用内的text-to-video,按结构来写第一条提示——主体、镜头、令牌、规格、否定。若想看大规模实践里什么真的有效,阅读配套分析:4万条AI视频提示揭示了什么。工艺加证据,才能不再瞎猜,开始当导演。

Emir Göcen
作者

Emir Göcen

Vivideo 联合创始人,具备机器学习与计算机视觉背景,负责评估并组合最优的生成式视频模型。

免费制作你的第一个人工智能(AI)视频

策划、生成、配音、加品牌并发布——覆盖 30+ 模型,几分钟即可完成。

免费试用 Vivideo