大多数AI视频翻车的原因都很无聊：主体在镜头中途变形，镜头做了没人要求的运动，产品在第2到第4秒之间变了颜色。输出在技术上“是个视频”，在实用上却不可用。

在审视了成千上万条真实AI视频提示后——既包括最终被发布的好片子，也包括被人一删了之的垃圾——一个规律浮出水面。好的提示不是更长或更诗意，而是更有“结构”。它会告诉模型哪些元素会发生变化，镜头如何运动，哪些必须保持锁定，以及你坚决不能接受什么。

这篇是我们数据报告的实操搭档，报告探讨了4万条AI视频提示揭示了什么人们在做什么。那篇讲“做什么”，这篇讲“怎么写得好”。五种模式，每种都有弱版、强版，以及差异为何重要。

关键要点
- 以“主体 + 动作 + 清晰的时间变化”开头——静态描述只会产出静态、无生命力的片段。
- 像指导摄影指导一样指定镜头：景别、镜头/光学感觉，以及一个刻意的机位运动。
- 锁定连续性令牌（面孔、产品、颜色、Logo），让它们贯穿全片不漂移。
- 在生成前就把镜头与平台和时长匹配好，而不是生成后再凑。
- 用否定项和清晰的输出规格做约束，让模型知道该避免什么，而不仅是尝试什么。

模式1：以主体、动作和时间变化开头

视频即“运动”。能产出鲜活画面的提示，与只产出一张照片慢慢推近的提示，最大的差别在于你是否描述了某件“正在发生的事”。

弱提示只描述场景。强提示描述“会发生变化”的场景。

弱版：A coffee cup on a wooden table in a cafe.

强版：A steaming coffee cup on a wooden cafe table; steam curls upward and drifts left as morning light slowly brightens across the surface over 5 seconds.

弱版给了模型一张静态画，再逼它硬编运动——通常是懒散的推镜或背景抖动。强版点名了主体（咖啡杯）、动作（蒸汽盘旋并向左飘）、以及时间维度上的变化（晨光在5秒内逐渐变亮）。模型因此拥有可在时间轴内插的起点与终点——这正是视频模型的强项。

修正方法是机械性的。每写一条提示，都自问：这条片子结尾与开头“有什么一处不同”？答不上来，你八成会得到一张“会动的明信片”。把那处变化写进句子里。哪怕是很小的——抬头、开门、雾气涌入——都能给模型一个在时间线上的明确任务。

模式2：像摄影指导一样调度镜头

Illustration: structure beats cleverness

如果你不指明镜头，模型会替你选——而且往往很差：通用的缓慢推进，或带着“AI味”的漂浮手持晃动。最佳提示把镜头当作创作选择，而非事后想起。

你需要三样：景别（大全/中景/特写）、镜头/画面感觉（35mm、广角、浅景深），以及“一种”机位运动（缓慢推近、并行跟拍、静态锁定）。只要一种，不要贪多。

弱版：A car driving down a coastal road, cinematic.

强版：Wide tracking shot of a vintage convertible on a coastal highway, shot on a 35mm lens with shallow depth of field, camera tracks alongside the car at matching speed, golden hour.

“cinematic（电影感）”是愿望，不是指令。强版清楚交代了构图（广角并行跟拍）、光学特性（35mm、浅景深），以及唯一一致的运动（与车辆同速侧向跟拍）。这种一致性才显得专业。互相打架的机位指令——“环绕同时变焦再摇移”——最容易让模型崩，产出那种漂浮、不稳定的观感。

如果你刚开始用镜头语言思考，我们的指南如何撰写AI视频提示会拆解词汇。速记版：想象你只给机位操作员一句话，他会“只做这句话里的事”。就该这么具体。

模式3：锁定你的连续性令牌

这是把爱好者与可交付素材制作者分开的关键。AI视频模型会“漂移”。几秒钟内，面孔会微妙地重绘成另一个人，红色Logo变成橙色，产品多出本不该有的按钮。连续性令牌，就是你用来钉住这些元素的、短小且可复用的特征短语。

连续性令牌是你承诺并逐字复用的简短而独特的描述——用于主体身份、产品、配色和任何品牌元素。

弱版：A woman in a red jacket walks through a city, then we see her closer up.

强版：A woman with shoulder-length curly black hair and a bright crimson leather jacket walks through a neon-lit city; same crimson jacket and same hairstyle held consistent throughout the clip.

“穿红夹克的女人”是在邀请模型重造她。“齐肩卷曲黑发、亮猩红皮夹克”，并明确要求全片保持一致，则给了模型可以抓牢的锚点。为同一项目生成多段素材时，把这些令牌原封不动地复制到每条提示里——绝不意译。意译就是第三镜的人物不再像第一镜那个人物的开端。

做品牌项目，这点是刚性要求。把精确的色名（可贴近十六进制命名）、Logo位置、产品的决定性特征写进每条提示。若平台支持图片参考或用文本转视频的起始帧，尽管用——但务必用文本令牌“二次锁定”，因为贯穿运动保持身份的是描述本身，而不是第一帧。

模式4：让镜头匹配平台与时长

适合做12秒YouTube主视觉的提示，不适合做4秒TikTok开场钩子，差别远不止比例。最佳提示是从“成片要发布在哪里”反推而来。

写描述前先定三件事：画幅比例（9:16竖屏用于信息流，16:9用于YouTube和落地页）、时长（决定能发生多少事）、节奏（短循环用一个稳定节拍，长一点的片子安排清晰弧线）。

弱版：An energetic montage of a fitness product with lots of quick cuts and text, for social media.

强版：9:16 vertical, single continuous 5-second shot: a runner laces up bright orange sneakers and pushes off frame-left into a sprint, fast-paced, punchy, designed as a TikTok hook with the action landing in the first 2 seconds.

在一次短时长生成里要求“很多快切”，基本等于求灾难——多数模型一次生成只产出一个连续镜头，这个要求和工具天性对着干。强版尊重格式：竖屏、单镜头、把动作设计在平台要求的前2秒里“落点”。通常，按这个规格生成若干干净的单镜头，再剪在一起，会比试图在一条提示里“塞剪辑”好得多。

时长也决定你能要求多少变化。4秒里，只能落一个清晰动作。12秒里，可以安排一个小弧线。想在4秒里讲三幕故事，只会糊成一团。

模式5：用否定项与清晰的输出规格做约束

最后这一条很少有人用，也正因此是优势。告诉模型你“不想要什么”，往往比继续堆你“想要什么”更有效。再配上明确的输出规格，你就不再把那些不起眼却关键的决定交给运气。

两步：否定项（你坚决拒绝的瑕疵和陈词滥调——手部畸变、文字乱码、额外肢体、闪烁、无端慢推）和输出规格（帧率质感、用光、情绪、画幅比例，在结尾清楚写出）。

弱版：A chef plating a dish in a restaurant kitchen.

强版：A chef precisely plating a dish in a warm restaurant kitchen; medium shot, soft key light from the left, calm and deliberate pacing, 16:9. Avoid: distorted hands, extra fingers, floating utensils, on-screen text, fast camera movement.

否定清单是有效负担。手部最容易让视频模型出糗，所以点名“手部畸变、额外手指”会引导模型在这儿投入更多精力。“避免屏幕文字”能掐掉模型爱臆造的乱码字母。最后用输出规格收尾——景别、光向、节奏、比例——你不再指望模型去“猜你的意图”，而是直说。

让否定清单简短且相关。十条泛泛的否定会稀释信号。三四条直指“这条提示最可能翻车点”的否定，会更锋利。不同模型短板不同，了解你在用哪一个很有价值——我们的AI模型能力地图拆解了各模型的长处与易崩点。

如何把五条合成“一条提示”

这些模式不是点菜，而是叠加。它们天然的顺序是：

主体 + 动作 + 变化（“厨师装盘；当她放上最终点缀时蒸汽升起”）
镜头（“中景，50mm，缓慢推近”）
连续性令牌（“同一位厨师，全程穿白色双排扣厨师服”）
平台与时长规格（“16:9，8秒，平静节奏”）
否定项与输出（“左侧暖色主光。避免：手部畸变、屏幕文字”）

自上而下，这就是一条模型能自信执行的连贯指令。每个分句都在回答一个模型原本会替你“自行决定”的问题——而“自行决定”，正是糟糕AI视频的来源。

你也不必每次都从空白页开始。我们的可复制提示模板库为常见镜头类型提供了验证过的骨架；你只需替换主体和令牌，就能不费脑地跑齐五种模式。

下一步

挑一条你写过但产出不理想的提示。用这五条过一遍：有没有写清时间上的变化？是否指定了一个清晰的机位运动？连续性令牌是否锁定并复用？是否按真实的平台与时长做了规格？是否告诉模型该避免什么？

修正其中最弱的两处再生成。一次这样的编辑，往往就是“删片”和“上片”的分水岭。

当你准备把这些模式用起来，打开应用内的text-to-video，按结构来写第一条提示——主体、镜头、令牌、规格、否定。若想看大规模实践里什么真的有效，阅读配套分析：4万条AI视频提示揭示了什么。工艺加证据，才能不再瞎猜，开始当导演。

让优秀的人工智能（AI）视频脱颖而出的5种提示词模式

模式1：以主体、动作和时间变化开头

模式2：像摄影指导一样调度镜头

模式3：锁定你的连续性令牌

模式4：让镜头匹配平台与时长

模式5：用否定项与清晰的输出规格做约束

如何把五条合成“一条提示”

下一步

Emir Göcen

免费制作你的第一个人工智能（AI）视频

继续阅读