La plupart des vidéos d’IA échouent pour les mêmes raisons ennuyeuses. Le sujet se transforme en plein milieu du clip. La caméra fait quelque chose que personne n’a demandé. Le produit change de couleur entre la deuxième et la quatrième seconde. Le résultat est techniquement « une vidéo » et pratiquement inutilisable.

Après avoir examiné des dizaines de milliers de prompts vidéo d’IA réels — ceux qui ont produit des clips réellement publiés, et ceux qui ont produit des déchets supprimés — un schéma émerge. Les bons prompts ne sont pas plus longs ni plus poétiques. Ils sont plus structurés. Ils indiquent au modèle ce qui change, comment la caméra se comporte, ce qui doit rester verrouillé, et ce que l’on refuse d’accepter.

Ceci est le compagnon pratique de notre rapport de données sur ce que révèlent 40 000 prompts vidéo d’IA à propos de ce que les gens créent. Ce billet couvre ce que les créateurs génèrent. Celui-ci couvre comment les meilleurs l’écrivent. Cinq modèles, chacun avec une version faible, une version forte, et pourquoi la différence compte.

Points clés
- Commencez par sujet + action + un changement clair dans le temps — les descriptions statiques produisent des clips statiques et sans vie.
- Spécifiez la caméra comme si vous dirigiez un chef opérateur : taille de plan, objectif, et un mouvement délibéré.
- Verrouillez les jetons de continuité (visage, produit, couleur, logo) pour qu’ils survivent à tout le clip au lieu de dériver.
- Alignez le plan et le rythme avec la plateforme et la durée avant de générer, pas après.
- Contraignez avec des négatifs et une spécification de sortie claire pour que le modèle sache quoi éviter, pas seulement quoi tenter.

Modèle 1 : Commencez par le sujet, l’action et le changement dans le temps

La vidéo, c’est le mouvement. La plus grande différence entre les prompts qui produisent des images vivantes et ceux qui produisent un lent zoom sur une photo est de savoir si vous avez décrit quelque chose qui se passe.

Les prompts faibles décrivent une scène. Les prompts forts décrivent une scène qui change.

Faible : A coffee cup on a wooden table in a cafe.

Fort : A steaming coffee cup on a wooden cafe table; steam curls upward and drifts left as morning light slowly brightens across the surface over 5 seconds.

La version faible donne au modèle une image fixe et le force à inventer du mouvement — généralement un léger push-in paresseux ou un frémissement ambiant. La version forte nomme le sujet (tasse de café), l’action (la vapeur s’enroule et dérive), et le changement dans le temps (la lumière qui s’intensifie au fil du clip). Le modèle a désormais un état initial et final entre lesquels interpoler, ce pour quoi un modèle vidéo est précisément conçu.

La correction est mécanique. Pour chaque prompt, demandez-vous : quelle est la seule chose qui est différente à la fin de ce clip par rapport au début ? Si vous ne pouvez pas répondre, vous allez obtenir une carte postale animée. Intégrez ce changement dans la phrase. Même un petit — un mouvement de tête, une porte qui s’ouvre, du brouillard qui arrive — donne au modèle un travail à effectuer sur la timeline.

Modèle 2 : Dirigez la caméra comme un chef opérateur

Illustration: structure beats cleverness

Si vous ne spécifiez pas la caméra, le modèle en choisit une pour vous — et il choisit mal, en revenant par défaut à un dolly-in générique ou un flottement handheld qui crie « IA ». Les meilleurs prompts traitent la caméra comme un choix créatif délibéré, pas une arrière-pensée.

Il vous faut trois éléments : taille de plan (large, moyen, gros plan), objectif ou ressenti de cadrage (35 mm, grand-angle, faible profondeur de champ), et un mouvement unique (lent push-in, orbit, trépied fixe). Un seul mouvement. Pas trois.

Faible : A car driving down a coastal road, cinematic.

Fort : Wide tracking shot of a vintage convertible on a coastal highway, shot on a 35mm lens with shallow depth of field, camera tracks alongside the car at matching speed, golden hour.

« Cinematic » est un vœu, pas une instruction. La version forte indique au modèle le cadrage (travelling large), le caractère optique (35 mm, faible profondeur de champ), et un mouvement cohérent unique (suivre la voiture à vitesse égale). Cette cohérence est ce qui se lit comme professionnel. Des instructions de caméra contradictoires — « orbiter tout en zoomant et en panoramiquant » — sont là où les modèles se délitent et produisent cet aspect flottant et instable.

Si vous débutez avec le langage de la caméra, notre guide sur comment écrire des prompts vidéo d’IA détaille le vocabulaire. Le raccourci : imaginez que vous donnez une consigne d’une ligne à un cadreur qui fera exactement ce que vous dites et rien de plus. Soyez aussi précis.

Modèle 3 : Verrouillez vos jetons de continuité

C’est le modèle qui distingue les amateurs de ceux qui produisent des images exploitables. Les modèles vidéo d’IA dérivent. En quelques secondes, un visage se re-génère subtilement en une autre personne, un logo rouge vire à l’orange, un produit gagne un bouton qu’il n’avait pas. Les jetons de continuité sont les phrases spécifiques et répétables que vous utilisez pour fixer ces éléments.

Un jeton de continuité est une courte description distinctive que vous adoptez et réutilisez mot pour mot — pour l’identité du sujet, le produit, la palette de couleurs et tout élément de branding.

Faible : A woman in a red jacket walks through a city, then we see her closer up.

Fort : A woman with shoulder-length curly black hair and a bright crimson leather jacket walks through a neon-lit city; same crimson jacket and same hairstyle held consistent throughout the clip.

« A woman in a red jacket » est une invitation au modèle à la réinventer. « Cheveux noirs bouclés aux épaules et blouson en cuir cramoisi vif », répétés et explicitement marqués comme constants, donnent au modèle un ancrage. Lorsque vous générez plusieurs clips pour un même projet, copiez ces jetons exacts dans chaque prompt — ne les paraphrasez jamais. La paraphrase, c’est comme ça que le personnage du plan trois cesse de ressembler à celui du plan un.

Pour les marques, c’est non négociable. Verrouillez le nom de couleur équivalent hex précis, le placement du logo et la caractéristique définissante du produit dans chaque prompt. Si votre plateforme prend en charge une référence image ou le text-to-video avec une image de départ, utilisez-la — mais renforcez-la avec des jetons textuels verrouillés, car la description est ce qui porte l’identité à travers le mouvement, pas seulement dans la première image.

Modèle 4 : Faites correspondre le plan à la plateforme et à la durée

Un prompt parfait pour un « hero » de 12 secondes sur YouTube est mauvais pour un hook de 4 secondes sur TikTok, et la différence n’est pas que le ratio. Les meilleurs prompts sont conçus à rebours depuis l’endroit où la vidéo vivra.

Trois décisions se prennent avant d’écrire un mot de description : ratio d’image (9:16 vertical pour les feeds, 16:9 pour YouTube et les landing pages), durée (et donc ce qui peut réellement se passer), et rythme (un temps calme pour une boucle courte, un arc clair pour un clip plus long).

Faible : An energetic montage of a fitness product with lots of quick cuts and text, for social media.

Fort : 9:16 vertical, single continuous 5-second shot: a runner laces up bright orange sneakers and pushes off frame-left into a sprint, fast-paced, punchy, designed as a TikTok hook with the action landing in the first 2 seconds.

Demander « plein de cuts rapides » dans une génération courte unique, c’est demander le chaos — la plupart des modèles produisent un plan continu par génération, donc la requête va à l’encontre de l’outil. La version forte respecte le format : vertical, un seul plan, une action pensée pour tomber dans les deux premières secondes là où la plateforme l’exige. Vous obtiendrez souvent un meilleur résultat en générant plusieurs clips propres en plan-séquence selon ce cahier des charges et en les montant, plutôt qu’en essayant de caser un montage dans un seul prompt.

La durée détermine aussi l’ampleur du changement que vous pouvez demander. En quatre secondes, une action claire aboutit. En douze, vous pouvez mettre en scène un petit arc. Demander une histoire en trois actes en quatre secondes ne fait que tout brouiller.

Modèle 5 : Contraignez avec des négatifs et une spécification de sortie claire

Le dernier modèle est celui que presque personne n’utilise, ce qui en fait précisément un avantage. Dire au modèle ce que vous ne voulez pas est souvent plus puissant que d’empiler davantage de ce que vous voulez. Associez cela à une spécification de sortie explicite et vous cessez de laisser les décisions peu glamour au hasard.

Deux leviers : les négatifs (les artefacts et clichés que vous refusez — mains déformées, charabia de texte, membres supplémentaires, scintillement, le slow zoom non désiré) et une spécification de sortie (ressenti de frame rate, éclairage, humeur et ratio d’image énoncés clairement à la fin).

Faible : A chef plating a dish in a restaurant kitchen.

Fort : A chef precisely plating a dish in a warm restaurant kitchen; medium shot, soft key light from the left, calm and deliberate pacing, 16:9. Avoid: distorted hands, extra fingers, floating utensils, on-screen text, fast camera movement.

La liste négative travaille vraiment. Les mains sont là où les modèles vidéo se ridiculisent, donc nommer « mains déformées, doigts en trop » indique au modèle d’y consacrer des efforts. « Éviter le texte à l’écran » tue le lettrage illisible que les modèles aiment halluciner. Et conclure avec la spécification de sortie — taille de plan, direction de la lumière, rythme, ratio — signifie que vous n’espérez pas que le modèle devine votre intention ; vous l’avez formulée.

Gardez votre liste négative serrée et pertinente. Dix négatifs génériques diluent le signal. Trois ou quatre qui ciblent les points de défaillance probables de ce prompt l’affinent. Les modèles diffèrent dans leurs points faibles, donc il est utile de savoir lequel vous utilisez — notre carte des forces des modèles d’IA détaille où chaque modèle excelle et où il a tendance à casser.

Comment combiner les cinq en un seul prompt

Ces modèles ne sont pas un menu — les meilleurs prompts empilent les cinq. Voici l’ordre dans lequel ils s’enchaînent naturellement :

Sujet + action + changement (« une cheffe dresse un plat ; la vapeur s’élève tandis qu’elle dépose la touche finale »)
Caméra (« plan moyen, 50 mm, lent push-in »)
Jetons de continuité (« même cheffe en veste blanche croisée tout au long »)
Spécification plateforme + durée (« 16:9, 8 secondes, rythme calme »)
Négatifs + sortie (« key light chaude à gauche. Éviter : mains déformées, texte à l’écran »)

Lu de haut en bas, c’est une instruction cohérente que le modèle peut exécuter en confiance. Chaque proposition répond à une question que le modèle aurait sinon résolue tout seul — et « tout seul » est précisément là où naissent les mauvaises vidéos d’IA.

Vous n’avez pas à repartir d’une page blanche à chaque fois. Une bibliothèque de modèles de prompts à copier vous donne des squelettes éprouvés pour les types de plans courants ; vous remplacez par votre sujet et vos jetons et vous appliquez déjà les cinq modèles sans y penser.

Votre prochaine étape

Choisissez un prompt que vous avez écrit et qui a produit un clip décevant. Passez-le au crible des cinq modèles : Nomme-t-il un changement dans le temps ? Dirige-t-il un mouvement de caméra clair ? Vos jetons de continuité sont-ils verrouillés et répétés ? Est-il spécifié pour une vraie plateforme et une durée ? Indique-t-il au modèle quoi éviter ?

Corrigez les deux réponses les plus faibles et régénérez. Ce seul passage d’édition fait généralement la différence entre un clip que vous supprimez et un clip que vous publiez.

Quand vous êtes prêt à mettre les modèles en pratique, ouvrez text-to-video dans l’app et écrivez votre premier prompt de manière structurée — sujet, caméra, jetons, spec, négatifs. Et si vous voulez les données derrière ce qui fonctionne réellement à grande échelle, lisez l’analyse associée de ce que révèlent 40 000 prompts vidéo d’IA. L’artisanat plus la preuve, c’est comme ça qu’on arrête de deviner et qu’on commence à diriger.

Les 5 modèles d’invite qui distinguent les excellentes vidéos IA des mauvaises