De fleste AI‑videoer feiler av de samme kjedelige grunnene. Subjektet forandrer seg midt i klippet. Kameraet gjør noe ingen ba om. Produktet skifter farge mellom sekund to og fire. Outputen er teknisk «en video» og praktisk ubrukelig.
Etter å ha sett på titusenvis av ekte AI‑videoprompter — de som ga klipp folk faktisk publiserte, og de som ga søppel som ble slettet — trer et mønster frem. Gode prompter er ikke lengre eller mer poetiske. De er mer strukturerte. De forteller modellen hva som endres, hvordan kameraet oppfører seg, hva som må være låst, og hva de nekter å akseptere.
Dette er håndverksfølget til vår datarapport om hva 40 000 AI‑videoprompter avslører om hva folk lager. Den posten dekker hva skapere genererer. Denne dekker hvordan de gode skriver det. Fem mønstre, hver med en svak versjon, en sterk versjon, og hvorfor forskjellen betyr noe.
Viktige læringspunkter
- Start med subjekt + handling + en tydelig endring over tid — statiske beskrivelser gir statiske, livløse klipp.
- Spesifiser kameraet som om du regisserer en fotograf/DP: utsnitt, linse og én bevisst bevegelse.
- Lås kontinuitets‑tokens (ansikt, produkt, farge, logo) så de overlever hele klippet i stedet for å drive.
- Match utsnitt og tempo til plattform og varighet før du genererer, ikke etter.
- Avgrens med negative føringer og en tydelig output‑spes så modellen vet hva den skal unngå, ikke bare hva den skal forsøke.
Mønster 1: Start med subjekt, handling og endring over tid
Video er bevegelse. Den største forskjellen mellom prompter som gir levende opptak og prompter som gir et sakte innzoom på et fotografi, er om du beskrev at noe faktisk skjer.
Svake prompter beskriver en scene. Sterke prompter beskriver en scene som endrer seg.
Svak: A coffee cup on a wooden table in a cafe.
Sterk: A steaming coffee cup on a wooden cafe table; steam curls upward and drifts left as morning light slowly brightens across the surface over 5 seconds.
Den svake versjonen gir modellen et stillbilde og tvinger den til å finne på bevegelse — vanligvis en lat innzoom eller litt tilfeldig skjelving. Den sterke versjonen navngir subjektet (kaffekopp), handlingen (dampen krøller seg og driver), og endringen over tid (lyset blir gradvis sterkere gjennom klippet). Modellen har nå en start‑ og slutttilstand å interpolere mellom, som er nettopp det en videomodell er bygget for å gjøre.
Løsningen er mekanisk. For hver prompt, spør: hva er den ene tingen som er annerledes på slutten av dette klippet versus starten? Hvis du ikke kan svare, får du et bevegelig postkort. Bak den endringen inn i setningen. Selv en liten — et hode som snur seg, en dør som åpnes, tåke som ruller inn — gir modellen en jobb å gjøre over tidslinjen.
Mønster 2: Regisser kameraet som en filmfotograf

Hvis du ikke spesifiserer kameraet, velger modellen ett for deg — og den velger dårlig, med en generisk dolly‑inn eller en drivende håndholdt vingling som skriker «AI». De beste prompter behandler kameraet som et bevisst kreativt valg, ikke en ettertanke.
Du trenger tre ting: utsnitt (total, halvtotal, nær), linse eller innrammingsfølelse (35mm, vidvinkel, liten dybdeskarphet), og én bevegelse (sakte push‑in, orbit, statisk lås). Én bevegelse. Ikke tre.
Svak: A car driving down a coastal road, cinematic.
Sterk: Wide tracking shot of a vintage convertible on a coastal highway, shot on a 35mm lens with shallow depth of field, camera tracks alongside the car at matching speed, golden hour.
«Cinematic» er et ønske, ikke en instruks. Den sterke versjonen forteller modellen innrammingen (bred tracking), den optiske karakteren (35mm, liten dybdeskarphet), og en sammenhengende bevegelse (track ved siden av i samme hastighet). Den sammenhengen er det som leses som profesjonelt. Motstridende kamerainstrukser — «orbit mens du zoomer og panorerer» — er der modeller faller fra hverandre og gir den svømmende, ustabile looken.
Hvis kameratermer er nytt for deg, bryter vår guide om hvordan skrive AI‑videoprompter ned vokabularet. Snarveien: Tenk at du gir en énlinjes instruks til en kameraoperatør som gjør nøyaktig det du sier og ikke mer. Vær så spesifikk.
Mønster 3: Lås kontinuitets‑tokens
Dette er mønsteret som skiller hobbyister fra dem som produserer brukbart materiale. AI‑videomodeller driver. I løpet av noen sekunder kan et ansikt subtilt re‑rendres til en annen person, en rød logo skifte til oransje, et produkt få en knapp det ikke hadde. Kontinuitets‑tokens er de spesifikke, repeterbare frasene du bruker for å spikre disse elementene.
Et kontinuitets‑token er en kort, distinkt beskrivelse du forplikter deg til og gjenbruker ordrett — for subjektets identitet, produktet, fargepaletten og eventuell branding.
Svak: A woman in a red jacket walks through a city, then we see her closer up.
Sterk: A woman with shoulder-length curly black hair and a bright crimson leather jacket walks through a neon-lit city; same crimson jacket and same hairstyle held consistent throughout the clip.
«A woman in a red jacket» er en invitasjon til at modellen finner opp henne på nytt. «Skulderlangt, krøllete svart hår og en lys skarlagensrød skinnjakke», gjentatt og eksplisitt merket som konsistent, gir modellen et anker å holde i. Når du genererer flere klipp til ett prosjekt, kopier de eksakte tokens inn i hver prompt — aldri parafraser dem. Parafrasering er grunnen til at karakteren i opptak tre slutter å ligne karakteren i opptak én.
For merkevarearbeid er dette ufravikelig. Lås det nøyaktige heks‑ekvivalente fargenavnet, logoplasseringen og produktets definerende kjennetegn i hver eneste prompt. Hvis plattformen din støtter et bildereferanse eller text-to-video med en startframe, bruk det — men støtt det med låste tekst‑tokens, fordi beskrivelsen er det som bærer identitet gjennom bevegelsen, ikke bare inn i første frame.
Mønster 4: Match opptaket til plattform og varighet

En prompt som er flott for en 12‑sekunders YouTube‑hero er feil for en 4‑sekunders TikTok‑hook, og forskjellen er ikke bare aspektforhold. De beste prompter er designet baklengs fra hvor videoen skal leve.
Tre valg tas før du skriver et ord: aspektforhold (9:16 vertikal for feeds, 16:9 for YouTube og landingssider), varighet (og dermed hvor mye som faktisk kan skje), og tempo (én rolig beat for en kort loop, en tydelig bue for et lengre klipp).
Svak: An energetic montage of a fitness product with lots of quick cuts and text, for social media.
Sterk: 9:16 vertical, single continuous 5-second shot: a runner laces up bright orange sneakers and pushes off frame-left into a sprint, fast-paced, punchy, designed as a TikTok hook with the action landing in the first 2 seconds.
Å be om «mange raske kutt» i én kort generering er å be om rot — de fleste modeller produserer ett sammenhengende opptak per generering, så forespørselen strider mot verktøyet. Den sterke versjonen respekterer formatet: vertikal, ett opptak, en handling konstruert for å lande i de første to sekundene der plattformen krever det. Du får ofte bedre resultat ved å generere flere rene enkeltskudd etter denne spesen og klippe dem sammen, enn ved å prøve å stappe en edit inn i én prompt.
Varighet styrer også hvor mye endring du kan be om. På fire sekunder lander én tydelig handling. På tolv kan du iscenesette en liten bue. Å be om en tre‑akters historie på fire sekunder bare smører alt sammen.
Mønster 5: Avgrens med negative føringer og en tydelig output‑spes
Det siste mønsteret er det nesten ingen bruker, og nettopp derfor er det en fordel. Å fortelle modellen hva du ikke vil ha er ofte kraftigere enn å stable på mer av det du vil ha. Kombiner det med en eksplisitt output‑spes, og du slutter å overlate de ulekre beslutningene til tilfeldighetene.
To grep: negatives (artefaktene og klisjeene du nekter — forvridde hender, tekstgibberish, ekstra lemmer, flimring, den uønskede sakte zoomen) og en output‑spes (følelse av bildefrekvens, lyssetting, stemning og aspektforhold uttalt tydelig til slutt).
Svak: A chef plating a dish in a restaurant kitchen.
Sterk: A chef precisely plating a dish in a warm restaurant kitchen; medium shot, soft key light from the left, calm and deliberate pacing, 16:9. Avoid: distorted hands, extra fingers, floating utensils, on-screen text, fast camera movement.
Den negative listen gjør reelt arbeid. Hender er stedet videomodeller dummer seg ut, så å navngi «forvridde hender, ekstra fingre» forteller modellen å bruke innsats der. «Avoid on‑screen text» dreper gibberish‑bokstaver modeller elsker å hallusinere. Og å avslutte med output‑spes — utsnitt, lysretning, tempo, aspektforhold — betyr at du ikke håper modellen gjetter intensjonen din; du har sagt den.
Hold den negative listen stram og relevant. Ti generiske negatives utvanner signalet. Tre–fire som retter seg mot dette promptets sannsynlige feilpunkt skjerper det. Ulike modeller har ulike svake punkter, så det lønner seg å vite hvilken du bruker — vårt AI‑modellstyrke‑kart bryter ned hvor hver modell briljerer og hvor den tenderer å knekke.
Slik kombinerer du alle fem i én prompt

Disse mønstrene er ikke en meny — de beste prompter stakker alle fem. Her er rekkefølgen de naturlig faller i:
- Subjekt + handling + endring («en kokk anretter en rett; damp stiger mens hun legger på siste garnityr»)
- Kamera («halvtotal, 50mm, sakte push‑in»)
- Kontinuitets‑tokens («samme kokk i hvit dobbeltspent jakke gjennom hele klippet»)
- Plattform + varighets‑spes («16:9, 8 sekunder, rolig tempo»)
- Negatives + output («varm key light fra venstre. Avoid: distorted hands, on‑screen text»)
Lest ovenfra og ned er det én sammenhengende instruks en modell kan utføre med selvtillit. Hver klausul svarer på et spørsmål modellen ellers ville svart på selv — og «på egen hånd» er der dårlig AI‑video kommer fra.
Du trenger heller ikke starte fra blanke ark hver gang. Et bibliotek med kopierbare promptmaler gir deg gjennomprøvde skjeletter for vanlige opptakstyper; du bytter inn ditt subjekt og dine tokens, og du kjører allerede alle fem mønstrene uten å tenke over det.
Ditt neste steg
Velg én prompt du har skrevet som ga et skuffende klipp. Kjør den gjennom de fem mønstrene: Nevner den en endring over tid? Regisserer den én tydelig kamerabevegelse? Er kontinuitets‑tokens låst og gjentatt? Er den speset til en reell plattform og varighet? Forteller den modellen hva som skal unngås?
Fiks de to svakeste svarene og regenerer. Den ene redigeringsrunden er som regel forskjellen mellom et klipp du sletter og et klipp du publiserer.
Når du er klar til å sette mønstrene i arbeid, åpne text-to-video i appen og skriv din første prompt på den strukturerte måten — subjekt, kamera, tokens, spes, negatives. Og vil du ha dataene bak hva som faktisk fungerer i skala, les den tilhørende analysen av hva 40 000 AI‑videoprompter avslører. Håndverk pluss evidens er hvordan du slutter å gjette og begynner å regissere.
