Die meisten KI-Videos scheitern aus den gleichen langweiligen Gründen. Das Motiv verändert sich mitten im Clip. Die Kamera macht etwas, das niemand wollte. Das Produkt wechselt zwischen Sekunde zwei und vier die Farbe. Das Ergebnis ist technisch „ein Video“ und praktisch unbrauchbar.
Nach Zehntausenden echter KI-Video-Prompts — denjenigen, die zu Clips führten, die Leute tatsächlich veröffentlichten, und denjenigen, die als Müll gelöscht wurden — zeigt sich ein Muster. Starke Prompts sind nicht länger oder blumiger. Sie sind strukturierter. Sie sagen dem Modell, was sich ändert, wie die Kamera sich verhält, was fix bleiben muss und was auf keinen Fall akzeptiert wird.
Das hier ist der Handwerks-Companion zu unserem Datenreport über was 40.000 KI-Video-Prompts verraten, was Leute produzieren. Dieser Post behandelt, was Creator erzeugen. Dieser hier behandelt, wie die Guten es schreiben. Fünf Muster, jeweils mit einer schwachen Version, einer starken Version und dem Warum dahinter.
Wichtigste Erkenntnisse
- Beginne mit Motiv + Aktion + einer klaren Veränderung über die Zeit — statische Beschreibungen erzeugen statische, leblige Clips.
- Spezifiziere die Kamera, als würdest du eine:n DoP dirigieren: Einstellungsgröße, Objektiv/Look und eine bewusste Bewegung.
- Fixiere Kontinuitäts-Tokens (Gesicht, Produkt, Farbe, Logo), damit sie den ganzen Clip über bestehen statt zu driften.
- Passe Shot und Taktung an Plattform und Dauer an — vor dem Generieren, nicht danach.
- Begrenze mit Negativen und einer klaren Output-Spezifikation, damit das Modell weiß, was es vermeiden soll, nicht nur, was es versuchen soll.
Muster 1: Starte mit Motiv, Aktion und Veränderung über die Zeit
Video ist Bewegung. Der größte Unterschied zwischen Prompts, die lebendiges Footage erzeugen, und Prompts, die einen langsamen Zoom auf ein Foto liefern, ist, ob du etwas Geschehendes beschrieben hast.
Schwache Prompts beschreiben eine Szene. Starke Prompts beschreiben eine Szene, die sich verändert.
Schwach: Eine Kaffeetasse auf einem Holztisch in einem Café.
Stark: Eine dampfende Kaffeetasse auf einem hölzernen Café-Tisch; Dampf kringelt nach oben und driftet nach links, während das Morgenlicht die Oberfläche über 5 Sekunden langsam heller werden lässt.
Die schwache Version gibt dem Modell ein Standbild und zwingt es, Bewegung zu erfinden — meist ein träges Reinzommen oder etwas Ambient-Gewackel. Die starke Version benennt das Motiv (Kaffeetasse), die Aktion (Dampf kringelt und driftet) und die Veränderung über die Zeit (Licht, das über den Clip heller wird). Das Modell hat nun einen Anfangs- und Endzustand zum Interpolieren — genau dafür sind Videomodelle gebaut.
Die Lösung ist mechanisch. Frag dich für jeden Prompt: Was ist die eine Sache, die am Ende dieses Clips anders ist als am Anfang? Wenn du das nicht beantworten kannst, bekommst du eine bewegte Postkarte. Backe diese Änderung in den Satz ein. Selbst eine kleine — ein Kopfdrehen, eine sich öffnende Tür, ein aufziehender Nebel — gibt dem Modell eine Aufgabe über die Zeitachse.
Muster 2: Führe die Kamera wie ein:e Kamerachef:in

Wenn du die Kamera nicht spezifizierst, wählt das Modell eine für dich — und es wählt schlecht: ein generisches Dolly-In oder ein driftendes Handheld-Wackeln, das „KI“ schreit. Die besten Prompts behandeln die Kamera als bewusste kreative Entscheidung, nicht als Nachgedanke.
Du brauchst drei Dinge: Einstellungsgröße (weit, halbnah, Nahaufnahme), Objektiv- oder Framing-Charakter (35mm, Weitwinkel, geringe Tiefenschärfe) und genau eine Bewegung (langsames Push-in, Orbit, statisches Lock-off). Eine Bewegung. Nicht drei.
Schwach: Ein Auto fährt eine Küstenstraße entlang, cinematisch.
Stark: Weite Verfolgungsaufnahme eines Vintage-Cabrios auf einer Küstenstraße, gedreht auf 35mm mit geringer Tiefenschärfe; die Kamera fährt seitlich auf gleicher Höhe mit, Golden Hour.
„Cinematisch“ ist ein Wunsch, keine Anweisung. Die starke Version nennt das Framing (weite Verfolgung), den optischen Charakter (35mm, geringe Tiefenschärfe) und eine einzige stimmige Bewegung (seitlich mit gleicher Geschwindigkeit mitfahren). Diese Stimmigkeit wirkt professionell. Widersprüchliche Kamera-Instruktionen — „orbiten, während gezoomt und gepannt wird“ — bringen Modelle aus dem Takt und erzeugen den schwimmenden, instabilen Look.
Wenn dir Kameradenken neu ist, erklärt unser Guide wie man KI-Video-Prompts schreibt die Vokabeln. Die Abkürzung: Stell dir vor, du gibst einer Kamerafrau einen Einzeiler, den sie exakt befolgt — und nichts darüber hinaus. Sei so spezifisch.
Muster 3: Fixiere deine Kontinuitäts-Tokens
Das ist das Muster, das Hobby von produktionsfähigem Footage trennt. KI-Video-Modelle driften. Über ein paar Sekunden rendert sich ein Gesicht subtil zu einer anderen Person um, ein rotes Logo wird orange, ein Produkt bekommt einen Knopf, den es vorher nicht hatte. Kontinuitäts-Tokens sind die spezifischen, wiederholbaren Wendungen, mit denen du diese Elemente festnagelst.
Ein Kontinuitäts-Token ist eine kurze, prägnante Beschreibung, die du festlegst und wortgleich wiederverwendest — für Identität des Motivs, Produkt, Farbpalette und jegliches Branding.
Schwach: Eine Frau in roter Jacke läuft durch eine Stadt, dann sehen wir sie näher.
Stark: Eine Frau mit schulterlangem, lockigem schwarzem Haar und einer leuchtend karminroten Lederjacke läuft durch eine neonbeleuchtete Stadt; dieselbe karminrote Jacke und dieselbe Frisur bleiben über den gesamten Clip konsistent.
„Eine Frau in roter Jacke“ lädt das Modell dazu ein, sie neu zu erfinden. „Schulterlanges, lockiges schwarzes Haar und eine leuchtend karminrote Lederjacke“, wiederholt und ausdrücklich als konsistent markiert, gibt dem Modell einen Anker. Wenn du mehrere Clips für ein Projekt generierst, kopiere diese Tokens in jeden Prompt — niemals paraphrasieren. Paraphrasen sind der Grund, warum die Figur in Shot drei nicht mehr wie die in Shot eins aussieht.
Für Markenarbeit ist das nicht verhandelbar. Fixiere den exakten, hex-äquivalenten Farbnamen, die Logoposition und das definierende Produktmerkmal in jedem einzelnen Prompt. Wenn deine Plattform ein Bild-Referenz oder text-to-video mit Startframe unterstützt, nutze es — aber stütze es mit fixierten Text-Tokens ab, denn die Beschreibung trägt die Identität durch die Bewegung, nicht nur in den ersten Frame.
Muster 4: Passe den Shot an Plattform und Dauer an

Ein großartiger Prompt für einen 12-sekündigen YouTube-Hero ist falsch für einen 4-sekündigen TikTok-Hook — und der Unterschied ist nicht nur das Seitenverhältnis. Die besten Prompts werden rückwärts von ihrem Einsatzort her gedacht.
Drei Entscheidungen fällst du, bevor du ein Wort Beschreibung schreibst: Seitenverhältnis (9:16 vertikal für Feeds, 16:9 für YouTube und Landingpages), Dauer (und damit wie viel tatsächlich passieren kann) und Taktung (ein ruhiger Beat für eine kurze Schleife, eine klare Mini-Arc für längere Clips).
Schwach: Ein energiegeladener Montage-Clip eines Fitnessprodukts mit vielen schnellen Schnitten und Text, für Social Media.
Stark: 9:16 vertikal, ein einziger durchgehender 5-Sekunden-Shot: Eine Läuferin schnürt leuchtend orange Sneaker und stößt sich nach links aus dem Frame in den Sprint ab, hohes Tempo, punchy, als TikTok-Hook designt, mit Action in den ersten 2 Sekunden.
Nach „vielen schnellen Schnitten“ in einer einzelnen kurzen Generierung zu fragen, ist eine Einladung zum Chaos — die meisten Modelle erzeugen pro Durchlauf einen durchgehenden Shot, also kollidiert die Bitte mit dem Werkzeug. Die starke Version respektiert das Format: vertikal, ein Shot, eine Aktion, die in den ersten zwei Sekunden landet, wo die Plattform es verlangt. Oft erzielst du bessere Resultate, wenn du mehrere saubere Single-Shot-Clips nach dieser Spez erzeugst und zusammenschneidest, statt einen Prompt mit einem ganzen Edit vollzustopfen.
Die Dauer bestimmt auch, wie viel Veränderung du verlangen kannst. In vier Sekunden landet eine klare Aktion. In zwölf kannst du eine kleine Arc inszenieren. Eine Drei-Akt-Story in vier Sekunden zu verlangen, verschmiert alles.
Muster 5: Begrenze mit Negativen und einer klaren Output-Spez
Das letzte Muster nutzen fast niemand — genau deshalb ist es ein Vorteil. Dem Modell zu sagen, was du nicht willst, ist oft mächtiger, als noch mehr vom Gewünschten draufzupacken. Kombiniere das mit einer expliziten Output-Spezifikation und du überlässt die unglamourösen Entscheidungen nicht dem Zufall.
Zwei Moves: Negative (Artefakte und Klischees, die du verweigerst — verzerrte Hände, Text-Gebrabbel, Extragliedmaßen, Flackern, der unerwünschte Slow Zoom) und eine Output-Spez (Framerate-Feeling, Licht, Stimmung und Seitenverhältnis am Ende klar benannt).
Schwach: Ein Koch richtet ein Gericht in einer Restaurantküche an.
Stark: Eine Köchin richtet präzise ein Gericht in einer warmen Restaurantküche an; Halbnahe, weiches Keylight von links, ruhiges, bedächtiges Tempo, 16:9. Vermeiden: verzerrte Hände, extra Finger, schwebendes Besteck, On-Screen-Text, schnelle Kamerabewegung.
Die Negativliste leistet echte Arbeit. Hände sind der Ort, an dem Videomodelle sich blamieren — „verzerrte Hände, extra Finger“ lenkt dort gezielt Aufwand hin. „On-Screen-Text vermeiden“ killt das Kauderwelsch, das Modelle gern halluzinieren. Und mit der Output-Spez schließen — Einstellungsgröße, Lichtrichtung, Taktung, Seitenverhältnis — bedeutet, du hoffst nicht, dass das Modell deine Absicht errät; du hast sie ausgesprochen.
Halte deine Negativliste schlank und relevant. Zehn generische Negative verwässern das Signal. Drei oder vier, die die wahrscheinlichen Schwachstellen dieses Prompts treffen, schärfen es. Verschiedene Modelle haben verschiedene Schwächen — unsere KI-Model-Stärkenkarte zeigt, wo jedes Modell glänzt und wo es bricht.
Wie man alle fünf zu einem Prompt kombiniert

Diese Muster sind kein Buffet — die besten Prompts stapeln alle fünf. In dieser Reihenfolge fallen sie natürlich zusammen:
- Motiv + Aktion + Veränderung („eine Köchin richtet ein Gericht an; Dampf steigt auf, während sie das letzte Topping setzt“)
- Kamera („Halbnahe, 50mm, langsames Push-in“)
- Kontinuitäts-Tokens („dieselbe Köchin in weißer, zweireihiger Jacke durchgehend“)
- Plattform + Dauer („16:9, 8 Sekunden, ruhige Taktung“)
- Negative + Output („warmes Keylight von links. Vermeiden: verzerrte Hände, On-Screen-Text“)
Von oben nach unten gelesen ist das eine zusammenhängende Anweisung, die ein Modell souverän ausführen kann. Jede Klausel beantwortet eine Frage, die das Modell sonst selbst beantworten würde — und „selbst beantworten“ ist der Ort, an dem schlechte KI-Videos entstehen.
Du musst auch nicht jedes Mal bei Null anfangen. Eine Bibliothek aus kopierbaren Prompt-Vorlagen liefert erprobte Skeletons für gängige Shot-Typen; du tauschst nur Motiv und Tokens aus und nutzt alle fünf Muster, ohne darüber nachdenken zu müssen.
Dein nächster Schritt
Nimm einen Prompt von dir, der einen enttäuschenden Clip erzeugt hat. Lege die fünf Muster darüber: Nennt er eine Veränderung über die Zeit? Dirigiert er eine klare einzelne Kamerabewegung? Sind deine Kontinuitäts-Tokens fixiert und wiederholt? Ist er auf eine reale Plattform und Dauer gespezzt? Sagt er dem Modell, was es vermeiden soll?
Behebe die zwei schwächsten Antworten und generiere neu. Dieser eine Edit-Pass ist meist der Unterschied zwischen einem Clip, den du löschst, und einem, den du veröffentlichst.
Wenn du bereit bist, die Muster anzuwenden, öffne text-to-video in der App und schreibe deinen ersten Prompt in der strukturierten Reihenfolge — Motiv, Kamera, Tokens, Spez, Negative. Und wenn du die Daten dahinter willst, was in der Breite wirklich funktioniert, lies die begleitende Analyse zu was 40.000 KI-Video-Prompts verraten. Handwerk plus Evidenz ist der Weg, wie du aufhörst zu raten und anfängst zu inszenieren.
