Glossar

Das KI-Videowörterbuch

Alle Begriffe, die dir bei Videos mit Künstlicher Intelligenz begegnen — von Kamera- und Codec-Grundlagen bis Diffusion, Avatare und agentische Generierung — klar und einfach erklärt.

74 Begriffe · Video · Künstliche Intelligenz · KI-Video

74 Begriffe
Agentisches VideoKI-Video
Ein KI‑Agent, der die gesamte Produktion plant und ausführt — Skript, Szenen, Stimme, Avatare und Schnitt — aus einem einzigen Briefing statt Clip für Clip.
AuflösungVideo
Die Pixelmaße jedes Frames, notiert Breite × Höhe (z. B. 1920×1080). Mehr Pixel bedeuten mehr Detail. Übliche Stufen sind 720p (HD), 1080p (Full HD), 4K und 8K.
B‑RollVideo
Ergänzendes Bildmaterial, das über die Hauptaufnahme geschnitten wird, um Kontext zu geben, etwas zu veranschaulichen oder einen Schnitt zu kaschieren.
Bild‑zu‑Video (I2V)KI-Video
Ein Standbild als Video zum Leben erwecken, oft gesteuert durch einen Prompt, der die gewünschte Bewegung beschreibt.
Bildrate (FPS)Video
Frames pro Sekunde — wie viele Einzelbilder pro Sekunde abgespielt werden. 24fps wirkt filmisch, 30fps ist Web‑Standard, 60fps sieht für Bewegung und Sport besonders flüssig aus.
BitrateVideo
Wie viele Daten pro Videosekunde genutzt werden, gemessen in kbps oder Mbps. Eine höhere Bitrate erhält mehr Details, erzeugt aber größere Dateien.
BokehVideo
Die weiche, gefällige Unschärfe im Hintergrund einer Aufnahme, oft als leuchtende Lichtkreise sichtbar.
CheckpointKünstliche Intelligenz
Ein gespeicherter Schnappschuss der Model‑Gewichte. Checkpoints werden oft als herunterladbare „Modelldatei“ geteilt, die man lokal ausführt.
Chroma Key (Greenscreen)Video
Ersetzen eines einfarbigen Hintergrunds — meist Grün — durch ein anderes Bild oder Video, indem diese Farbe transparent gemacht wird.
CodecVideo
Der Algorithmus, der Video komprimiert und dekomprimiert — etwa H.264, H.265/HEVC, AV1 oder VP9. Er balanciert Bildqualität und Dateigröße.
Color GradingVideo
Der kreative Schritt in der Postproduktion, bei dem Farbe, Kontrast und Stimmung des Materials angepasst werden, um einen konsistenten, beabsichtigten Look zu erzielen.
CompositingVideo
Mehrere visuelle Elemente — Footage, Grafiken, Effekte, Text — zu einem einzigen Frame zusammenfügen.
Container (Dateiformat)Video
Die Hülle, die Video, Audio und Metadaten zusammenhält — MP4, MOV, WebM oder MKV. Sie ist getrennt vom darin gespeicherten Codec.
DatensatzKünstliche Intelligenz
Die Sammlung von Beispielen — Videos, Bilder, Text —, auf denen ein Modell trainiert wird. Qualität und Vielfalt bestimmen die Fähigkeiten des Modells.
Deep LearningKünstliche Intelligenz
Maschinelles Lernen mit vielschichtigen neuronalen Netzen. Es treibt heutige Bild‑, Video‑, Sprach‑ und Sprachverstehensmodelle an.
DeepfakeKI-Video
Synthetische Medien, die das Gesicht oder die Stimme einer Person realistisch austauschen oder erzeugen. Mächtig, aber mit echten Fragen zu Einwilligung, Authentizität und Recht.
DiffusionsmodellKünstliche Intelligenz
Der dominierende Ansatz hinter KI‑Bildern und ‑Videos: Das Modell startet mit Zufallsrauschen und entfernt es Schritt für Schritt, bis ein stimmiges Ergebnis passend zu deinem Prompt erscheint.
Digital Human / Digital TwinKI-Video
Ein fotorealistisches KI‑Abbild einer realen Person, einmal trainiert und wiederverwendbar als On‑Camera‑Presenter.
EmbeddingKünstliche Intelligenz
Eine Liste von Zahlen (ein Vektor), die die Bedeutung von Text, Bild oder Audio erfasst, sodass das Modell verschiedene Eingaben vergleichen und kombinieren kann.
Erster & letzter FrameKI-Video
Einen Start‑ und/oder Endframe vorgeben, zwischen denen das Modell animiert — für präzise Kontrolle über Anfang und Ende eines Shots.
Establishing ShotVideo
Eine weite eröffnende Einstellung, die Ort und Kontext einer Szene festlegt, bevor näher herangeschnitten wird.
Fine‑TuningKünstliche Intelligenz
Ein Basismodell mit spezifischen Daten weitertrainieren, um es zu spezialisieren — für einen bestimmten Stil, eine Marke oder eine Person.
Foundation‑ModellKünstliche Intelligenz
Ein großes, breit trainiertes Basismodell, das für viele nachgelagerte Aufgaben angepasst werden kann.
Frame‑InterpolationKI-Video
Zwischenbilder erzeugen, um die Bildrate zu erhöhen oder Bewegungen zu glätten — zum Beispiel 24fps in seidig weiche 60fps verwandeln.
GANKünstliche Intelligenz
Generative Adversarial Network — eine frühere Methode, bei der Generator und Kritiker‑Netz gegeneinander antreten. Für hochqualitatives Video weitgehend von Diffusion abgelöst.
Guidance‑Skala (CFG)Künstliche Intelligenz
Wie strikt das Modell deinem Prompt folgt versus improvisiert. Höhere Werte halten sich enger an die Worte; niedrigere geben dem Modell mehr kreativen Spielraum.
HalluzinationKünstliche Intelligenz
Wenn ein Modell selbstbewusst falsche oder erfundene Ausgaben produziert — etwa verstümmelten Text, zusätzliche Finger oder unmögliche Bewegungen.
HDR (High Dynamic Range)Video
Video mit größerem Helligkeits‑ und Farbumfang als Standard (SDR) — für realistischere Lichter, Schatten und sattere Töne.
InferenceKünstliche Intelligenz
Ein bereits trainiertes Modell ausführen, um einen Output zu erzeugen — zum Beispiel dein Video aus einem Prompt. Dafür zahlst du pro Generierung.
Inpainting / OutpaintingKI-Video
Einen Bildbereich auffüllen (Inpainting) oder über seine Ränder hinaus erweitern (Outpainting). Im Video genutzt, um Bereiche über die Zeit zu entfernen, zu ersetzen oder zu vergrößern.
KamerasteuerungKI-Video
Virtuelle Kamerabewegungen innerhalb einer KI‑generierten Einstellung dirigieren — Schwenk, Zoom, Orbit, Dolly.
KeyframeVideo
In der Bearbeitung ein markierter Frame, der einen Wert (Position, Skalierung, Opazität) setzt, zwischen dem die Software animiert. In der Kompression ein vollständiger Referenz‑Frame, aus dem benachbarte Frames rekonstruiert werden.
KI‑AvatarKI-Video
Ein mit Künstlicher Intelligenz erzeugter oder geklonter On‑Screen‑Presenter, der dein Skript in einer gewählten Stimme und Sprache sprechen kann.
KI‑SynchronisationKI-Video
Gesprochene Audiospur in einer anderen Sprache ersetzen oder ergänzen — idealerweise an Stimme und Lippenbewegungen des Sprechers angepasst.
Latenter RaumKünstliche Intelligenz
Eine komprimierte mathematische Darstellung, in der das Modell tatsächlich arbeitet. Die Generierung passiert zuerst hier und wird anschließend in sichtbare Pixel dekodiert.
LetterboxingVideo
Schwarze Balken über und unter (oder seitlich) eines Videos, damit es in ein anderes Seitenverhältnis passt, ohne das Bild zu beschneiden.
LipsyncKI-Video
Die Mundbewegungen einer Figur oder eines Avatars mit der gesprochenen Audiospur abgleichen, sodass es aussieht, als würden die Worte wirklich gesprochen.
LoRAKünstliche Intelligenz
Low‑Rank Adaptation — eine schlanke Methode, einem Modell mit einer kleinen Zusatzdatei einen neuen Stil, Charakter oder ein Konzept beizubringen, statt das ganze Modell neu zu trainieren.
Lower ThirdVideo
Text im unteren Bildbereich, meist Name und Titel der sprechenden Person oder eine Bauchbinde.
LUT (Look‑Up Table)Video
Ein Preset, das Farben neu abbildet, um mit einem Klick einen bestimmten Look anzuwenden oder Material zwischen Farbräumen zu konvertieren.
ModellKünstliche Intelligenz
Ein trainiertes System der Künstlichen Intelligenz, das aus einem Input — etwa einem Text‑Prompt — einen Output erzeugt, z. B. ein Video. Verschiedene Modelle haben unterschiedliche Stärken, Geschwindigkeiten und Preise.
Motion Control / Motion BrushKI-Video
Tools, mit denen du gezielt bestimmst, wo und wie sich Dinge in einem generierten Clip bewegen — statt alles dem Modell zu überlassen.
MultimodalKünstliche Intelligenz
Ein Modell, das mehr als eine Datenart gleichzeitig versteht oder generiert — zum Beispiel Text, Bild, Video und Audio zusammen.
Negativer PromptKünstliche Intelligenz
Eine Beschreibung dessen, was du NICHT im Ergebnis willst. Sie lenkt das Modell von unerwünschten Objekten, Stilen oder Artefakten weg.
Neuronales NetzKünstliche Intelligenz
Ein Modell, das lose vom Gehirn inspiriert ist: Schichten verbundener „Neuronen“, die Muster aus Daten lernen. Es ist die Grundlage moderner generativer KI.
Open‑Weight‑ModellKünstliche Intelligenz
Ein Modell, dessen Gewichte veröffentlicht sind, sodass es jeder ausführen, untersuchen oder feinabstimmen kann (z. B. auf fal oder lokal) — im Gegensatz zu einem geschlossenen Modell, das nur über eine API erreichbar ist.
Parameter (Gewichte)Künstliche Intelligenz
Die internen Zahlen, die ein Modell im Training lernt. Sie speichern, was das Modell „weiß“; mehr Parameter können mehr Fähigkeiten bedeuten.
PromptKünstliche Intelligenz
Die Anweisung an das Modell — meist Text, manchmal plus Bild —, die das gewünschte Video beschreibt.
Prompt‑EngineeringKünstliche Intelligenz
Die Kunst, Prompts so zu formulieren, dass das Modell zuverlässig das beabsichtigte Ergebnis liefert — inklusive Motiv, Stil, Kamera und Stimmung.
ReferenzbildKI-Video
Ein Bild, das du dem Modell gibst, um Motiv, Figur oder Stil des generierten Videos zu steuern.
Rendern / RenderingVideo
Ein Projekt zu einer finalen Videodatei verarbeiten — oder in der KI: das Modell generiert Frames zu einem fertigen Clip.
RLHFKünstliche Intelligenz
Reinforcement Learning from Human Feedback — Training, das menschliche Präferenzen nutzt, um die Ausgaben eines Modells an das anzupassen, was Menschen tatsächlich möchten.
Sampling‑SchritteKünstliche Intelligenz
Wie viele Iterationen ein Diffusionsmodell benötigt, um Rauschen in den finalen Frame zu verwandeln. Mehr Schritte können höhere Qualität bedeuten, aber die Generierung verlangsamen und verteuern.
SchärfentiefeVideo
Wie viel des Bildes scharf ist. Eine geringe Schärfentiefe lässt den Hintergrund weich verschwimmen und hebt das Motiv hervor.
SeedKünstliche Intelligenz
Die Start‑Zufallszahl für eine Generierung. Den gleichen Seed mit dem gleichen Prompt zu verwenden, reproduziert dasselbe Ergebnis — praktisch für Konsistenz und kleine Änderungen.
SeitenverhältnisVideo
Das Breiten‑zu‑Höhe‑Verhältnis des Bildes — 16:9 (Widescreen), 9:16 (vertikal für Reels und TikTok) oder 1:1 (quadratisch). Es entscheidet, wie dein Video auf Plattformen und Bildschirme passt.
ShotVideo
Ein einzelnes ununterbrochenes Stück Footage. Übliche Arten sind Wide Shot, Medium Shot und Close‑up.
StimmenklonKI-Video
Die Stimme einer bestimmten Person aus einer kurzen Probe nachbilden, damit neuer Text in derselben Stimme gesprochen werden kann.
StoryboardVideo
Eine geplante Abfolge von Skizzen oder Frames, die jeden Shot vor der Produktion oder Generierung abbildet.
Style TransferKI-Video
Den visuellen Stil einer Referenz auf dein eigenes Footage oder deine Generierung anwenden.
Talking HeadKI-Video
Ein Video, das sich auf eine Person konzentriert, die in die Kamera spricht — der Klassiker für KI‑Avatare und Presenter.
Text‑to‑Speech (TTS)KI-Video
Geschriebenen Text in natürlich klingendes Sprach‑Audio mit einer synthetischen Stimme verwandeln — die Engine hinter KI‑Voiceovers.
Text‑zu‑Video (T2V)KI-Video
Ein Videoclip direkt aus einer schriftlichen Beschreibung erzeugen — ganz ohne Kamera, Darsteller oder Stockmaterial.
TokenKünstliche Intelligenz
Die kleinste Einheit, die ein Modell verarbeitet — ein Wortteil bei Text oder ein Patch bzw. Frame bei Video.
TrainingKünstliche Intelligenz
Ein Modell lehren, indem man ihm riesige Datenmengen zeigt und seine internen Parameter schrittweise anpasst, bis es gute Ergebnisse liefert.
TransformerKünstliche Intelligenz
Eine Architektur neuronaler Netze, die auf „Attention“ basiert — sie gewichtet, wie Teile des Inputs zueinander stehen. Sie ist die Grundlage großer Sprachmodelle und vieler moderner Videomodelle.
ÜbergangVideo
Wie ein Shot in den nächsten übergeht — harter Schnitt, Überblendung, Auf‑ oder Abblende, Wipe.
Untertitel / CaptionsVideo
Auf dem Bildschirm eingeblendeter Text der gesprochenen Audiospur. Captions enthalten auch Geräusche und Sprecher für Barrierefreiheit; Untertitel transkribieren oder übersetzen meist nur den Dialog.
UpscalingKI-Video
Mit Künstlicher Intelligenz die Auflösung eines Videos erhöhen — etwa von 1080p auf 4K — und dabei plausible Details hinzufügen, statt Pixel nur zu strecken.
Video‑zu‑Video (V2V)KI-Video
Einen vorhandenen Clip in einen neuen Stil oder Look verwandeln, wobei ursprüngliche Bewegung und Timing erhalten bleiben.
VideoverlängerungKI-Video
Einen Clip über seine ursprüngliche Länge hinaus fortführen, indem zusätzliche, natürlich anschließende Frames generiert werden.
WasserzeichenVideo
Ein Logo oder Text, der über ein Video gelegt wird, um die Urheberschaft zu kennzeichnen. Viele kostenlose KI‑Generatoren fügen eines hinzu; in Bezahlplänen wird es meist entfernt.
World ModelKI-Video
Eine KI, die eine interne Simulation davon aufbaut, wie Szenen, Objekte und Physik funktionieren — hilfreich für längere, kohärentere und konsistentere Videos.
Zeitliche KonsistenzKI-Video
Figuren, Objekte und Stil von Frame zu Frame stabil halten, damit das Video nicht flackert, verzerrt oder unnatürlich morpht.

Vom Prompt zum Render: die Sprache des KI‑Videos

Videos mit Künstlicher Intelligenz entstehen am Schnittpunkt zweier Welten — Jahrzehnte an Film- und Videoproduktions-Vokabular und die rasant wachsende Sprache des Machine Learnings. Dieses Wörterbuch bringt beides zusammen, plus die neuen Begriffe der generativen Videoerzeugung, damit du jedes Tool, Tutorial oder jede Model Card sicher verstehst.

Starte mit den Grundlagen: Seitenverhältnis, Auflösung, Bildrate und Codecs bestimmen, wie dein Video aussieht und wo es läuft. Dann die KI-Ebene — Modelle, Diffusion, Prompts, Seeds und LoRAs formen, was generiert wird. Und schließlich die KI‑Video‑Spezifika — Text‑zu‑Video, Bild‑zu‑Video, Lipsync, Avatare, zeitliche Konsistenz und World Models — beschreiben, was heutige Generatoren wirklich können.

Jede Definition ist in einfacher Sprache geschrieben, ganz ohne Mathe. Suche per Stichwort, filtere nach Thema oder stöbere von A–Z — und setze das Vokabular direkt im Vivideo‑Studio ein.