Glossar

Das KI-Videowörterbuch

Alle Begriffe, die dir bei Videos mit Künstlicher Intelligenz begegnen — von Kamera- und Codec-Grundlagen bis Diffusion, Avatare und agentische Generierung — klar und einfach erklärt.

74 Begriffe · Video · Künstliche Intelligenz · KI-Video

74 Begriffe

A B C D E F G H I K L M N O P R S T U Ü V W Z

Agentisches VideoKI-Video: Ein KI‑Agent, der die gesamte Produktion plant und ausführt — Skript, Szenen, Stimme, Avatare und Schnitt — aus einem einzigen Briefing statt Clip für Clip.
AuflösungVideo: Die Pixelmaße jedes Frames, notiert Breite × Höhe (z. B. 1920×1080). Mehr Pixel bedeuten mehr Detail. Übliche Stufen sind 720p (HD), 1080p (Full HD), 4K und 8K.

B‑RollVideo: Ergänzendes Bildmaterial, das über die Hauptaufnahme geschnitten wird, um Kontext zu geben, etwas zu veranschaulichen oder einen Schnitt zu kaschieren.
Bild‑zu‑Video (I2V)KI-Video: Ein Standbild als Video zum Leben erwecken, oft gesteuert durch einen Prompt, der die gewünschte Bewegung beschreibt.
Bildrate (FPS)Video: Frames pro Sekunde — wie viele Einzelbilder pro Sekunde abgespielt werden. 24fps wirkt filmisch, 30fps ist Web‑Standard, 60fps sieht für Bewegung und Sport besonders flüssig aus.
BitrateVideo: Wie viele Daten pro Videosekunde genutzt werden, gemessen in kbps oder Mbps. Eine höhere Bitrate erhält mehr Details, erzeugt aber größere Dateien.
BokehVideo: Die weiche, gefällige Unschärfe im Hintergrund einer Aufnahme, oft als leuchtende Lichtkreise sichtbar.

CheckpointKünstliche Intelligenz: Ein gespeicherter Schnappschuss der Model‑Gewichte. Checkpoints werden oft als herunterladbare „Modelldatei“ geteilt, die man lokal ausführt.
Chroma Key (Greenscreen)Video: Ersetzen eines einfarbigen Hintergrunds — meist Grün — durch ein anderes Bild oder Video, indem diese Farbe transparent gemacht wird.
CodecVideo: Der Algorithmus, der Video komprimiert und dekomprimiert — etwa H.264, H.265/HEVC, AV1 oder VP9. Er balanciert Bildqualität und Dateigröße.
Color GradingVideo: Der kreative Schritt in der Postproduktion, bei dem Farbe, Kontrast und Stimmung des Materials angepasst werden, um einen konsistenten, beabsichtigten Look zu erzielen.
CompositingVideo: Mehrere visuelle Elemente — Footage, Grafiken, Effekte, Text — zu einem einzigen Frame zusammenfügen.
Container (Dateiformat)Video: Die Hülle, die Video, Audio und Metadaten zusammenhält — MP4, MOV, WebM oder MKV. Sie ist getrennt vom darin gespeicherten Codec.

DatensatzKünstliche Intelligenz: Die Sammlung von Beispielen — Videos, Bilder, Text —, auf denen ein Modell trainiert wird. Qualität und Vielfalt bestimmen die Fähigkeiten des Modells.
Deep LearningKünstliche Intelligenz: Maschinelles Lernen mit vielschichtigen neuronalen Netzen. Es treibt heutige Bild‑, Video‑, Sprach‑ und Sprachverstehensmodelle an.
DeepfakeKI-Video: Synthetische Medien, die das Gesicht oder die Stimme einer Person realistisch austauschen oder erzeugen. Mächtig, aber mit echten Fragen zu Einwilligung, Authentizität und Recht.
DiffusionsmodellKünstliche Intelligenz: Der dominierende Ansatz hinter KI‑Bildern und ‑Videos: Das Modell startet mit Zufallsrauschen und entfernt es Schritt für Schritt, bis ein stimmiges Ergebnis passend zu deinem Prompt erscheint.
Digital Human / Digital TwinKI-Video: Ein fotorealistisches KI‑Abbild einer realen Person, einmal trainiert und wiederverwendbar als On‑Camera‑Presenter.

EmbeddingKünstliche Intelligenz: Eine Liste von Zahlen (ein Vektor), die die Bedeutung von Text, Bild oder Audio erfasst, sodass das Modell verschiedene Eingaben vergleichen und kombinieren kann.
Erster & letzter FrameKI-Video: Einen Start‑ und/oder Endframe vorgeben, zwischen denen das Modell animiert — für präzise Kontrolle über Anfang und Ende eines Shots.
Establishing ShotVideo: Eine weite eröffnende Einstellung, die Ort und Kontext einer Szene festlegt, bevor näher herangeschnitten wird.

Fine‑TuningKünstliche Intelligenz: Ein Basismodell mit spezifischen Daten weitertrainieren, um es zu spezialisieren — für einen bestimmten Stil, eine Marke oder eine Person.
Foundation‑ModellKünstliche Intelligenz: Ein großes, breit trainiertes Basismodell, das für viele nachgelagerte Aufgaben angepasst werden kann.
Frame‑InterpolationKI-Video: Zwischenbilder erzeugen, um die Bildrate zu erhöhen oder Bewegungen zu glätten — zum Beispiel 24fps in seidig weiche 60fps verwandeln.

GANKünstliche Intelligenz: Generative Adversarial Network — eine frühere Methode, bei der Generator und Kritiker‑Netz gegeneinander antreten. Für hochqualitatives Video weitgehend von Diffusion abgelöst.
Guidance‑Skala (CFG)Künstliche Intelligenz: Wie strikt das Modell deinem Prompt folgt versus improvisiert. Höhere Werte halten sich enger an die Worte; niedrigere geben dem Modell mehr kreativen Spielraum.

HalluzinationKünstliche Intelligenz: Wenn ein Modell selbstbewusst falsche oder erfundene Ausgaben produziert — etwa verstümmelten Text, zusätzliche Finger oder unmögliche Bewegungen.
HDR (High Dynamic Range)Video: Video mit größerem Helligkeits‑ und Farbumfang als Standard (SDR) — für realistischere Lichter, Schatten und sattere Töne.

InferenceKünstliche Intelligenz: Ein bereits trainiertes Modell ausführen, um einen Output zu erzeugen — zum Beispiel dein Video aus einem Prompt. Dafür zahlst du pro Generierung.
Inpainting / OutpaintingKI-Video: Einen Bildbereich auffüllen (Inpainting) oder über seine Ränder hinaus erweitern (Outpainting). Im Video genutzt, um Bereiche über die Zeit zu entfernen, zu ersetzen oder zu vergrößern.

KamerasteuerungKI-Video: Virtuelle Kamerabewegungen innerhalb einer KI‑generierten Einstellung dirigieren — Schwenk, Zoom, Orbit, Dolly.
KeyframeVideo: In der Bearbeitung ein markierter Frame, der einen Wert (Position, Skalierung, Opazität) setzt, zwischen dem die Software animiert. In der Kompression ein vollständiger Referenz‑Frame, aus dem benachbarte Frames rekonstruiert werden.
KI‑AvatarKI-Video: Ein mit Künstlicher Intelligenz erzeugter oder geklonter On‑Screen‑Presenter, der dein Skript in einer gewählten Stimme und Sprache sprechen kann.
KI‑SynchronisationKI-Video: Gesprochene Audiospur in einer anderen Sprache ersetzen oder ergänzen — idealerweise an Stimme und Lippenbewegungen des Sprechers angepasst.

Latenter RaumKünstliche Intelligenz: Eine komprimierte mathematische Darstellung, in der das Modell tatsächlich arbeitet. Die Generierung passiert zuerst hier und wird anschließend in sichtbare Pixel dekodiert.
LetterboxingVideo: Schwarze Balken über und unter (oder seitlich) eines Videos, damit es in ein anderes Seitenverhältnis passt, ohne das Bild zu beschneiden.
LipsyncKI-Video: Die Mundbewegungen einer Figur oder eines Avatars mit der gesprochenen Audiospur abgleichen, sodass es aussieht, als würden die Worte wirklich gesprochen.
LoRAKünstliche Intelligenz: Low‑Rank Adaptation — eine schlanke Methode, einem Modell mit einer kleinen Zusatzdatei einen neuen Stil, Charakter oder ein Konzept beizubringen, statt das ganze Modell neu zu trainieren.
Lower ThirdVideo: Text im unteren Bildbereich, meist Name und Titel der sprechenden Person oder eine Bauchbinde.
LUT (Look‑Up Table)Video: Ein Preset, das Farben neu abbildet, um mit einem Klick einen bestimmten Look anzuwenden oder Material zwischen Farbräumen zu konvertieren.

ModellKünstliche Intelligenz: Ein trainiertes System der Künstlichen Intelligenz, das aus einem Input — etwa einem Text‑Prompt — einen Output erzeugt, z. B. ein Video. Verschiedene Modelle haben unterschiedliche Stärken, Geschwindigkeiten und Preise.
Motion Control / Motion BrushKI-Video: Tools, mit denen du gezielt bestimmst, wo und wie sich Dinge in einem generierten Clip bewegen — statt alles dem Modell zu überlassen.
MultimodalKünstliche Intelligenz: Ein Modell, das mehr als eine Datenart gleichzeitig versteht oder generiert — zum Beispiel Text, Bild, Video und Audio zusammen.

Negativer PromptKünstliche Intelligenz: Eine Beschreibung dessen, was du NICHT im Ergebnis willst. Sie lenkt das Modell von unerwünschten Objekten, Stilen oder Artefakten weg.
Neuronales NetzKünstliche Intelligenz: Ein Modell, das lose vom Gehirn inspiriert ist: Schichten verbundener „Neuronen“, die Muster aus Daten lernen. Es ist die Grundlage moderner generativer KI.

Open‑Weight‑ModellKünstliche Intelligenz: Ein Modell, dessen Gewichte veröffentlicht sind, sodass es jeder ausführen, untersuchen oder feinabstimmen kann (z. B. auf fal oder lokal) — im Gegensatz zu einem geschlossenen Modell, das nur über eine API erreichbar ist.

Parameter (Gewichte)Künstliche Intelligenz: Die internen Zahlen, die ein Modell im Training lernt. Sie speichern, was das Modell „weiß“; mehr Parameter können mehr Fähigkeiten bedeuten.
PromptKünstliche Intelligenz: Die Anweisung an das Modell — meist Text, manchmal plus Bild —, die das gewünschte Video beschreibt.
Prompt‑EngineeringKünstliche Intelligenz: Die Kunst, Prompts so zu formulieren, dass das Modell zuverlässig das beabsichtigte Ergebnis liefert — inklusive Motiv, Stil, Kamera und Stimmung.

ReferenzbildKI-Video: Ein Bild, das du dem Modell gibst, um Motiv, Figur oder Stil des generierten Videos zu steuern.
Rendern / RenderingVideo: Ein Projekt zu einer finalen Videodatei verarbeiten — oder in der KI: das Modell generiert Frames zu einem fertigen Clip.
RLHFKünstliche Intelligenz: Reinforcement Learning from Human Feedback — Training, das menschliche Präferenzen nutzt, um die Ausgaben eines Modells an das anzupassen, was Menschen tatsächlich möchten.

Sampling‑SchritteKünstliche Intelligenz: Wie viele Iterationen ein Diffusionsmodell benötigt, um Rauschen in den finalen Frame zu verwandeln. Mehr Schritte können höhere Qualität bedeuten, aber die Generierung verlangsamen und verteuern.
SchärfentiefeVideo: Wie viel des Bildes scharf ist. Eine geringe Schärfentiefe lässt den Hintergrund weich verschwimmen und hebt das Motiv hervor.
SeedKünstliche Intelligenz: Die Start‑Zufallszahl für eine Generierung. Den gleichen Seed mit dem gleichen Prompt zu verwenden, reproduziert dasselbe Ergebnis — praktisch für Konsistenz und kleine Änderungen.
SeitenverhältnisVideo: Das Breiten‑zu‑Höhe‑Verhältnis des Bildes — 16:9 (Widescreen), 9:16 (vertikal für Reels und TikTok) oder 1:1 (quadratisch). Es entscheidet, wie dein Video auf Plattformen und Bildschirme passt.
ShotVideo: Ein einzelnes ununterbrochenes Stück Footage. Übliche Arten sind Wide Shot, Medium Shot und Close‑up.
StimmenklonKI-Video: Die Stimme einer bestimmten Person aus einer kurzen Probe nachbilden, damit neuer Text in derselben Stimme gesprochen werden kann.
StoryboardVideo: Eine geplante Abfolge von Skizzen oder Frames, die jeden Shot vor der Produktion oder Generierung abbildet.
Style TransferKI-Video: Den visuellen Stil einer Referenz auf dein eigenes Footage oder deine Generierung anwenden.

Talking HeadKI-Video: Ein Video, das sich auf eine Person konzentriert, die in die Kamera spricht — der Klassiker für KI‑Avatare und Presenter.
Text‑to‑Speech (TTS)KI-Video: Geschriebenen Text in natürlich klingendes Sprach‑Audio mit einer synthetischen Stimme verwandeln — die Engine hinter KI‑Voiceovers.
Text‑zu‑Video (T2V)KI-Video: Ein Videoclip direkt aus einer schriftlichen Beschreibung erzeugen — ganz ohne Kamera, Darsteller oder Stockmaterial.
TokenKünstliche Intelligenz: Die kleinste Einheit, die ein Modell verarbeitet — ein Wortteil bei Text oder ein Patch bzw. Frame bei Video.
TrainingKünstliche Intelligenz: Ein Modell lehren, indem man ihm riesige Datenmengen zeigt und seine internen Parameter schrittweise anpasst, bis es gute Ergebnisse liefert.
TransformerKünstliche Intelligenz: Eine Architektur neuronaler Netze, die auf „Attention“ basiert — sie gewichtet, wie Teile des Inputs zueinander stehen. Sie ist die Grundlage großer Sprachmodelle und vieler moderner Videomodelle.

ÜbergangVideo: Wie ein Shot in den nächsten übergeht — harter Schnitt, Überblendung, Auf‑ oder Abblende, Wipe.

Untertitel / CaptionsVideo: Auf dem Bildschirm eingeblendeter Text der gesprochenen Audiospur. Captions enthalten auch Geräusche und Sprecher für Barrierefreiheit; Untertitel transkribieren oder übersetzen meist nur den Dialog.
UpscalingKI-Video: Mit Künstlicher Intelligenz die Auflösung eines Videos erhöhen — etwa von 1080p auf 4K — und dabei plausible Details hinzufügen, statt Pixel nur zu strecken.

Video‑zu‑Video (V2V)KI-Video: Einen vorhandenen Clip in einen neuen Stil oder Look verwandeln, wobei ursprüngliche Bewegung und Timing erhalten bleiben.
VideoverlängerungKI-Video: Einen Clip über seine ursprüngliche Länge hinaus fortführen, indem zusätzliche, natürlich anschließende Frames generiert werden.

WasserzeichenVideo: Ein Logo oder Text, der über ein Video gelegt wird, um die Urheberschaft zu kennzeichnen. Viele kostenlose KI‑Generatoren fügen eines hinzu; in Bezahlplänen wird es meist entfernt.
World ModelKI-Video: Eine KI, die eine interne Simulation davon aufbaut, wie Szenen, Objekte und Physik funktionieren — hilfreich für längere, kohärentere und konsistentere Videos.

Zeitliche KonsistenzKI-Video: Figuren, Objekte und Stil von Frame zu Frame stabil halten, damit das Video nicht flackert, verzerrt oder unnatürlich morpht.

Vom Prompt zum Render: die Sprache des KI‑Videos

Videos mit Künstlicher Intelligenz entstehen am Schnittpunkt zweier Welten — Jahrzehnte an Film- und Videoproduktions-Vokabular und die rasant wachsende Sprache des Machine Learnings. Dieses Wörterbuch bringt beides zusammen, plus die neuen Begriffe der generativen Videoerzeugung, damit du jedes Tool, Tutorial oder jede Model Card sicher verstehst.

Starte mit den Grundlagen: Seitenverhältnis, Auflösung, Bildrate und Codecs bestimmen, wie dein Video aussieht und wo es läuft. Dann die KI-Ebene — Modelle, Diffusion, Prompts, Seeds und LoRAs formen, was generiert wird. Und schließlich die KI‑Video‑Spezifika — Text‑zu‑Video, Bild‑zu‑Video, Lipsync, Avatare, zeitliche Konsistenz und World Models — beschreiben, was heutige Generatoren wirklich können.

Jede Definition ist in einfacher Sprache geschrieben, ganz ohne Mathe. Suche per Stichwort, filtere nach Thema oder stöbere von A–Z — und setze das Vokabular direkt im Vivideo‑Studio ein.

Das KI-Videowörterbuch

Kostenlos starten Was ist KI‑Video?