Ordlista

AI‑videons ordbok

Alla begrepp du möter när du gör video med artificiell intelligens (AI) — från kamerans och codecens grunder till diffusion, avatarer och agentisk generering — förklarade på enkel svenska.

74 termer · Video · Artificiell intelligens · AI‑video

74 termer

A B C D E F G H I K L M N Ö P R S T U V

Agentisk videoAI‑video: En intelligent agent som planerar och driver hela produktionen — manus, scener, röst, avatarer och klipp — från en enda brief, i stället för ett klipp i taget.
AI‑avatarAI‑video: En avatar skapad med artificiell intelligens eller klonad presentatör i bild som kan framföra ditt manus med vald röst och på valt språk.
AI‑dubbningAI‑video: Att ersätta eller lägga till talat ljud på ett annat språk, helst matchat mot talarens röst och munrörelser.

B‑rollVideo: Kompletterande material som klipps in över huvudtaget för att ge kontext, illustrera en poäng eller dölja ett klipp.
Bild‑till‑video (I2V)AI‑video: Att ge liv åt en stillbild som video, ofta styrt av en prompt som beskriver den rörelse du vill ha.
Bildfrekvens (FPS)Video: Bilder per sekund — hur många stillbilder som spelas upp varje sekund. 24fps känns filmiskt, 30fps är standard på webben och 60fps ser supersmidigt ut för rörelse och sport.
BildförhållandeVideo: Förhållandet mellan bildens bredd och höjd — 16:9 (widescreen), 9:16 (vertikalt för Reels och TikTok) eller 1:1 (kvadrat). Det avgör hur din video passar varje plattform och skärm.
Bildruta‑interpoleringAI‑video: Att generera mellanliggande rutor för att höja bildfrekvensen eller jämna ut rörelse — till exempel att göra 24fps till silkeslena 60fps.
BithastighetVideo: Hur mycket data som används per sekund video, mätt i kbps eller Mbps. Högre bithastighet bevarar fler detaljer men ger större filer.
BokehVideo: Den mjuka, behagliga oskärpan i bakgrunden av en tagning, ofta återgiven som glödande ljuscirklar.

CheckpointArtificiell intelligens: En sparad ögonblicksbild av en modells vikter. Checkpoints delas ofta som den nedladdningsbara ”modelfilen” som man kör.
CodecVideo: Algoritmen som komprimerar och avkomprimerar video — till exempel H.264, H.265/HEVC, AV1 eller VP9. Den balanserar visuell kvalitet mot filstorlek.
Container (filformat)Video: Filhöljet som håller ihop video, ljud och metadata — MP4, MOV, WebM eller MKV. Det är skilt från codec:en som ligger inuti.

DatasettArtificiell intelligens: Samlingen av exempel — videor, bilder, text — som en modell tränas på. Dess kvalitet och variation formar vad modellen kan göra.
DeepfakeAI‑video: Syntetiskt media som realistiskt byter ut eller fabricerar någons ansikte eller röst. Kraftfullt, men väcker verkliga frågor om samtycke, autenticitet och juridik.
DiffusionsmodellArtificiell intelligens: Den dominerande metoden bakom bilder och video med artificiell intelligens: modellen börjar från slumpmässigt brus och tar bort det steg för steg tills ett sammanhängande resultat som matchar din prompt framträder.
Digital människa / digital tvillingAI‑video: En fotorealistisk AI‑kopia av en verklig person, tränad en gång och återanvänd som presentatör framför kameran.
DjupinlärningArtificiell intelligens: Maskininlärning som använder flerskiktade neurala nätverk. Driver dagens bild-, video-, röst- och språkmodeller.

EtableringsbildVideo: En vidöppnande tagning som sätter plats och sammanhang i en scen innan du klipper närmare.

Finjustering (fine‑tuning)Artificiell intelligens: Ytterligare träning av en baskomponent för att specialisera den — för en viss stil, ett varumärke eller en person.
Färgkorrigering (colour grading)Video: Det kreativa steget i efterbearbetningen där färg, kontrast och känsla justeras för att ge materialet ett enhetligt, avsiktligt utseende.
Första och sista rutaAI‑video: Att ange en startruta och/eller en slutruta som modellen animerar mellan, vilket ger dig exakt kontroll över en tagnings början och slut.

GANArtificiell intelligens: Generative Adversarial Network — en tidigare metod där en generator och ett kritiskt nätverk tävlar. Har till stor del ersatts av diffusion för högkvalitativ video.
GrundmodellArtificiell intelligens: En stor, generell modell tränad på bred data som kan anpassas till många efterföljande uppgifter.

HallucinationArtificiell intelligens: När en modell producerar självsäkert men felaktigt eller påhittat innehåll — som förvrängd text, extra fingrar eller omöjlig rörelse.
HDR (High Dynamic Range)Video: Video med större omfång i ljus och färg än standard (SDR), för mer naturtrogna högdagrar, skuggor och rikare toner.

Inbäddning (embedding)Artificiell intelligens: En lista av tal (en vektor) som fångar innebörden i text, en bild eller ljud, så att modellen kan jämföra och kombinera olika indata.
InferensArtificiell intelligens: Att köra en redan tränad modell för att producera en utdata — till exempel att generera din video från en prompt. Det är detta du betalar per generering för.
Inpainting / outpaintingAI‑video: Att fylla i en del av en ruta (inpainting) eller utvidga bortom kanterna (outpainting). I video används det för att ta bort, ersätta eller utöka områden över tid.

KamerakontrollAI‑video: Att styra virtuella kamerarörelser — pan, zoom, orbit, dolly — inom en AI‑genererad tagning.
KompositingVideo: Att lägga flera visuella element — film, grafik, effekter, text — i lager till en enda sammansatt bildruta.
Kromanyckel (green screen)Video: Att ersätta en enfärgad bakgrund — oftast grön — med en annan bild eller video genom att göra färgen transparent.

Latent utrymmeArtificiell intelligens: En komprimerad matematisk representation där modellen faktiskt arbetar. Genereringen sker här först och avkodas sedan till synliga pixlar.
LetterboxingVideo: Svarta fält som läggs ovanför och under (eller vid sidan av) en video så att den passar ett annat bildförhållande utan att beskäras.
LoRAArtificiell intelligens: Low‑Rank Adaptation — ett lättviktigt sätt att lära en modell en ny stil, karaktär eller ett nytt koncept med en liten tilläggsfil, i stället för att träna om hela modellen.
LUT (Look-Up Table)Video: En förinställning som ommappas färger för att ge en specifik look med ett klick, eller för att konvertera material mellan färgrymder.
LäppsynkAI‑video: Att matcha en karaktärs eller avatars munrörelser till det talade ljudet så att det ser ut som att de verkligen säger orden.

ModellArtificiell intelligens: Ett tränat system för artificiell intelligens som omvandlar en indata — som en textprompt — till en utdata, som en video. Olika modeller har olika styrkor, hastigheter och priser.
Modell med öppna vikterArtificiell intelligens: En modell vars vikter publiceras så att vem som helst kan köra, studera eller finjustera den (t.ex. på fal eller lokalt), till skillnad från en sluten modell som bara nås via en API.
MultimodalArtificiell intelligens: En modell som förstår eller genererar mer än en typ av data samtidigt — till exempel text, bild, video och ljud tillsammans.

Nedre tredjedelVideo: Text placerad i den nedre delen av bilden, vanligtvis en talares namn och titel eller en bildtext.
Negativ promptArtificiell intelligens: En beskrivning av vad du INTE vill ha i resultatet. Den styr modellen bort från oönskade objekt, stilar eller artefakter.
Neuralt nätverkArtificiell intelligens: En modell löst inspirerad av hjärnan: lager av sammanlänkade ”neuroner” som lär sig mönster från data. Det är grunden för modern generativ artificiell intelligens.
NyckelrutaVideo: I redigering: en markerad ruta som sätter ett värde (position, skala, opacitet) som programmet animerar mellan. I komprimering: en fullständig referensruta som närliggande rutor återskapas från.

Parametrar (vikter)Artificiell intelligens: De interna talen som en modell lär sig under träning. De lagrar vad modellen ”vet”; fler parametrar kan innebära högre kapacitet.
Pratande huvudAI‑video: En video som kretsar kring en person som talar mot kameran — det klassiska användningsfallet för AI‑avatarer och presentatörer.
PromptArtificiell intelligens: Instruktionen du ger modellen — oftast text, ibland tillsammans med en bild — som beskriver videon du vill att den ska skapa.
PromptteknikArtificiell intelligens: Hantverket att formulera prompts så att modellen pålitligt producerar det resultat du avser, inklusive motiv, stil, kamera och stämning.

ReferensbildAI‑video: En bild du ger modellen för att styra motiv, karaktär eller stil i den genererade videon.
Render / renderingVideo: Att bearbeta ett projekt till en färdig videofil — eller, inom artificiell intelligens, att modellen genererar bildrutor till ett slutligt klipp.
RLHFArtificiell intelligens: Reinforcement Learning from Human Feedback — träning som använder människors preferenser för att anpassa en modells utdata till vad människor faktiskt vill ha.
Rörelsekontroll / motion brushAI‑video: Verktyg som låter dig styra var och hur saker rör sig i ett genererat klipp, i stället för att lämna allt till modellen.
RöstkloningAI‑video: Att återskapa en specifik persons röst från ett kort prov så att den kan tala ny text med samma röst.

SampleringsstegArtificiell intelligens: Hur många iterationer en diffusionsmodell tar för att göra om brus till den slutliga bildrutan. Fler steg kan ge högre kvalitet men långsammare och dyrare generering.
SeedArtificiell intelligens: Startens slumptal för en generering. Återanvänd samma seed med samma prompt för att återskapa samma resultat — praktiskt för konsekvens och små justeringar.
SkärpedjupVideo: Hur stor del av bilden som är i skarp fokus. Ett kort skärpedjup suddar bakgrunden så motivet framhävs.
StilöverföringAI‑video: Att applicera den visuella stilen från en referens på ditt eget material eller din generering.
StoryboardVideo: En planerad sekvens av skisser eller rutor som kartlägger varje tagning innan du producerar eller genererar en video.
Styrskala (CFG)Artificiell intelligens: Hur strikt modellen följer din prompt jämfört med att improvisera. Högre värden håller sig närmare orden; lägre värden ger modellen mer kreativ frihet.

TagningVideo: Ett sammanhängande stycke material. Vanliga typer är helbild, halvbild och närbild.
Temporal konsistensAI‑video: Att hålla karaktärer, objekt och stil stabila mellan rutor så att videon inte flimrar, förvrids eller förändras onaturligt.
Text‑till‑tal (TTS)AI‑video: Att omvandla skriven text till naturligt talat ljud med en syntetisk röst — motorn bakom röstpålägg med artificiell intelligens.
Text‑till‑video (T2V)AI‑video: Att generera ett videoklipp direkt från en skriftlig beskrivning — ingen kamera, skådespelare eller stockmaterial krävs.
Textning / undertexterVideo: Text på skärmen av det talade ljudet. Textning noterar även ljud och talare för tillgänglighet; undertexter transkriberar eller översätter oftast dialogen.
TokenArtificiell intelligens: Den minsta biten indata som en modell bearbetar — en del av ett ord för text, eller en patch eller ruta för video.
TransformerArtificiell intelligens: En arkitektur för neurala nätverk byggd på ”attention”, som väger hur delar av indata relaterar. Ligger till grund för stora språkmodeller och många moderna videomodeller.
TräningArtificiell intelligens: Att lära en modell genom att visa enorma mängder data och gradvis justera dess interna parametrar tills den ger bra resultat.

UpplösningVideo: Antalet pixlar per bildruta, skrivet bredd × höjd (t.ex. 1920×1080). Fler pixlar ger mer detalj. Vanliga nivåer är 720p (HD), 1080p (Full HD), 4K och 8K.
UppskalningAI‑video: Att med artificiell intelligens öka en videos upplösning — säg 1080p till 4K — genom att lägga till sannolik detalj i stället för att bara sträcka pixlar.

VattenstämpelVideo: En logotyp eller text som läggs över en video för att markera ägarskap. Många gratisgeneratorer för artificiell intelligens lägger till en; betalda planer tar vanligtvis bort den.
Video‑till‑video (V2V)AI‑video: Att omvandla ett befintligt klipp till en ny stil eller look samtidigt som dess ursprungliga rörelse och timing bevaras.
VideoförlängningAI‑video: Att fortsätta ett klipp förbi dess ursprungliga längd genom att generera ytterligare rutor som följer naturligt på det befintliga.
VärldsmodellAI‑video: Ett system för artificiell intelligens som bygger en intern simulering av hur scener, objekt och fysik beter sig, vilket hjälper det att generera längre, mer sammanhängande och konsekvent video.

ÖvergångVideo: Hur en tagning går över i nästa — ett hårt klipp, en dissolv, en toning eller en wipe.

Från prompt till render: språket för AI‑video

Att skapa video med artificiell intelligens sker i skärningspunkten mellan två världar — decenniers film- och videoproduktionsvokabulär, och det snabbrörliga språket inom maskininlärning. Den här ordboken förenar båda, plus de nya begreppen som är unika för generativ video, så att du kan läsa vilket verktyg, vilken guide eller model card som helst med självförtroende.

Börja med grunderna: bildförhållande, upplösning, bildfrekvens och codecs avgör hur din video ser ut och var den kan spelas. Därefter kommer lagret med artificiell intelligens — modeller, diffusion, prompts, seeds och LoRA formar vad som faktiskt genereras. Till sist AI‑videospecifikt — text‑till‑video, bild‑till‑video, läppsynk, avatarer, temporal konsistens och världsmodeller — som beskriver vad dagens generatorer faktiskt klarar av.

Varje definition är skriven på enkel svenska, utan matematik. Sök på nyckelord, filtrera efter ämne eller bläddra A–Ö — och sätt sedan vokabulären i arbete i Vivideo‑studion.

AI‑videons ordbok

Skapa gratis Vad är AI-video?