Ordlista

AI‑videons ordbok

Alla begrepp du möter när du gör video med artificiell intelligens (AI) — från kamerans och codecens grunder till diffusion, avatarer och agentisk generering — förklarade på enkel svenska.

74 termer · Video · Artificiell intelligens · AI‑video

74 termer
Agentisk videoAI‑video
En intelligent agent som planerar och driver hela produktionen — manus, scener, röst, avatarer och klipp — från en enda brief, i stället för ett klipp i taget.
AI‑avatarAI‑video
En avatar skapad med artificiell intelligens eller klonad presentatör i bild som kan framföra ditt manus med vald röst och på valt språk.
AI‑dubbningAI‑video
Att ersätta eller lägga till talat ljud på ett annat språk, helst matchat mot talarens röst och munrörelser.
B‑rollVideo
Kompletterande material som klipps in över huvudtaget för att ge kontext, illustrera en poäng eller dölja ett klipp.
Bild‑till‑video (I2V)AI‑video
Att ge liv åt en stillbild som video, ofta styrt av en prompt som beskriver den rörelse du vill ha.
Bildfrekvens (FPS)Video
Bilder per sekund — hur många stillbilder som spelas upp varje sekund. 24fps känns filmiskt, 30fps är standard på webben och 60fps ser supersmidigt ut för rörelse och sport.
BildförhållandeVideo
Förhållandet mellan bildens bredd och höjd — 16:9 (widescreen), 9:16 (vertikalt för Reels och TikTok) eller 1:1 (kvadrat). Det avgör hur din video passar varje plattform och skärm.
Bildruta‑interpoleringAI‑video
Att generera mellanliggande rutor för att höja bildfrekvensen eller jämna ut rörelse — till exempel att göra 24fps till silkeslena 60fps.
BithastighetVideo
Hur mycket data som används per sekund video, mätt i kbps eller Mbps. Högre bithastighet bevarar fler detaljer men ger större filer.
BokehVideo
Den mjuka, behagliga oskärpan i bakgrunden av en tagning, ofta återgiven som glödande ljuscirklar.
CheckpointArtificiell intelligens
En sparad ögonblicksbild av en modells vikter. Checkpoints delas ofta som den nedladdningsbara ”modelfilen” som man kör.
CodecVideo
Algoritmen som komprimerar och avkomprimerar video — till exempel H.264, H.265/HEVC, AV1 eller VP9. Den balanserar visuell kvalitet mot filstorlek.
Container (filformat)Video
Filhöljet som håller ihop video, ljud och metadata — MP4, MOV, WebM eller MKV. Det är skilt från codec:en som ligger inuti.
DatasettArtificiell intelligens
Samlingen av exempel — videor, bilder, text — som en modell tränas på. Dess kvalitet och variation formar vad modellen kan göra.
DeepfakeAI‑video
Syntetiskt media som realistiskt byter ut eller fabricerar någons ansikte eller röst. Kraftfullt, men väcker verkliga frågor om samtycke, autenticitet och juridik.
DiffusionsmodellArtificiell intelligens
Den dominerande metoden bakom bilder och video med artificiell intelligens: modellen börjar från slumpmässigt brus och tar bort det steg för steg tills ett sammanhängande resultat som matchar din prompt framträder.
Digital människa / digital tvillingAI‑video
En fotorealistisk AI‑kopia av en verklig person, tränad en gång och återanvänd som presentatör framför kameran.
DjupinlärningArtificiell intelligens
Maskininlärning som använder flerskiktade neurala nätverk. Driver dagens bild-, video-, röst- och språkmodeller.
EtableringsbildVideo
En vidöppnande tagning som sätter plats och sammanhang i en scen innan du klipper närmare.
Finjustering (fine‑tuning)Artificiell intelligens
Ytterligare träning av en baskomponent för att specialisera den — för en viss stil, ett varumärke eller en person.
Färgkorrigering (colour grading)Video
Det kreativa steget i efterbearbetningen där färg, kontrast och känsla justeras för att ge materialet ett enhetligt, avsiktligt utseende.
Första och sista rutaAI‑video
Att ange en startruta och/eller en slutruta som modellen animerar mellan, vilket ger dig exakt kontroll över en tagnings början och slut.
GANArtificiell intelligens
Generative Adversarial Network — en tidigare metod där en generator och ett kritiskt nätverk tävlar. Har till stor del ersatts av diffusion för högkvalitativ video.
GrundmodellArtificiell intelligens
En stor, generell modell tränad på bred data som kan anpassas till många efterföljande uppgifter.
HallucinationArtificiell intelligens
När en modell producerar självsäkert men felaktigt eller påhittat innehåll — som förvrängd text, extra fingrar eller omöjlig rörelse.
HDR (High Dynamic Range)Video
Video med större omfång i ljus och färg än standard (SDR), för mer naturtrogna högdagrar, skuggor och rikare toner.
Inbäddning (embedding)Artificiell intelligens
En lista av tal (en vektor) som fångar innebörden i text, en bild eller ljud, så att modellen kan jämföra och kombinera olika indata.
InferensArtificiell intelligens
Att köra en redan tränad modell för att producera en utdata — till exempel att generera din video från en prompt. Det är detta du betalar per generering för.
Inpainting / outpaintingAI‑video
Att fylla i en del av en ruta (inpainting) eller utvidga bortom kanterna (outpainting). I video används det för att ta bort, ersätta eller utöka områden över tid.
KamerakontrollAI‑video
Att styra virtuella kamerarörelser — pan, zoom, orbit, dolly — inom en AI‑genererad tagning.
KompositingVideo
Att lägga flera visuella element — film, grafik, effekter, text — i lager till en enda sammansatt bildruta.
Kromanyckel (green screen)Video
Att ersätta en enfärgad bakgrund — oftast grön — med en annan bild eller video genom att göra färgen transparent.
Latent utrymmeArtificiell intelligens
En komprimerad matematisk representation där modellen faktiskt arbetar. Genereringen sker här först och avkodas sedan till synliga pixlar.
LetterboxingVideo
Svarta fält som läggs ovanför och under (eller vid sidan av) en video så att den passar ett annat bildförhållande utan att beskäras.
LoRAArtificiell intelligens
Low‑Rank Adaptation — ett lättviktigt sätt att lära en modell en ny stil, karaktär eller ett nytt koncept med en liten tilläggsfil, i stället för att träna om hela modellen.
LUT (Look-Up Table)Video
En förinställning som ommappas färger för att ge en specifik look med ett klick, eller för att konvertera material mellan färgrymder.
LäppsynkAI‑video
Att matcha en karaktärs eller avatars munrörelser till det talade ljudet så att det ser ut som att de verkligen säger orden.
ModellArtificiell intelligens
Ett tränat system för artificiell intelligens som omvandlar en indata — som en textprompt — till en utdata, som en video. Olika modeller har olika styrkor, hastigheter och priser.
Modell med öppna vikterArtificiell intelligens
En modell vars vikter publiceras så att vem som helst kan köra, studera eller finjustera den (t.ex. på fal eller lokalt), till skillnad från en sluten modell som bara nås via en API.
MultimodalArtificiell intelligens
En modell som förstår eller genererar mer än en typ av data samtidigt — till exempel text, bild, video och ljud tillsammans.
Nedre tredjedelVideo
Text placerad i den nedre delen av bilden, vanligtvis en talares namn och titel eller en bildtext.
Negativ promptArtificiell intelligens
En beskrivning av vad du INTE vill ha i resultatet. Den styr modellen bort från oönskade objekt, stilar eller artefakter.
Neuralt nätverkArtificiell intelligens
En modell löst inspirerad av hjärnan: lager av sammanlänkade ”neuroner” som lär sig mönster från data. Det är grunden för modern generativ artificiell intelligens.
NyckelrutaVideo
I redigering: en markerad ruta som sätter ett värde (position, skala, opacitet) som programmet animerar mellan. I komprimering: en fullständig referensruta som närliggande rutor återskapas från.
Parametrar (vikter)Artificiell intelligens
De interna talen som en modell lär sig under träning. De lagrar vad modellen ”vet”; fler parametrar kan innebära högre kapacitet.
Pratande huvudAI‑video
En video som kretsar kring en person som talar mot kameran — det klassiska användningsfallet för AI‑avatarer och presentatörer.
PromptArtificiell intelligens
Instruktionen du ger modellen — oftast text, ibland tillsammans med en bild — som beskriver videon du vill att den ska skapa.
PromptteknikArtificiell intelligens
Hantverket att formulera prompts så att modellen pålitligt producerar det resultat du avser, inklusive motiv, stil, kamera och stämning.
ReferensbildAI‑video
En bild du ger modellen för att styra motiv, karaktär eller stil i den genererade videon.
Render / renderingVideo
Att bearbeta ett projekt till en färdig videofil — eller, inom artificiell intelligens, att modellen genererar bildrutor till ett slutligt klipp.
RLHFArtificiell intelligens
Reinforcement Learning from Human Feedback — träning som använder människors preferenser för att anpassa en modells utdata till vad människor faktiskt vill ha.
Rörelsekontroll / motion brushAI‑video
Verktyg som låter dig styra var och hur saker rör sig i ett genererat klipp, i stället för att lämna allt till modellen.
RöstkloningAI‑video
Att återskapa en specifik persons röst från ett kort prov så att den kan tala ny text med samma röst.
SampleringsstegArtificiell intelligens
Hur många iterationer en diffusionsmodell tar för att göra om brus till den slutliga bildrutan. Fler steg kan ge högre kvalitet men långsammare och dyrare generering.
SeedArtificiell intelligens
Startens slumptal för en generering. Återanvänd samma seed med samma prompt för att återskapa samma resultat — praktiskt för konsekvens och små justeringar.
SkärpedjupVideo
Hur stor del av bilden som är i skarp fokus. Ett kort skärpedjup suddar bakgrunden så motivet framhävs.
StilöverföringAI‑video
Att applicera den visuella stilen från en referens på ditt eget material eller din generering.
StoryboardVideo
En planerad sekvens av skisser eller rutor som kartlägger varje tagning innan du producerar eller genererar en video.
Styrskala (CFG)Artificiell intelligens
Hur strikt modellen följer din prompt jämfört med att improvisera. Högre värden håller sig närmare orden; lägre värden ger modellen mer kreativ frihet.
TagningVideo
Ett sammanhängande stycke material. Vanliga typer är helbild, halvbild och närbild.
Temporal konsistensAI‑video
Att hålla karaktärer, objekt och stil stabila mellan rutor så att videon inte flimrar, förvrids eller förändras onaturligt.
Text‑till‑tal (TTS)AI‑video
Att omvandla skriven text till naturligt talat ljud med en syntetisk röst — motorn bakom röstpålägg med artificiell intelligens.
Text‑till‑video (T2V)AI‑video
Att generera ett videoklipp direkt från en skriftlig beskrivning — ingen kamera, skådespelare eller stockmaterial krävs.
Textning / undertexterVideo
Text på skärmen av det talade ljudet. Textning noterar även ljud och talare för tillgänglighet; undertexter transkriberar eller översätter oftast dialogen.
TokenArtificiell intelligens
Den minsta biten indata som en modell bearbetar — en del av ett ord för text, eller en patch eller ruta för video.
TransformerArtificiell intelligens
En arkitektur för neurala nätverk byggd på ”attention”, som väger hur delar av indata relaterar. Ligger till grund för stora språkmodeller och många moderna videomodeller.
TräningArtificiell intelligens
Att lära en modell genom att visa enorma mängder data och gradvis justera dess interna parametrar tills den ger bra resultat.
UpplösningVideo
Antalet pixlar per bildruta, skrivet bredd × höjd (t.ex. 1920×1080). Fler pixlar ger mer detalj. Vanliga nivåer är 720p (HD), 1080p (Full HD), 4K och 8K.
UppskalningAI‑video
Att med artificiell intelligens öka en videos upplösning — säg 1080p till 4K — genom att lägga till sannolik detalj i stället för att bara sträcka pixlar.
VattenstämpelVideo
En logotyp eller text som läggs över en video för att markera ägarskap. Många gratisgeneratorer för artificiell intelligens lägger till en; betalda planer tar vanligtvis bort den.
Video‑till‑video (V2V)AI‑video
Att omvandla ett befintligt klipp till en ny stil eller look samtidigt som dess ursprungliga rörelse och timing bevaras.
VideoförlängningAI‑video
Att fortsätta ett klipp förbi dess ursprungliga längd genom att generera ytterligare rutor som följer naturligt på det befintliga.
VärldsmodellAI‑video
Ett system för artificiell intelligens som bygger en intern simulering av hur scener, objekt och fysik beter sig, vilket hjälper det att generera längre, mer sammanhängande och konsekvent video.
ÖvergångVideo
Hur en tagning går över i nästa — ett hårt klipp, en dissolv, en toning eller en wipe.

Från prompt till render: språket för AI‑video

Att skapa video med artificiell intelligens sker i skärningspunkten mellan två världar — decenniers film- och videoproduktionsvokabulär, och det snabbrörliga språket inom maskininlärning. Den här ordboken förenar båda, plus de nya begreppen som är unika för generativ video, så att du kan läsa vilket verktyg, vilken guide eller model card som helst med självförtroende.

Börja med grunderna: bildförhållande, upplösning, bildfrekvens och codecs avgör hur din video ser ut och var den kan spelas. Därefter kommer lagret med artificiell intelligens — modeller, diffusion, prompts, seeds och LoRA formar vad som faktiskt genereras. Till sist AI‑videospecifikt — text‑till‑video, bild‑till‑video, läppsynk, avatarer, temporal konsistens och världsmodeller — som beskriver vad dagens generatorer faktiskt klarar av.

Varje definition är skriven på enkel svenska, utan matematik. Sök på nyckelord, filtrera efter ämne eller bläddra A–Ö — och sätt sedan vokabulären i arbete i Vivideo‑studion.