Vigtigste indsigter

På tværs af 30+ modeller blev et standard 5-sekunders klip genereret på ~33s til ~540s — et 16× spænd.
Medianen var ~150 sekunder; "fast/turbo"-niveauerne lå samlet godt under et minut.
Genereringstid skalerer med opløsning, varighed og indbygget lydsyntese — ikke kun med modellen.
Estimeret tid pr. model styrer nu Vivideos statusbjælke, så ventetiden vises, ikke gættes.

Hvorfor vi målte det

Det hyppigste spørgsmål nye brugere stiller er: "Hvor lang tid tager det?" Indtil nu var det ærlige svar "det kommer an på" — på modellen, opløsningen, længden og om klippet har indbygget lyd. Vi ville have et reelt svar, så vi målte den samme standard tekst-til-video-prompt på alle modeller tilgængelige i Vivideo og registrerede væg-ur-tiden fra afsendelse til et færdigt, afspilningsklart klip.

Resultatet er mindre en rangliste end et kort: der findes ikke ét "hurtigt" eller "langsomt" — der er et bånd, og hvor en model ligger i det bånd fortæller dig, hvad du skal vælge, når du itererer, versus når du laver din endelige eksport.

Spændet

Et standard 5-sekunders klip blev genereret på cirka 33 sekunder i den hurtige ende og tæt på 9 minutter (≈540s) i den langsomme — omkring 16× forskel. Medianen landede nær 150 sekunder. De hurtigste resultater kom fra "fast"- og "turbo"-niveauerne, der bytter en smule kvalitet for hastighed; de langsomste var gengivelser med højest kvalitet, længere varighed og 4K med lyd.

Målt tekst-til-video genereringstid for en standard 5s prompt (Vivideo, 2026). Indikative intervaller; præcise tider varierer med købelastning.
Niveau	Typisk renderingstid	Bedst til
Hurtig / Turbo	~30–60s	Iteration på prompts, udkast, sociale udkast
Standard	~90–180s	De fleste færdige sociale og marketingklip
Høj kvalitet / 4K / lyd	~180–540s	Hero-shots, endelige klip, filmisk output

Hvad der faktisk driver ventetiden

Opløsning er den største faktor: 4K tager markant længere end 1080p. Varighed er næste — et 10-sekunders klip er ikke bare dobbelt så langt som 5 sekunder, men det er konsekvent langsommere. Indbygget lydsyntese lægger tid til på de modeller, der producerer den. Og købelastning betyder noget: i spidsbelastning er alle modeller lidt langsommere, hvilket er grunden til, at vi rapporterer intervaller, ikke enkeltværdier.

Hvad vi gjorde med det

Vi indbyggede målingerne pr. model direkte i produktet. I stedet for en flad "vent venligst"-spinner viser Vivideo nu et indlæsningsestimat kalibreret til den model, du valgte — så statusbjælken afspejler virkeligheden. Den praktiske konklusion for skabere: iterér på et hurtigt niveau, og generér så din endelige version på høj-kvalitetsmodellen, når prompten sidder. Du bruger den lange generering én gang — på det take, du faktisk vil udgive.

Emir Göcen

Medstifter, Vivideo

Benchmark for genereringstid i AI-video: 30 modeller, målt

Hvorfor vi målte det

Spændet

Hvad der faktisk driver ventetiden

Hvad vi gjorde med det

Prøv alle modeller selv