Hovedfunn

På tvers av 30+ modeller rendret et standard 5-sekunders klipp på ~33s til ~540s — et 16× sprik.
Median rendertid var ~150 sekunder; «fast/turbo»-nivåene lå godt under ett minutt.
Rendertid skalerer med oppløsning, varighet og innebygd lydsyntese — ikke bare selve modellen.
Tidsestimat per modell driver nå lasteindikatoren i Vivideo, så ventetiden vises — ikke gjettes.

Hvorfor vi målte dette

Det aller vanligste spørsmålet nye brukere stiller er «hvor lang tid tar dette?». Frem til nå var det ærlige svaret «det kommer an på» — på modellen, oppløsningen, lengden og om klippet har innebygd lyd. Vi ville ha et reelt svar, så vi tidtatt den samme standard tekst-til-video-profilen på alle modellene tilgjengelig i Vivideo og registrerte klokketid fra innsending til et ferdig, spillbart klipp.

Resultatet er mer et kart enn en resultatliste: det finnes ikke ett «raskt» eller «tregt» — det finnes et spenn, og hvor en modell ligger i dette spennet forteller deg hva du bør bruke når du itererer, versus når du rendrer en endelig versjon.

Spennet

Et standard 5-sekunders klipp rendret på omtrent 33 sekunder i raskeste ende og nær 9 minutter (≈540s) i tregeste — rundt 16× forskjell. Medianen landet rundt 150 sekunder. De raskeste resultatene kom fra «fast»- og «turbo»-nivåer som bytter litt kvalitet mot fart; de tregeste var rendere med høyest kvalitet, lengre varighet og 4K med lyd.

Målt rendertid for tekst-til-video på en standard 5s-profil (Vivideo, 2026). Veiledende bånd; eksakte tider varierer med købelastning.
Nivå	Typisk rendertid	Best egnet til
Rask / Turbo	~30–60s	Iterering på prompts, utkast, sosiale utkast
Standard	~90–180s	De fleste ferdige sosiale og markedsføringsklipp
Høy kvalitet / 4K / lyd	~180–540s	Hero-shots, endelige klipp, filmatisk output

Hva som faktisk driver ventetiden

Oppløsning er den største vippen: 4K-rendere tar vesentlig lenger tid enn 1080p. Varighet er neste — et 10-sekunders klipp er ikke bare dobbelt så tregt som 5 sekunder, men det er konsekvent langsommere. Innebygd lydsyntese legger til tid på modellene som produserer den. Og købelastning betyr noe: på rushtider er alle modeller litt tregere, derfor rapporterer vi bånd, ikke enkelttall.

Hva vi gjorde med innsikten

Vi bygde målingene per modell inn i produktet. I stedet for en flat «vennligst vent»-spinner viser Vivideo nå et lasteestimat kalibrert til modellen du valgte — slik at fremdriftslinjen speiler virkeligheten. Praktisk for skapere: iterer på et raskt nivå, og rendr finalen på høy-kvalitetsmodellen når prompten sitter. Da bruker du den lange rendringen én gang — på opptaket du faktisk skal publisere.

Emir Göcen

Medgründer, Vivideo

Tidsbenchmark for generering av AI-video: 30 modeller, målt

Hvorfor vi målte dette

Spennet

Hva som faktisk driver ventetiden

Hva vi gjorde med innsikten

Prøv alle modellene selv