Vigtigste indsigter
- Indbygget lyd — lyd genereret i samme omgang som videoen — er stadig undtagelsen, ikke reglen.
- Veo, Sora 2, LTX-2, WAN 2.5, PixVerse v5, Grok og de nyeste Kling-niveauer fører an på lyd i samme pass.
- Mange stærke visuelle modeller er stille som design — du lægger speak, musik eller lydeffekter på bagefter.
- Til talende hoveder og annoncer ændrer indbygget lyd + læbesynk workflowet mere end rå billedkvalitet.
Indbygget lyd vs. tilføjet lyd
Der er to meget forskellige ting, folk mener med "AI-video med lyd." Den almindelige er tilføjet lyd — du genererer et lydløst klip og lægger derefter speak, musik eller lydeffekter ovenpå. Den sjældnere og mere imponerende er indbygget lyd: Modellen syntetiserer lyden i samme genereringsomgang som billedet, så fodtrin lander på skridt, læber følger ord, og stemning matcher scenen.
Indbygget lyd er sværere og er i 2026 stadig undtagelsen. Vi tjekkede alle modeller i Vivideo for at se, hvilke der faktisk producerer lyd i samme pass, og hvilke der er stille som udgangspunkt.
Modellerne, der kan det
En håndfuld frontmodeller genererer nu indbygget lyd: Googles Veo-serie, OpenAI's Sora 2, Lightricks' LTX-2, Alibabas WAN 2.5, PixVerse v5, xAI's Grok video og de nyeste Kling-niveauer. Resten — mange af dem fremragende på bevægelse og realisme — genererer uden lyd, og du tilføjer den i post.
| Indbygget lyd | Lydløs som standard (tilføj lyd bagefter) |
|---|---|
| Veo 3.1 / Veo 3.1 Fast | Hailuo (de fleste niveauer) |
| Sora 2 / Sora 2 Pro | Luma Ray 2 |
| LTX-2 / LTX-2 Pro | Pika, Vidu |
| WAN 2.5 · PixVerse v5 · Grok | Hunyuan, CogVideoX, Marey |
Listerne er vejledende og ændrer sig hurtigt i takt med nye versioner — Vivideo holder de aktuelle kapabilitetsflag på hver model opdateret.
Hvorfor det betyder noget for dit workflow
Til ren B-roll betyder indbygget lyd næsten intet — du ville alligevel lægge musik på. Hvor det ændrer alt, er dialog og annoncer: En model, der genererer en stemme og matchende mundbevægelser i én omgang, samler en flertrins-pipeline (generér → speak → læbesynk) til en enkelt generering. For talende hoveder, UGC og annonce-skabere er det skift i workflow ofte mere værd end et marginalt løft i visuel kvalitet.
Den praktiske tommelfingerregel i Vivideo: Hvis dit klip skal tale, så start med en model med indbygget lyd; hvis det blot skal se godt ud, så vælg ud fra billedsiden og tilføj lyden i editoren.