Klíčová zjištění
- Nativní audio — zvuk generovaný ve stejném průchodu jako video — je stále výjimkou, ne standardem.
- Veo, Sora 2, LTX-2, WAN 2.5, PixVerse v5, Grok a nejnovější tarify Kling vedou v in‑pass audiu.
- Mnoho vizuálně silných modelů je z principu tichých — voiceover, hudbu či SFX vrstvíte až potom.
- Pro mluvící formáty a reklamy mění nativní audio + lip‑sync workflow víc než samotná vizuální věrnost.
Nativní vs. dodané audio
Pod pojmem „AI video se zvukem“ si lidé představují dvě odlišné věci. Běžnější je dodané audio — vygenerujete němý klip a poté na něj navrstvíte voiceover, hudební podkres nebo efekty. Vzácnější a působivější je nativní audio: model syntetizuje zvuk ve stejném průchodu jako obraz, takže kroky dopadají na došlapy, rty se hýbou podle slov a atmosféra sedí ke scéně.
Nativní audio je náročnější a v roce 2026 zůstává spíš výjimkou. Prověřili jsme každý model na Vivideo, které skutečně produkují zvuk v‑pass, a které jsou navržené jako tiché.
Modely, které to umí
Hrstka špičkových modelů dnes generuje nativní audio: řada Veo od Googlu, Sora 2 od OpenAI, LTX-2 od Lightricks, WAN 2.5 od Alibaba, PixVerse v5, Grok video od xAI a nejnovější tarify Kling. Zbytek — často výtečný v pohybu a realističnosti — renderuje bez zvuku a audio přidáte v postprodukci.
| Nativní audio | Tiché ze své podstaty (audio doplníte později) |
|---|---|
| Veo 3.1 / Veo 3.1 Fast | Hailuo (většina úrovní) |
| Sora 2 / Sora 2 Pro | Luma Ray 2 |
| LTX-2 / LTX-2 Pro | Pika, Vidu |
| WAN 2.5 · PixVerse v5 · Grok | Hunyuan, CogVideoX, Marey |
Seznamy jsou orientační a rychle se mění s novými verzemi laboratoří — Vivideo udržuje živé příznaky schopností u každého modelu.
Proč to mění váš workflow
Pro čisté B‑rolly je nativní audio téměř irelevantní — stejně byste je ozvučovali. Zásadní rozdíl dělá u dialogu a reklam: model, který v jednom průchodu vygeneruje hlas i odpovídající pohyb rtů, zkrátí vícekrokový proces (generovat → voiceover → lip‑sync) na jediný render. Pro talking‑head, UGC a tvůrce reklam má tato změna workflow často větší hodnotu než malý skok ve vizuální věrnosti.
Praktické pravidlo na Vivideo: pokud má váš klip mluvit, začněte modelem s nativním audiem; pokud má jen skvěle vypadat, vybírejte podle vizuálu a zvuk dodejte v editoru.