핵심 발견
- 네이티브 오디오 — 영상과 같은 패스에서 생성되는 소리 — 는 아직 일반적이라기보다 예외입니다.
- Veo, Sora 2, LTX-2, WAN 2.5, PixVerse v5, Grok, 최신 Kling 티어가 인패스 오디오를 선도합니다.
- 시각적으로 뛰어난 모델 중 상당수는 설계상 무음 — 이후에 내레이션, 음악, 효과음을 얹습니다.
- 토킹헤드와 광고 작업에서는 네이티브 오디오와 립싱크가 원본 충실도보다 워크플로우를 더 크게 바꿉니다.
네이티브 오디오 vs. 사후 오디오
사람들이 말하는 "소리 있는 인공지능 영상"에는 두 가지가 있습니다. 더 흔한 것은 사후 오디오 — 무음 클립을 만든 뒤 그 위에 보이스오버, 배경음악, 효과음을 얹는 방식입니다. 더 드물고 인상적인 것은 네이티브 오디오입니다: 모델이 영상과 같은 생성 패스에서 소리를 합성해, 발소리와 보행 타이밍이 맞고, 입 모양이 대사와 맞으며, 공간음이 장면과 일치합니다.
네이티브 오디오는 더 어렵고, 2026년 현재 여전히 예외적입니다. 우리는 Vivideo의 모든 모델을 점검해 인패스에서 실제로 소리를 내는지, 아니면 설계상 무음인지 확인했습니다.
네이티브로 되는 모델들
이제 소수의 프런티어 모델이 네이티브 오디오를 생성합니다: Google의 Veo 라인, OpenAI의 Sora 2, Lightricks의 LTX-2, Alibaba의 WAN 2.5, PixVerse v5, xAI의 Grok video, 그리고 최신 Kling 티어입니다. 나머지 — 움직임과 리얼리즘이 뛰어난 모델도 많지만 — 는 무음으로 렌더링되며, 오디오는 후반에 추가합니다.
| 네이티브 오디오 | 설계상 무음 (나중에 오디오 추가) |
|---|---|
| Veo 3.1 / Veo 3.1 Fast | Hailuo (대부분 등급) |
| Sora 2 / Sora 2 Pro | Luma Ray 2 |
| LTX-2 / LTX-2 Pro | Pika, Vidu |
| WAN 2.5 · PixVerse v5 · Grok | Hunyuan, CogVideoX, Marey |
목록은 참고용이며, 연구소의 신규 버전 출시로 빠르게 변합니다 — Vivideo는 각 모델의 실시간 기능 플래그를 유지합니다.
워크플로우에 왜 중요한가
순수 B-roll에서는 네이티브 오디오의 중요도가 낮습니다 — 어차피 배경음을 입힐 테니까요. 판도가 바뀌는 곳은 대화와 광고입니다: 하나의 패스에서 목소리와 일치하는 입 모양을 함께 생성하는 모델은 (생성 → 보이스오버 → 립싱크)의 다단 파이프라인을 단일 렌더로 접습니다. 토킹헤드, UGC, 광고 크리에이터에겐 이 워크플로우 변화가 미세한 시각 충실도 향상보다 더 큰 가치를 줍니다.
Vivideo에서의 실전 규칙: 클립이 ‘말해야’ 한다면 네이티브 오디오 모델부터 시작하세요. 보기만 좋아도 된다면 시각 기준으로 모델을 고르고, 사운드는 에디터에서 얹으면 됩니다.