主な発見
- ネイティブ音声(動画と同じ生成パスで音を出す)は、いまだ少数派です。
- Veo、Sora 2、LTX-2、WAN 2.5、PixVerse v5、Grok、そして最新の Kling の上位ティアがインパス音声で先行しています。
- 映像性能に優れたモデルでも、設計上サイレントのものは多く、音声・音楽・効果音は後から重ねます。
- トーキングヘッドや広告では、ネイティブ音声+リップシンクがワークフローを大きく変え、画質の微差以上の価値を生みます。
ネイティブ音声 vs 追加音声
「音付きのAI動画」には実は2種類あります。一般的なのは追加音声型で、無音のクリップを生成し、その上にナレーションやBGM、効果音を重ねます。もう一方の、より珍しく強力なのがネイティブ音声型。モデルが映像と同じ生成パス内で音を合成するため、足音は歩みに同期し、口の動きは言葉に合い、環境音もシーンに溶け込みます。
ネイティブ音声は難易度が高く、2026年時点でも例外的な存在です。Vivideo上の全モデルを確認し、同一パスで音を出すものと、設計上サイレントのものを見極めました。
対応しているモデル
いまネイティブ音声を生成できるフロンティアモデルは一握りです。Google系の Veo ライン、OpenAI の Sora 2、Lightricks の LTX-2、Alibaba の WAN 2.5、PixVerse v5、xAI の Grok video、そして最新の Kling ティア。その他の多くの優秀な映像モデルはサイレントで、音はポストで加えます。
| ネイティブ音声 | 仕様上サイレント(後から音声を追加) |
|---|---|
| Veo 3.1 / Veo 3.1 Fast | Hailuo(ほとんどのティア) |
| Sora 2 / Sora 2 Pro | Luma Ray 2 |
| LTX-2 / LTX-2 Pro | Pika, Vidu |
| WAN 2.5 · PixVerse v5 · Grok | Hunyuan, CogVideoX, Marey |
リストは目安で、各ラボの新バージョンで状況は頻繁に更新されます。Vivideoでは各モデルのライブ機能フラグを常に最新に保っています。
ワークフローに効く理由
Bロール用途では、ネイティブ音声の重要度は高くありません——どうせ後でスコアリングするからです。真価を発揮するのはセリフや広告。声と口の動きを一発で揃えるモデルなら、(生成→ボイスオーバー→リップシンク)という多段パイプラインが単一レンダーにまとまり、手戻りが激減します。トーキングヘッド、UGC、広告制作者にとって、この変化は画質の微改善以上の価値があります。
Vivideoでの実務ルールはシンプル。クリップが“話す”必要があるなら、まずネイティブ音声対応モデルを。見映えだけ重視なら、映像で選び、音はエディターで足しましょう。