主な発見
- 30以上のモデルで、標準の5秒クリップは約33秒〜約540秒でレンダー—約16倍の開き。
- 中央値は約150秒。「fast/turbo」系のティアは1分未満にまとまって分布。
- レンダー時間はモデルだけでなく、解像度、尺、ネイティブ音声合成の有無で伸びる。
- モデルごとの時間推定をVivideoのローディングバーに反映。待ち時間は勘ではなく見える化。
なぜ測ったのか
新規ユーザーから最も多い質問は「どれくらい時間がかかるの?」。正直な答えはこれまで「条件次第」—モデル、解像度、長さ、ネイティブ音声の有無で変わります。だからこそ実数を出しました。Vivideoで利用可能な全モデルに同一のテキストから動画のプロンプトを与え、送信から再生可能な完成クリップまでの実時間を計測。
結果はランキングというより地図。単純な「速い/遅い」はなく、帯の中で各モデルがどこに位置するかが、試行錯誤に向くのか最終書き出しに向くのかを教えてくれます。
分布の実態
標準的な5秒クリップは、速い側で約33秒、遅い側で約9分(≈540秒)—約16倍の差。中央値は約150秒でした。最速は、わずかに画質を落としてスピードを優先する「fast」「turbo」系ティア。最も時間がかかるのは、高忠実度・長尺・4Kかつ音声付きのレンダーです。
| ティア | 標準的なレンダー時間 | 最適な用途 |
|---|---|---|
| 高速 / Turbo | ~30–60s | プロンプトの反復、下書き、SNS用の下書き |
| 標準 | ~90–180s | ほとんどの完成版SNS・マーケティング動画 |
| 高忠実度 / 4K / 音声 | ~180–540s | ヒーローショット、最終カット、シネマティックな仕上がり |
待ち時間を決める要因
最大のレバーは解像度。4Kは1080pより明確に長くかかります。次に尺。10秒は単純に5秒の2倍ではありませんが、一貫して遅くなります。ネイティブ音声合成を行うモデルでは、その分の時間も上乗せ。さらにキューの混雑も影響します。ピーク時間帯はすべてのモデルで少し遅くなるため、単一の数値ではなく帯で提示しています。
測定結果の活用
モデル別の計測値をプロダクトに統合しました。均一な「お待ちください」スピナーの代わりに、選択モデルに合わせた見積りを表示。進捗バーが現実に即して進みます。クリエイターへの実用的な提案:まずは高速ティアで反復し、プロンプトが固まったら高忠実度モデルで最終レンダー。長いレンダーは、実際に公開するテイクで一度だけ行いましょう。