关键要点
- 1文本转视频占所有订单的65.7%,而图像转视频占32.6%
- 288.2%的AI视频是生成的场景——不是头像,不是动画,而是从文本中完全想象的世界
- 3AI视频创作真正是全球性的:提示使用24种以上语言,英语仅占47.3%
- 4Veo 3.1占据96.4%的模型使用率,显示出在AI视频模型竞赛中的明显赢家
- 516:9横屏(52.8%)略微领先于9:16竖屏(43.7%),实时显示TikTok与YouTube的分歧
Vivideo 团队
Vivideo 团队致力于通过 AI 让每个人都能轻松创建视频。我们测试并评测最新工具,分享我们的知识以帮助您取得成功。
我们分析了超过40,000个AI视频提示
每个人对AI视频都有自己的看法。评论员预测它的未来。Twitter上争论它是否“足够好”。YouTube缩略图大声宣传最新的模型更新。
但几乎没有人谈论人们现在实际上在用这些工具制作什么。
所以我们决定找出答案。
我们从Vivideo提取了超过120,000个AI生成的视频的数据,使用GPT-4o-mini对40,000+个提示进行了分类,并进行了数据分析。结果呈现出一个令人惊讶的详细画像,展示了真实的人——不是影响者,不是研究人员,而是普通的创作者和企业——在2025年如何使用AI视频。
以下是我们发现的所有内容。
数据集:我们如何获得这些数字
让我们先介绍一下方法论,以便您确切知道您在查看什么。
我们的完整数据集涵盖了120,000+个视频,这些视频是通过Vivideo的平台生成的。为了进行详细的提示分析,我们对915个提示进行了分层抽样,并通过GPT-4o-mini进行了分类,分为使用案例类别。更广泛的统计数据——模型使用情况、纵横比、时长、语言和输入类型——来自完整的数据集。
我们没有挑选数据。我们没有过滤“令人印象深刻”的输出。这是来自真实用户进行真实工作的原始、未过滤的数据(是的,其中一些是人们为他们的妈妈制作生日视频——这很好)。
有几点需要注意:AI的提示分类并不完美。有些提示是模糊的。“带有一个人说话的产品视频”可以标记为产品演示或头像视频。我们优化了最可能的意图,并手动检查了数百个分类。
话虽如此,让我们深入探讨。
大局:文本到视频与图像到视频
我们问的第一个问题很简单:人们是如何开始他们的视频的?
他们是从头开始输入提示吗?还是上传一张图片并让它栩栩如生?
65.7%的所有视频订单是文本到视频。32.6%是图像到视频。剩下的~1.7%使用其他方法,如头像生成。
这有点令人惊讶。我们原本预计图像到视频会更高——毕竟,这可以说是“更容易”,因为您给AI一个视觉起点。但数据讲述了一个不同的故事:三分之二的用户更喜欢用文字描述他们的愿景,让AI来处理视觉效果。
为什么?有几个理论:
- 入门门槛更低。您不需要拥有或找到合适的图像。您只需输入您想要的内容。文本到视频是终极的空白画布。
- 更多的创意控制。文本提示让您可以指定情绪、相机运动、照明和风格——这些通过静态图像更难以传达。
- “想象差距”。许多用户正在创造尚不存在的场景——幻想世界、产品概念、叙事序列。您无法上传尚未建造的东西的照片。
话虽如此,图像到视频也有其忠实的受众。它在电子商务产品动画、房地产导览(从物业照片开始)和让艺术作品栩栩如生方面特别受欢迎。
人们实际创造的内容(使用案例细分)
这是我们最兴奋的部分。当我们按使用案例对所有915个样本提示进行分类时,有一个类别绝对占主导地位。
| 使用案例 | 百分比 |
|---|---|
| AI生成的视频场景 | 88.2% |
| 头像/说话头视频 | 7.1% |
| 图像动画 | 4.7% |
让我们消化一下。近90%的AI视频是完全生成的场景——不是某人的脸对着镜头说话,不是照片上的肯·伯恩斯效果,而是从文本描述中召唤出的完整视觉场景。
这是2025年AI视频的真实故事:人们将其用作视觉想象引擎。
这些场景实际上是什么样的
我们深入研究了88.2%的内容,以了解人们正在生成什么样的场景。虽然这些类别是重叠的(宣传视频也可以是叙事视频),但以下是我们观察到的主要模式:
- 宣传视频——企业创建广告、品牌视频和营销内容。从当地餐厅宣传到SaaS产品发布。
- 教育内容——解释视频、教程和“它是如何工作的”序列。教师、课程创作者和企业培训师是早期的强力用户。
- 社交媒体内容——为TikTok、Instagram Reels和YouTube Shorts设计的短小精悍的片段。通常是趋势驱动的,旨在最大限度地吸引注意。
- 讲故事和叙事——短片、音乐视频概念和叙事序列。这是最具创意的提示所在——人们在4-12秒内构建整个世界。
- 产品演示——电子商务卖家在生活方式背景中展示产品。“展示我的运动鞋在日落时被一名跑步者穿着”——就是这种感觉。
- 个人问候和庆祝活动——生日祝福、节日贺卡、周年纪念惊喜。AI视频作为新的贺卡。
- 房地产导览——虚拟物业导览、社区展示和建筑可视化。
- 电子商务产品展示——产品美丽镜头、360°风格展示和使产品看起来高档的生活方式视频。
头像/说话头类别(7.1%)比您预期的要小,考虑到关于AI头像的所有热议。这部分是因为头像生成是一个专业的使用案例——它需要不同的工作流程,并吸引更窄的受众(主要是企业培训和个性化销售推广)。
图像动画占4.7%,代表那些上传静态照片并添加运动的用户——这是让艺术作品、旧照片或产品图像栩栩如生的热门选择。
AI视频的语言:一种24种语言的现象
这里有一些真正让我们感到惊讶的事情。如果您认为AI视频创作主要是英语活动,数据却表明情况并非如此。
英语仅占所有提示的47.3%。这意味着在Vivideo上,超过一半的AI视频提示是用非英语语言编写的。
这不仅仅是“有一点国际化”。这是一个全球现象,各大洲都有显著的采用。
| 语言 | 提示的百分比 |
|---|---|
| 英语 | 47.3% |
| 越南语 | 23.1% |
| 阿拉伯语 | 11.4% |
| 俄语 | 3.2% |
| 土耳其语 | 2.7% |
| 德语 | 2.2% |
| 乌克兰语 | 1.9% |
| 印尼语 | 1.7% |
| 西班牙语 | 1.3% |
| 荷兰语 | 0.9% |
| 希伯来语 | 0.7% |
| 波兰语 | 0.7% |
| 中文 | 0.6% |
| 葡萄牙语 | 0.6% |
| 瑞典语 | 0.5% |
| 希腊语 | 0.4% |
有几点值得注意:
越南语占23.1%是巨大的。几乎四分之一的提示是用越南语编写的。这反映了越南蓬勃发展的数字创作者经济和对内容创作AI工具的早期采用。越南创作者正在使用AI视频进行从电子商务产品视频到大规模社交媒体内容的各种创作。
阿拉伯语占11.4%使得中东和北非地区成为最活跃的AI视频市场之一。考虑到海湾国家正在迅速进行数字转型以及对AI基础设施的巨大投资,这一趋势是合理的。
长尾效应是真实存在的。除了主要语言之外,俄语、土耳其语、德语、乌克兰语、印尼语等语言也有显著的活动。AI视频并不是硅谷的玩具——它是一个全球创意工具。
这对任何在这个领域构建的人都有重大影响:如果您的AI视频工具仅能很好地处理英语提示,那么您就忽视了超过一半的潜在用户。
格式偏好:纵横比和时长
人们如何格式化他们的视频可以告诉您很多关于这些视频将要去往何处的信息。
纵横比
| 纵横比 | 百分比 |
|---|---|
| 16:9(横向) | 52.8% |
| 9:16(纵向) | 43.7% |
| 1:1(正方形) | ~0% |
横向与纵向的比例非常接近——52.8%对43.7%——这告诉我们一个重要的信息:横向视频与纵向视频之间的竞争基本上是抛硬币的结果。
横向视频仍然占主导地位,可能是由于YouTube、网站嵌入、演示和传统营销内容的推动。但纵向视频紧随其后,受到TikTok、Instagram Reels和YouTube Shorts的推动。
真正令人震惊的是:正方形视频(1:1)实际上已经死了。大约0%的用户不再制作正方形视频。Instagram的旧正方形格式,曾是社交媒体的默认格式,已经在AI视频时代完全被抛弃。
视频时长
| 时长 | 百分比 |
|---|---|
| 12秒 | 30.1% |
| 4秒 | 29.2% |
| 8秒 | 23.3% |
| 6秒 | 6.6% |
时长偏好揭示了一个有趣的两派分裂:
第一派:12秒团队(30.1%)。这些用户希望获得最大可用时长。他们正在创建叙事内容、产品演示和宣传视频,每一秒都至关重要。十二秒足以讲述一个迷你故事:设置、揭示、回报。
第二派:4秒团队(29.2%)。这些用户希望快速、精悍的片段——非常适合社交媒体钩子、广告创意,或将多个片段叠加成更长的编辑。四秒基本上是一个强有力的视觉时刻。
8秒的中间地带(23.3%)捕捉了那些希望比4秒多一点呼吸空间但又不需要完整12秒的用户。6秒视频(6.6%)的相对低人气很有趣——似乎人们更喜欢选择“短”或“长”,而不是在两者之间徘徊。
模型竞赛:Veo 3.1遥遥领先
如果从整个分析中提取出一个头条统计数据,那可能就是这个:
Veo 3.1驱动了Vivideo上96.4%的所有AI视频生成。
这不是一个错字。谷歌的Veo 3.1模型是AI视频创作的压倒性选择。
| 模型 | 使用百分比 |
|---|---|
| Veo 3.1 | 96.4% |
| Sora 2 | 2.0% |
| HeyGen(头像) | 所有订单的10.5% |
注意:HeyGen头像生成被单独计算,因为它服务于不同的功能(数字头像与场景生成)。其10.5%的份额与我们使用案例分析中的头像类别重叠。
为什么Veo 3.1如此完全主导?根据用户反馈和我们的测试:
- 视觉质量。Veo 3.1始终生成最逼真和视觉上连贯的输出。
- 提示遵循。它更忠实地遵循复杂的提示——相机运动、照明规格、风格指令。
- 速度。生成时间具有竞争力,质量与速度的比率是同类最佳。
- 一致性。较少的“奇怪的AI伪影”——更少的融化手、不可思议的物理现象和令人不安的时刻。
Sora 2的2.0%仍然有其粉丝,特别是对于更艺术和风格化的内容。但市场已经发声,至少在目前:当人们想要可靠的高质量AI视频时,他们选择Veo 3.1。
令人惊讶的发现
每一个好的数据分析都会发现一些意想不到的事情。以下是让我们感到惊讶的模式。
1. 9%的内容审核率
大约9%的所有提示被内容审核系统标记为成人或不当内容。这实际上低于行业内许多人的预期——一些估计将AI图像生成器的成人内容尝试率定为15-20%。
这意味着什么?AI视频创作比AI图像生成更偏向于专业和目的明确。当您为视频生成付费(而不是玩免费的图像工具)时,意图更为严肃,使用案例更为商业化。
2. 生日卡效应
个人问候——生日、节日、周年纪念——出现的频率远超我们的预期。这些并不是在AI演示片段中展示的华丽用例,但它们代表了这项技术的真正温暖应用。人们正在创建个性化的视频消息,这在两年前是不可能的(或成本过高的)。
3. 正方形视频的消亡
我们已经提到过这一点,但值得重申:1:1的正方形视频实际上为0%。曾在2012-2019年主导Instagram的格式已经被完全抛弃。如果您的视频工具仍然默认使用正方形格式,那么您正在解决昨天的问题。
4. 越南创作者经济
在所有提示中占23.1%的越南语不仅仅是被代表——它是第二大流行语言,与第三名的阿拉伯语(11.4%)相比,差距巨大。越南的创作者经济显然处于一个拐点,AI视频工具是一个关键的加速器。
5. 没有人想要6秒的视频
仅占6.6%的订单,6秒格式是最不受欢迎的时长。用户强烈偏好短小精悍(4秒)或长格式(12秒)。中间地带似乎并不受欢迎。这与我们在社交媒体趋势中看到的情况相似——内容要么是快速的钩子,要么是迷你叙事,几乎没有中间的空间。
这对创作者意味着什么
所以您已经看到了数据。您实际上应该做什么?
无论您是营销人员、内容创作者、企业主,还是只是对AI视频感到好奇的人,以下是可操作的要点:
1. 从文本到视频开始
如果您还没有尝试AI视频,文本到视频是最活跃的领域。三分之二的用户从这里开始,原因很简单——您不需要任何资产,只需想法。描述您想要看到的内容,AI会构建它。
2. 想想4秒或12秒
在规划您的AI视频时,请考虑4秒的短小精悍或12秒的故事。数据表明这些是引起共鸣的时长。对于社交媒体钩子和广告创意,选择4秒。对于产品演示、解释视频和叙事内容,使用完整的12秒。
3. 有意识地选择您的方向
不要默认使用横向。如果您的内容要发布到TikTok、Reels或Shorts,请选择9:16的纵向格式。如果是用于YouTube、您的网站或演示,请选择16:9的横向格式。忘掉正方形——市场已经转向了。
4. 不要忽视非英语市场
如果您正在围绕AI视频内容构建业务,数据表明越南语、阿拉伯语、俄语和土耳其语市场的需求巨大。这些并不是小众受众——它们代表了数亿潜在观众。
5. 使用图像到视频进行产品内容创作
虽然文本到视频在整体上占主导地位,但图像到视频是电子商务和产品营销的秘密武器。上传您的产品照片并添加运动、上下文和生命。它比拍摄照片更快,且可扩展性无限。
6. Veo 3.1是安全的选择
如果您在考虑使用哪个模型,数据很明确:96.4%的用户选择Veo 3.1。它提供了最佳的质量、速度和提示遵循的组合。从这里开始,并尝试像Sora 2这样的替代品,以获得特定的创意风格。
底线:AI视频不再是新奇事物。随着超过120,000个视频的生成、24种以上语言的提示以及从生日卡到房地产导览的使用案例,它已成为主流创意工具。问题不在于是否使用它——而在于如何比其他人更好地使用它。
准备好看看您能创造什么了吗?免费试用Vivideo,并将您的提示添加到下一个数据集中。