A maioria dos vídeos de IA falha pelos mesmos motivos entediantes. O sujeito muda no meio do clipe. A câmera faz algo que ninguém pediu. O produto troca de cor entre os segundos dois e quatro. O resultado é tecnicamente “um vídeo” e praticamente inutilizável.

Depois de analisar dezenas de milhares de prompts reais de vídeo com IA — os que produziram clipes que as pessoas realmente publicaram e os que produziram lixo que as pessoas deletaram — surge um padrão. Bons prompts não são mais longos ou mais poéticos. Eles são mais estruturados. Eles dizem ao modelo o que muda, como a câmera se comporta, o que deve permanecer travado e o que você se recusa a aceitar.

Este é o guia prático que acompanha nosso relatório de dados sobre o que 40.000 prompts de vídeo com IA revelam sobre o que as pessoas fazem. Aquele post cobre o que os criadores geram. Este aqui cobre como os bons escrevem. Cinco padrões, cada um com uma versão fraca, uma forte e por que a diferença importa.

Principais aprendizados
- Comece com sujeito + ação + uma mudança clara ao longo do tempo — descrições estáticas geram clipes estáticos e sem vida.
- Especifique a câmera como se estivesse dirigindo um diretor de fotografia: tamanho do quadro, lente e um movimento deliberado.
- Trave os tokens de continuidade (rosto, produto, cor, logotipo) para que sobrevivam ao clipe inteiro em vez de derivarem.
- Combine o enquadramento e o ritmo à plataforma e duração antes de gerar, não depois.
- Constranja com negativos e uma especificação de saída clara para o modelo saber o que evitar, não só o que tentar.

Padrão 1: Comece com Sujeito, Ação e Mudança ao Longo do Tempo

Vídeo é movimento. A maior diferença entre prompts que produzem imagens vivas e prompts que produzem um zoom lento numa fotografia é se você descreveu algo acontecendo.

Prompts fracos descrevem uma cena. Prompts fortes descrevem uma cena que muda.

Fraco: Uma xícara de café em uma mesa de madeira em um café.

Forte: Uma xícara de café fumegante sobre uma mesa de madeira em um café; o vapor se enrola para cima e deriva para a esquerda enquanto a luz da manhã lentamente ilumina a superfície ao longo de 5 segundos.

A versão fraca dá ao modelo uma imagem parada e o força a inventar movimento — geralmente um empurrãozinho preguiçoso ou um tremor ambiente. A versão forte nomeia o sujeito (xícara de café), a ação (vapor se enrola e deriva) e a mudança ao longo do tempo (luz clareando ao longo do clipe). O modelo agora tem um estado inicial e final para interpolar, que é exatamente o que um modelo de vídeo foi feito para fazer.

A correção é mecânica. Para cada prompt, pergunte: qual é a uma coisa que está diferente no fim deste clipe em relação ao início? Se você não souber responder, vai receber um cartão-postal em movimento. Incorpore essa mudança na frase. Mesmo uma pequena — uma virada de cabeça, uma porta se abrindo, neblina entrando — dá ao modelo um trabalho para executar na linha do tempo.

Padrão 2: Direcione a Câmera como um Diretor de Fotografia

Illustration: structure beats cleverness

Se você não especifica a câmera, o modelo escolhe por você — e escolhe mal, padronizando para um dolly-in genérico ou um balanço de handheld que grita “IA”. Os melhores prompts tratam a câmera como uma escolha criativa deliberada, não um detalhe de última hora.

Você precisa de três coisas: tamanho do plano (aberto, médio, close), lente ou sensação de enquadramento (35mm, grande-angular, profundidade de campo rasa) e um movimento (push-in lento, órbita, tripé estático). Um movimento. Não três.

Fraco: Um carro dirigindo por uma estrada litorânea, cinematográfico.

Forte: Plano aberto em travelling de um conversível vintage em uma rodovia litorânea, filmado com lente 35mm e profundidade de campo rasa; a câmera acompanha ao lado do carro em velocidade correspondente, golden hour.

“Cinematográfico” é um desejo, não uma instrução. A versão forte diz ao modelo o enquadramento (travelling aberto), o caráter óptico (35mm, profundidade de campo rasa) e um movimento coerente (acompanhar ao lado na mesma velocidade). Essa coerência é o que passa como profissional. Instruções conflitantes de câmera — “orbitar enquanto dá zoom e pan” — fazem os modelos se perderem e produzirem aquele visual instável e “nadando”.

Se você é novo em pensar em termos de câmera, nosso guia sobre como escrever prompts de vídeo com IA detalha o vocabulário. Atalho: imagine que você entrega uma instrução de uma linha para um operador de câmera que fará exatamente o que você disser e nada além disso. Seja específico assim.

Padrão 3: Trave seus Tokens de Continuidade

Este é o padrão que separa hobistas de quem produz material utilizável. Modelos de vídeo com IA derivam. Em alguns segundos, um rosto se re-renderiza sutilmente em outra pessoa, um logotipo vermelho muda para laranja, um produto ganha um botão que não tinha. Tokens de continuidade são frases específicas e repetíveis que você usa para fixar esses elementos.

Um token de continuidade é uma descrição curta e distinta que você assume e reutiliza literalmente — para a identidade do sujeito, o produto, a paleta de cores e qualquer branding.

Fraco: Uma mulher com jaqueta vermelha caminha pela cidade, depois vemos ela mais de perto.

Forte: Uma mulher com cabelo preto cacheado na altura dos ombros e uma jaqueta de couro vermelho carmesim brilhante caminha por uma cidade iluminada por neon; mesma jaqueta carmesim e mesmo penteado mantidos consistentes ao longo do clipe.

“Uma mulher com jaqueta vermelha” é um convite para o modelo reinventá-la. “Cabelo preto cacheado na altura dos ombros e jaqueta de couro vermelho carmesim brilhante”, repetido e explicitamente marcado como consistente, dá ao modelo uma âncora. Ao gerar vários clipes para um projeto, copie esses tokens exatamente em cada prompt — nunca parafraseie. Parafrasear é como o personagem do plano três para de parecer o personagem do plano um.

Para trabalho de marca isso é inegociável. Trave o nome exato de cor com equivalente em hex, a posição do logotipo e o traço definidor do produto em todo prompt. Se sua plataforma suporta referência de imagem ou text-to-video com quadro inicial, use — mas reforce com tokens de texto travados, porque é a descrição que carrega a identidade através do movimento, não só no primeiro quadro.

Padrão 4: Combine o Enquadramento à Plataforma e Duração

Um prompt ótimo para um herói de 12 segundos no YouTube é errado para um gancho de 4 segundos no TikTok, e a diferença não é só o formato. Os melhores prompts são desenhados de trás para frente a partir de onde o vídeo vai viver.

Três decisões vêm antes de você escrever uma palavra de descrição: proporção (9:16 vertical para feeds, 16:9 para YouTube e landing pages), duração (e portanto quanto realmente pode acontecer) e ritmo (um compasso calmo para loop curto, um arco claro para um clipe mais longo).

Fraco: Uma montagem energética de um produto fitness com muitos cortes rápidos e texto, para redes sociais.

Forte: 9:16 vertical, um único plano contínuo de 5 segundos: uma corredora amarra tênis laranja vibrante e dispara para fora do quadro à esquerda em sprint; ritmo acelerado e marcante, pensado como gancho de TikTok com a ação acontecendo nos primeiros 2 segundos.

Pedir “muitos cortes rápidos” dentro de uma única geração curta é pedir bagunça — a maioria dos modelos produz um plano contínuo por geração, então o pedido briga com a ferramenta. A versão forte respeita o formato: vertical, um plano, uma ação construída para acontecer nos primeiros dois segundos, como a plataforma exige. Muitas vezes você terá melhor resultado gerando vários planos limpos de um take só com essa especificação e montando depois, do que tentando enfiar uma edição em um único prompt.

A duração também determina quanta mudança você pode pedir. Em quatro segundos, uma ação clara resolve. Em doze, dá para encenar um pequeno arco. Pedir uma história em três atos em quatro segundos apenas embaralha tudo.

Padrão 5: Constranja com Negativos e uma Especificação de Saída Clara

O último padrão é o que quase ninguém usa, e é exatamente por isso que é uma vantagem. Dizer ao modelo o que você não quer costuma ser mais poderoso do que empilhar mais do que você quer. Combine isso com uma especificação de saída explícita e você para de deixar decisões pouco glamorosas ao acaso.

Dois movimentos: negativos (os artefatos e clichês que você recusa — mãos deformadas, texto ilegível, membros extras, flicker, o zoom lento indesejado) e uma especificação de saída (sensação de frame rate, iluminação, clima e proporção declarados claramente ao final).

Fraco: Um chef empratando um prato em uma cozinha de restaurante.

Forte: Um chef empratando com precisão em uma cozinha de restaurante com clima acolhedor; plano médio, luz principal suave pela esquerda, ritmo calmo e deliberado, 16:9. Evitar: mãos distorcidas, dedos extras, utensílios flutuantes, texto na tela, movimento de câmera rápido.

A lista de negativos faz trabalho real. Mãos são onde modelos de vídeo se atrapalham, então nomear “mãos distorcidas, dedos extras” diz ao modelo para dedicar esforço ali. “Evitar texto na tela” mata as letras sem sentido que modelos adoram alucinar. E fechar com a especificação de saída — tamanho do plano, direção da luz, ritmo, proporção — significa que você não está torcendo para o modelo adivinhar sua intenção; você declarou.

Mantenha sua lista de negativos enxuta e relevante. Dez negativos genéricos diluem o sinal. Três ou quatro que miram os pontos de falha prováveis deste prompt o aguçam. Modelos diferentes têm pontos fracos diferentes, então vale conhecer qual você está usando — nosso mapa de forças de modelos de IA mostra onde cada modelo brilha e onde tende a quebrar.

Como Combinar os Cinco em um Único Prompt

Esses padrões não são um menu — os melhores prompts empilham os cinco. A ordem natural é:

Sujeito + ação + mudança (“uma chef emprata um prato; o vapor sobe enquanto ela coloca o toque final”)
Câmera (“plano médio, 50mm, push-in lento”)
Tokens de continuidade (“mesma chef com jaleco branco transpassado em todo o clipe”)
Plataforma + duração (“16:9, 8 segundos, ritmo calmo”)
Negativos + saída (“luz principal quente pela esquerda. Evitar: mãos distorcidas, texto na tela”)

Lido de cima para baixo, isso é uma instrução única e coerente que um modelo consegue executar com confiança. Cada cláusula responde a uma pergunta que o modelo responderia por conta própria — e “por conta própria” é de onde vêm os maus vídeos de IA.

Você não precisa começar de uma página em branco sempre. Uma biblioteca de modelos de prompt copiáveis oferece esqueletos comprovados para tipos de plano comuns; você substitui pelo seu sujeito e tokens e já está aplicando os cinco padrões sem pensar muito.

Seu Próximo Passo

Escolha um prompt seu que gerou um clipe decepcionante. Passe-o pelos cinco padrões: Ele nomeia uma mudança ao longo do tempo? Direciona um movimento claro de câmera? Seus tokens de continuidade estão travados e repetidos? Está especificado para uma plataforma e duração reais? Diz ao modelo o que evitar?

Corrija as duas respostas mais fracas e gere novamente. Essa única passada de edição costuma ser a diferença entre um clipe que você deleta e um clipe que você publica.

Quando estiver pronto para colocar os padrões em prática, abra o text-to-video no app e escreva seu primeiro prompt do jeito estruturado — sujeito, câmera, tokens, especificação, negativos. E se você quer os dados por trás do que realmente funciona em escala, leia a análise complementar de o que 40.000 prompts de vídeo com IA revelam. Técnica mais evidência é como você para de adivinhar e começa a dirigir.

Os 5 Padrões de Prompts que Diferenciam Vídeos de IA excelentes dos ruins