La maggior parte dei video IA fallisce per gli stessi motivi noiosi. Il soggetto si deforma a metà clip. La camera fa cose che nessuno ha chiesto. Il prodotto cambia colore tra il secondo due e quattro. L’output è tecnicamente “un video” e praticamente inutilizzabile.
Dopo aver analizzato decine di migliaia di veri prompt per video IA — quelli che hanno prodotto clip che le persone hanno davvero pubblicato e quelli che hanno prodotto spazzatura che è stata cancellata — emerge un pattern. I prompt migliori non sono più lunghi o poetici. Sono più strutturati. Dicono al modello cosa cambia, come si comporta la camera, cosa deve restare bloccato e cosa si rifiutano di accettare.
Questo è il compendio pratico al nostro report sui dati riguardo a cosa rivelano 40.000 prompt per video IA su ciò che la gente crea. Quel post copre cosa generano i creator. Questo copre come i bravi li scrivono. Cinque pattern, ciascuno con una versione debole, una forte e il perché la differenza conta.
Risultati chiave
- Parti da soggetto + azione + un chiaro cambiamento nel tempo — descrizioni statiche producono clip statiche e senza vita.
- Specifica la camera come se stessi dirigendo un DP: dimensione dell’inquadratura, lente e una singola mossa deliberata.
- Blocca i token di continuità (volto, prodotto, colore, logo) così sopravvivono all’intera clip invece di deragliare.
- Abbina inquadratura e ritmo alla piattaforma e alla durata prima di generare, non dopo.
- Restringi con negativi e una specifica d’output chiara così il modello sa cosa evitare, non solo cosa tentare.
Pattern 1: Parti da soggetto, azione e cambiamento nel tempo
Il video è movimento. La singola differenza più grande tra i prompt che producono riprese vive e quelli che producono uno slow zoom su una fotografia è se hai descritto qualcosa che accade.
I prompt deboli descrivono una scena. Quelli forti descrivono una scena che cambia.
Debole: Una tazza di caffè su un tavolo di legno in un bar.
Forte: Una tazza di caffè fumante su un tavolo di legno in un bar; il vapore si arriccia verso l’alto e scivola a sinistra mentre la luce del mattino lentamente si intensifica sulla superficie per 5 secondi.
La versione debole dà al modello un’immagine fissa e lo costringe a inventare il movimento — di solito un pigro push-in o un tremolio ambientale. Quella forte nomina il soggetto (tazza di caffè), l’azione (il vapore si arriccia e scivola) e il cambiamento nel tempo (la luce che aumenta lungo la clip). Il modello ora ha uno stato iniziale e uno finale tra cui interpolare, che è esattamente ciò per cui un modello video è costruito.
La correzione è meccanica. Per ogni prompt, chiediti: qual è l’unica cosa che è diversa alla fine di questa clip rispetto all’inizio? Se non sai rispondere, otterrai una cartolina in movimento. Incorpora quel cambiamento nella frase. Anche uno piccolo — una testa che si gira, una porta che si apre, la nebbia che entra — dà al modello un compito lungo la timeline.
Pattern 2: Dirigi la camera come un direttore della fotografia

Se non specifichi la camera, il modello la sceglie per te — e la sceglie male, predefinendo un dolly-in generico o un ondeggiamento a mano libera che urla “IA”. I migliori prompt trattano la camera come una scelta creativa deliberata, non un ripensamento.
Ti servono tre cose: dimensione dell’inquadratura (wide, medium, close-up), lente o sensazione di framing (35mm, grandangolo, profondità di campo ridotta) e una sola mossa (lento push-in, orbit, static lock-off). Una sola mossa. Non tre.
Debole: Un’auto che percorre una strada costiera, cinematografico.
Forte: Ripresa wide in tracking di una cabriolet d’epoca su un’autostrada costiera, girata con una lente 35mm a profondità di campo ridotta; la camera affianca l’auto alla stessa velocità, golden hour.
“Cinematografico” è un desiderio, non un’istruzione. La versione forte dice al modello il framing (wide in tracking), il carattere ottico (35mm, profondità di campo ridotta) e una singola mossa coerente (affiancare a velocità corrispondente). Quella coerenza è ciò che appare professionale. Istruzioni di camera in conflitto — “orbita mentre zoommi e fai pan” — sono dove i modelli crollano e producono quell’aspetto ondeggiante e instabile.
Se sei nuovo al linguaggio della camera, la nostra guida su come scrivere prompt per video IA scompone il vocabolario. Scorciatoia: immagina di consegnare a un operatore una riga d’istruzione che eseguirà esattamente e nulla di più. Sii così specifico.
Pattern 3: Blocca i tuoi token di continuità
Questo è il pattern che separa gli hobbisti da chi produce riprese utilizzabili. I modelli video IA deragliano. In pochi secondi, un volto si ri-renderizza in un’altra persona, un logo rosso vira all’arancione, un prodotto guadagna un pulsante che non aveva. I token di continuità sono le frasi specifiche e ripetibili con cui blocchi quegli elementi.
Un token di continuità è una breve descrizione distintiva a cui ti attieni e che riusi alla lettera — per l’identità del soggetto, il prodotto, la palette colori e qualsiasi branding.
Debole: Una donna con una giacca rossa cammina in città, poi la vediamo più da vicino.
Forte: Una donna con capelli neri ricci alle spalle e una giacca di pelle cremisi brillante cammina in una città illuminata al neon; stessa giacca cremisi e stessa acconciatura mantenute coerenti per tutta la clip.
“Una donna con una giacca rossa” è un invito al modello a reinventarla. “Capelli neri ricci alle spalle e una giacca di pelle cremisi brillante”, ripetuti e dichiarati esplicitamente come consistenti, danno al modello un’ancora. Quando generi più clip per un progetto, copia quegli esatti token in ogni prompt — non parafrasarli. La parafrasi è come la personaggia nella terza inquadratura smette di assomigliare a quella nella prima.
Per i lavori di brand è non negoziabile. Blocca il nome colore equivalente esatto all’hex, il posizionamento del logo e la caratteristica distintiva del prodotto in ogni singolo prompt. Se la tua piattaforma supporta un riferimento immagine o il text-to-video con un frame iniziale, usalo — ma rafforzalo con token testuali bloccati, perché è la descrizione a portare l’identità attraverso il movimento, non solo nel primo frame.
Pattern 4: Abbina l’inquadratura alla piattaforma e alla durata

Un prompt perfetto per un hero da 12 secondi su YouTube è sbagliato per un hook da 4 secondi su TikTok, e la differenza non è solo l’aspect ratio. I migliori prompt sono progettati a ritroso dal luogo in cui il video vivrà.
Tre decisioni si prendono prima di scrivere una parola: aspect ratio (9:16 verticale per i feed, 16:9 per YouTube e landing page), durata (e quindi quanto può davvero accadere) e ritmo (un unico beat calmo per un loop corto, un arco chiaro per una clip più lunga).
Debole: Un montaggio energico di un prodotto fitness con tanti tagli rapidi e testo, per i social.
Forte: 9:16 verticale, singola ripresa continua di 5 secondi: una runner allaccia sneakers arancione brillante e scatta fuori campo a sinistra, ritmo veloce e incisivo, progettato come hook per TikTok con l’azione che atterra nei primi 2 secondi.
Chiedere “tanti tagli rapidi” dentro una singola generazione breve è chiedere un pasticcio — la maggior parte dei modelli produce una sola ripresa continua per generazione, quindi la richiesta contrasta con lo strumento. La versione forte rispetta il formato: verticale, una ripresa, un’azione progettata per colpire nei primi due secondi dove la piattaforma lo richiede. Spesso otterrai un risultato migliore generando più clip pulite a singola ripresa con questa specifica e montandole insieme, piuttosto che cercare di stipare un edit in un unico prompt.
La durata determina anche quanto cambiamento puoi chiedere. In quattro secondi, atterra un’azione chiara. In dodici, puoi orchestrare un piccolo arco. Chiedere una storia in tre atti in quattro secondi impasta tutto.
Pattern 5: Restringi con negativi e una specifica d’output chiara
L’ultimo pattern è quello che quasi nessuno usa, ed è esattamente per questo che fa la differenza. Dire al modello cosa non vuoi è spesso più potente che aggiungere altro di ciò che vuoi. Abbinalo a una specifica d’output esplicita e smetti di lasciare al caso le decisioni poco glamour.
Due mosse: negativi (gli artefatti e i cliché che rifiuti — mani deformate, testo illeggibile, arti extra, sfarfallii, lo slow zoom indesiderato) e una specifica d’output (sensazione di frame rate, illuminazione, mood e aspect ratio dichiarati chiaramente in chiusura).
Debole: Uno chef impiatta un piatto in una cucina di ristorante.
Forte: Uno chef impiatta con precisione un piatto in una cucina di ristorante dall’atmosfera calda; medium shot, key light morbida da sinistra, ritmo calmo e deliberato, 16:9. Evitare: mani distorte, dita extra, utensili fluttuanti, testo on-screen, movimenti di camera rapidi.
La lista negativa fa un lavoro reale. Le mani sono dove i modelli video si imbarazzano, quindi nominare “mani distorte, dita extra” dice al modello di spendere sforzo lì. “Evitare testo on-screen” elimina le lettere senza senso che i modelli amano allucinare. E chiudere con la specifica d’output — dimensione dell’inquadratura, direzione della luce, ritmo, aspect ratio — significa che non stai sperando che il modello indovini la tua intenzione; l’hai dichiarata.
Tieni la lista dei negativi essenziale e pertinente. Dieci negativi generici diluiscono il segnale. Tre o quattro che mirano ai probabili punti deboli di questo prompt lo affinano. Modelli diversi hanno punti deboli diversi, quindi conviene sapere quale stai usando — la nostra mappa dei punti di forza dei modelli IA spiega dove ciascun modello eccelle e dove tende a rompersi.
Come combinare tutti e cinque in un unico prompt

Questi pattern non sono un menù — i migliori prompt li impilano tutti e cinque. Ecco l’ordine con cui cadono naturalmente:
- Soggetto + azione + cambiamento (“una chef impiatta un piatto; il vapore sale mentre posa la guarnizione finale”)
- Camera (“medium shot, 50mm, slow push-in”)
- Token di continuità (“stessa chef con giacca bianca doppiopetto per tutta la clip”)
- Specifica di piattaforma + durata (“16:9, 8 secondi, ritmo calmo”)
- Negativi + output (“key light calda da sinistra. Evitare: mani distorte, testo on-screen”)
Letto dall’alto verso il basso, è un’unica istruzione coerente che un modello può eseguire con fiducia. Ogni clausola risponde a una domanda a cui altrimenti il modello risponderebbe da solo — e “da solo” è dove nascono i cattivi video IA.
Non devi partire ogni volta da una pagina bianca. Una libreria di template di prompt copiabili ti offre scheletri comprovati per i tipi di ripresa più comuni; sostituisci il tuo soggetto e i tuoi token e stai già applicando tutti e cinque i pattern senza pensarci.
Il tuo prossimo passo
Scegli un prompt che hai scritto e che ha prodotto una clip deludente. Passalo attraverso i cinque pattern: Nomina un cambiamento nel tempo? Dirige una singola mossa di camera chiara? I tuoi token di continuità sono bloccati e ripetuti? È specificato per una piattaforma e una durata reali? Dice al modello cosa evitare?
Correggi le due risposte più deboli e rigenera. Quel singolo passaggio di editing è di solito la differenza tra una clip che elimini e una clip che pubblichi.
Quando sei pronto a mettere in pratica i pattern, apri text-to-video nell’app e scrivi il tuo primo prompt in modo strutturato — soggetto, camera, token, specifica, negativi. E se vuoi i dati dietro ciò che funziona davvero su larga scala, leggi l’analisi gemella su cosa rivelano 40.000 prompt per video IA. Tecnica più evidenza è come smetti di indovinare e inizi a dirigere.
