ज़्यादातर एआई वीडियो वही उबाऊ वजहों से फेल होते हैं। सब्जेक्ट क्लिप के बीच में बदल जाता है। कैमरा वो करता है जो किसी ने माँगा ही नहीं। सेकंड दो और चार के बीच प्रोडक्ट का रंग बदल जाता है। आउटपुट तकनीकी रूप से "एक वीडियो" होता है और practically बेकार।
हज़ारों असली एआई वीडियो प्रॉम्प्ट्स देखने के बाद — वो जो ऐसी क्लिप्स बने जिनको लोग वाकई पब्लिश करते हैं, और वो जो कचरे में गए — एक पैटर्न उभरता है। बेहतरीन प्रॉम्प्ट्स न तो ज़्यादा लंबे होते हैं न कवितामय। वे ज़्यादा structured होते हैं। वे मॉडल को बताते हैं क्या बदलेगा, कैमरा कैसे बर्ताव करेगा, क्या चीज़ें लॉक रहनी चाहिएं, और आप क्या किसी भी हालत में स्वीकार नहीं करेंगे।
यह हमारे डेटा रिपोर्ट 40,000 एआई वीडियो प्रॉम्प्ट्स क्या बताते हैं पर क्राफ्ट साथी लेख है। वह पोस्ट बताता है लोग क्या बनाते हैं। यह बताता है अच्छे क्रिएटर्स उसे कैसे लिखते हैं। पाँच पैटर्न — हर एक का कमजोर वर्ज़न, मजबूत वर्ज़न, और क्यों फर्क मायने रखता है।
Pattern 1: सब्जेक्ट, ऐक्शन, और समय के साथ बदलाव से शुरुआत करें
वीडियो मतलब motion। जो सबसे बड़ा फर्क है—ज़िंदा फुटेज देने वाले प्रॉम्प्ट्स और फोटो पर स्लो ज़ूम जैसा वीडियो देने वाले प्रॉम्प्ट्स में—वह है क्या आपने कुछ होने का वर्णन किया या नहीं।
कमजोर प्रॉम्प्ट एक सीन का वर्णन करते हैं। मजबूत प्रॉम्प्ट ऐसा सीन बताते हैं जो बदलता है।
Weak: A coffee cup on a wooden table in a cafe.
Strong: A steaming coffee cup on a wooden cafe table; steam curls upward and drifts left as morning light slowly brightens across the surface over 5 seconds.
कमजोर वर्ज़न मॉडल को एक स्टिल इमेज देता है और उसे मोशन ईजाद करने पर मजबूर करता है — आमतौर पर एक आलसी पुश-इन या कोई random कंपकंपी। मजबूत वर्ज़न सब्जेक्ट (कॉफी कप), ऐक्शन (स्टीम मुड़ती और बाईं ओर बहती है), और समय के साथ बदलाव (रोशनी का धीरे-धीरे बढ़ना) को नाम देता है। अब मॉडल के पास शुरू और अंत की स्टेट है जिसके बीच interpolate करना है — यही तो वीडियो मॉडल का काम है।
सुधार मैकेनिकल है। हर प्रॉम्प्ट के लिए खुद से पूछें: इस क्लिप के अंत में कौन-सी एक चीज़ शुरुआत से अलग है? अगर जवाब नहीं है, तो आपको एक moving postcard मिलेगा। उस बदलाव को वाक्य में बेक करें। छोटा-सा ही सही — सिर घुमना, दरवाज़ा खुलना, धुंध घुसना — मॉडल को टाइमलाइन पर काम देता है।
Pattern 2: कैमरा को सिनेमैटोग्राफर की तरह डायरेक्ट करें

अगर आप कैमरा स्पेसिफाई नहीं करते, मॉडल खुद चुन लेता है — और बुरा चुनता है, generic dolly-in या drifting handheld wobble जो चिल्लाता है "AI"। बेहतरीन प्रॉम्प्ट्स कैमरा को सोच-समझकर की गई क्रिएटिव चॉइस की तरह ट्रीट करते हैं, afterthought की तरह नहीं।
आपको तीन चीज़ें चाहिए: shot size (wide, medium, close-up), lens या framing feel (35mm, wide-angle, shallow depth of field), और एक motion (slow push-in, orbit, static lock-off)। सिर्फ एक motion। तीन नहीं।
Weak: A car driving down a coastal road, cinematic.
Strong: Wide tracking shot of a vintage convertible on a coastal highway, shot on a 35mm lens with shallow depth of field, camera tracks alongside the car at matching speed, golden hour.
"Cinematic" एक ख्वाहिश है, निर्देश नहीं। मजबूत वर्ज़न फ्रेमिंग (wide tracking), optical कैरेक्टर (35mm, shallow DOF), और एक coherent मूव (matching speed पर साथ-साथ ट्रैक) बताता है। यही coherence प्रोफेशनल पढ़ती है। टकराती कैमरा हिदायतें — "orbit करते हुए zoom और pan" — वहीं मॉडल टूटते हैं और swimmy, unstable लुक बनता है।
अगर कैमरा भाषा में नए हैं, हमारा गाइड how to write AI video prompts शब्दावली समझाता है। शॉर्टकट: कल्पना करें आप कैमरा ऑपरेटर को एक लाइन दे रहे हैं जो बस वही करेगा जो आपने कहा — उससे ज़्यादा कुछ नहीं। उतने ही specific बनें।
Pattern 3: अपनी कंटिन्यूटी टोकन्स लॉक करें
यही पैटर्न हॉबी से usable फुटेज बनाने वालों को अलग करता है। एआई वीडियो मॉडल drift करते हैं। कुछ सेकंड में चेहरा धीरे-धीरे किसी और में बदल जाता है, लाल लोगो नारंगी हो जाता है, प्रोडक्ट में एक बटन आ जाता है जो था ही नहीं। Continuity tokens वे specific, repeatable वाक्यांश हैं जिनसे आप इन तत्वों को जकड़ते हैं।
एक continuity token छोटा, अलग दिखने वाला वर्णन है जिसे आप तय करके verbatim दोहराते हैं — सब्जेक्ट की पहचान, प्रोडक्ट, कलर पैलेट, और किसी भी ब्रांडिंग के लिए।
Weak: A woman in a red jacket walks through a city, then we see her closer up.
Strong: A woman with shoulder-length curly black hair and a bright crimson leather jacket walks through a neon-lit city; same crimson jacket and same hairstyle held consistent throughout the clip.
"A woman in a red jacket" मॉडल को उसे reinvent करने का निमंत्रण है। "Shoulder-length curly black hair and a bright crimson leather jacket," को दोहराकर और explicit तरीके से consistent बताने से मॉडल को पकड़ने के लिए एंकर मिलता है। जब आप एक प्रोजेक्ट के लिए कई क्लिप्स बनाते हैं, उन्हीं exact टोकन्स को हर प्रॉम्प्ट में कॉपी करें — paraphrase कभी न करें। Paraphrase वहीं है जहाँ शॉट तीन का किरदार शॉट एक जैसा दिखना बंद कर देता है।
ब्रांड वर्क में तो यह non-negotiable है। exact hex-equivalent रंग का नाम, लोगो की जगह, और प्रोडक्ट की defining फीचर हर प्रॉम्प्ट में लॉक करें। अगर आपका प्लेटफ़ॉर्म इमेज रेफ़रेंस या text-to-video में स्टार्टिंग फ़्रेम सपोर्ट करता है, तो उसे यूज़ करें — लेकिन लॉक्ड टेक्स्ट टोकन्स से बैकअप दें, क्योंकि identity को motion के THROUGH carry करना विवरण का काम है, सिर्फ पहले फ़्रेम में नहीं।
Pattern 4: शॉट को प्लेटफ़ॉर्म और duration से मैच करें

जो प्रॉम्प्ट 12-सेकंड के YouTube हीरो के लिए बढ़िया है, वह 4-सेकंड के TikTok हुक के लिए गलत है — और फर्क सिर्फ aspect ratio नहीं है। बेहतरीन प्रॉम्प्ट्स उल्टे डिज़ाइन होते हैं—जहाँ वीडियो रहेगा वहीं से शुरू।
तीन फ़ैसले लिखने से पहले होते हैं: aspect ratio (फीड्स के लिए 9:16 वर्टिकल, YouTube और लैंडिंग पेज के लिए 16:9), duration (और इसलिए वास्तव में कितना हो सकता है), और pacing (छोटे लूप के लिए एक शांत बीट, लंबे क्लिप के लिए साफ़ आर्क)।
Weak: An energetic montage of a fitness product with lots of quick cuts and text, for social media.
Strong: 9:16 vertical, single continuous 5-second shot: a runner laces up bright orange sneakers and pushes off frame-left into a sprint, fast-paced, punchy, designed as a TikTok hook with the action landing in the first 2 seconds.
एक छोटी generation के अंदर "lots of quick cuts" माँगना गड़बड़ माँगना है — ज़्यादातर मॉडल एक generation में एक continuous शॉट बनाते हैं, तो रिक्वेस्ट टूल से लड़ती है। मजबूत वर्ज़न फ़ॉर्मेट का सम्मान करता है: वर्टिकल, एक शॉट, और ऐसा ऐक्शन जो पहले दो सेकंड में हिट करे जहाँ प्लेटफ़ॉर्म की माँग है। अक्सर बेहतर रिज़ल्ट कई साफ़ single-shot क्लिप्स इसी स्पेक पर बनाकर उन्हें काटकर जोड़ने से मिलता है, बजाय एक ही प्रॉम्प्ट में एडिट ठूँसने के।
Duration यह भी चलाता है कि आप कितना बदलाव माँग सकते हैं। चार सेकंड में, एक साफ़ ऐक्शन लैंड करता है। बारह में, एक छोटा आर्क बन सकता है। चार सेकंड में तीन-एक्ट कहानी माँगना सब कुछ धुंधला कर देता है।
Pattern 5: नेगेटिव्स और साफ़ आउटपुट स्पेक से constrain करें
आखिरी पैटर्न वो है जिसे लगभग कोई यूज़ नहीं करता — इसलिए यह ऐज है। मॉडल को जो आप नहीं चाहते वो बताना, अक्सर जो चाहते हैं उसे बढ़ाते जाने से ज़्यादा ताकतवर होता है। इसे explicit आउटपुट स्पेक के साथ पेयर करें और आप अनग्लैमरस फ़ैसले किस्मत पर नहीं छोड़ते।
दो मूव्स: negatives (वे आर्टिफैक्ट्स और clichés जिन्हें आप refuse करते हैं — टेढ़े-मेढ़े हाथ, टेक्स्ट बकवास, extra limbs, flickering, unwanted slow zoom) और output spec (फ्रेम-रेट feel, लाइटिंग, मूड, और aspect ratio—अंत में साफ़-साफ़ लिखा हुआ)।
Weak: A chef plating a dish in a restaurant kitchen.
Strong: A chef precisely plating a dish in a warm restaurant kitchen; medium shot, soft key light from the left, calm and deliberate pacing, 16:9. Avoid: distorted hands, extra fingers, floating utensils, on-screen text, fast camera movement.
नेगेटिव लिस्ट असली काम करती है। हाथ वहीं हैं जहाँ वीडियो मॉडल सबसे ज़्यादा शर्मिंदा होते हैं, तो "distorted hands, extra fingers" बोलना मॉडल को वहीं मेहनत लगाने को कहता है। "Avoid on-screen text" उस बेतुकी अक्षरबाज़ी को मारता है जिसे मॉडल hallucinate करना पसंद करते हैं। और आउटपुट स्पेक पर बंद करना — शॉट साइज, लाइटिंग डायरेक्शन, पेसिंग, aspect ratio — मतलब आप मॉडल से उम्मीद नहीं कर रहे कि वह आपका इरादा guess करे; आपने कह दिया है।
अपनी नेगेटिव लिस्ट टाइट और relevant रखें। दस generic नेगेटिव्स सिग्नल को dilute करते हैं। तीन-चार, जो इसी प्रॉम्प्ट की likely fail-points को target करते हैं, उसे तेज़ करते हैं। अलग-अलग मॉडल्स की अलग कमजोरियाँ हैं, तो यह जानना फ़ायदेमंद है कि आप कौन-सा यूज़ कर रहे हैं — हमारा AI model strengths map बताता है कौन कहाँ एक्सेल करता है और कहाँ टूटता है।
पाँचों को एक ही प्रॉम्प्ट में कैसे जोड़ें

ये पैटर्न मेन्यू नहीं हैं — सबसे अच्छे प्रॉम्प्ट्स पाँचों को स्टैक करते हैं। नैचुरली ऑर्डर यूँ बनता है:
- Subject + action + change ("a chef plates a dish; steam rises as she sets the final garnish")
- Camera ("medium shot, 50mm, slow push-in")
- Continuity tokens ("same chef in a white double-breasted jacket throughout")
- Platform + duration spec ("16:9, 8 seconds, calm pacing")
- Negatives + output ("warm key light from the left. Avoid: distorted hands, on-screen text")
ऊपर से नीचे, यह एक coherent instruction है जिसे मॉडल confidence से execute कर सकता है। हर क्लॉज़ उस सवाल का जवाब देता है जिसका जवाब वरना मॉडल खुद देता — और "खुद" ही वह जगह है जहाँ खराब एआई वीडियो पैदा होता है।
हर बार ब्लैंक पेज से शुरू भी नहीं करना पड़ता। copyable prompt templates की एक लाइब्रेरी आम शॉट टाइप्स के लिए proven skeletons देती है; आप बस अपना सब्जेक्ट और टोकन्स स्वैप करते हैं और बिना सोचे पाँचों पैटर्न चल रहे होते हैं।
आपका अगला कदम
कोई एक प्रॉम्प्ट चुनें जिसने निराशाजनक क्लिप दी। उसे पाँच पैटर्न से गुज़ारें: क्या वह समय के साथ बदलाव बताता है? क्या वह एक साफ़ कैमरा मूव डायरेक्ट करता है? क्या आपके कंटिन्यूटी टोकन्स लॉक और रिपीटेड हैं? क्या वह किसी असली प्लेटफ़ॉर्म और duration के हिसाब से स्पेक्ड है? क्या वह मॉडल को बताता है क्या avoid करना है?
सबसे कमजोर दो जवाब ठीक करें और फिर जनरेट करें। यही एक एडिट पास अक्सर फर्क बनाता है—डिलीट होने वाली क्लिप और शिप होने वाली क्लिप के बीच।
जब आप पैटर्न्स को काम में लगाने के लिए तैयार हों, ऐप में text-to-video खोलें और अपना पहला प्रॉम्प्ट structured तरीके से लिखें — subject, camera, tokens, spec, negatives। और अगर आप डेटा देखना चाहते हैं कि बड़े पैमाने पर वाकई क्या काम कर रहा है, तो साथी विश्लेषण पढ़ें: 40,000 एआई वीडियो प्रॉम्प्ट्स क्या बताते हैं। क्राफ्ट plus evidence ही तरीका है अंदाज़ा छोड़कर डायरेक्टिंग शुरू करने का।
