רוב וידאוי ה-AI נכשלים מאותן סיבות משעממות. הנושא משנה צורה באמצע הקליפ. המצלמה עושה משהו שאף אחד לא ביקש. המוצר מחליף צבע בין השנייה השנייה לרביעית. הפלט הוא טכנית "וידאו" ומעשית בלתי שמיש.
אחרי בחינה של עשרות אלפי פרומפטים אמיתיים לוידאו ב-AI — אלה שהפיקו קליפים שאנשים באמת פרסמו, ואלה שהפיקו זבל שאנשים מחקו — צף דפוס. פרומפטים טובים אינם ארוכים או פיוטיים יותר. הם יותר מובְנים. הם אומרים למודל מה משתנה, איך המצלמה מתנהגת, מה חייב להישאר נעול, ומה מסרבים לקבל.
זהו מדריך המלאכה שמלווה את דו"ח הנתונים שלנו על מה 40,000 פרומפטים לוידאו ב-AI חושפים על מה שאנשים יוצרים. הפוסט ההוא מכסה את ה"מה" שיוצרים מייצרים. הפוסט הזה מכסה את ה"איך" שהטובים כותבים. חמש תבניות, לכל אחת גרסה חלשה, גרסה חזקה, ולמה ההבדל חשוב.
עיקרי התובנות
- הובילו עם נושא + פעולה + שינוי ברור לאורך זמן — תיאורים סטטיים מייצרים קליפים סטטיים וחסרי חיים.
- הגדירו את המצלמה כאילו אתם מביימים צלם: גודל שוט, עדשה, ותנועה מכוונת אחת.
- נעלו טוקני רצף (פנים, מוצר, צבע, לוגו) כדי שישרדו את כל הקליפ במקום לנדוד.
- התאימו את השוט והקצב לפלטפורמה ולמשך לפני שאתם מייצרים, לא אחרי.
- הגבילו עם שליליים ומפרט פלט ברור כדי שהמודל ידע מה להימנע ממנו, לא רק מה לנסות.
תבנית 1: להתחיל עם נושא, פעולה, ושינוי לאורך זמן
וידאו הוא תנועה. ההבדל הגדול ביותר בין פרומפטים שמפיקים חומר חי לבין כאלה שמפיקים זום איטי על תצלום הוא האם תיארתם משהו שקוֹרה.
פרומפטים חלשים מתארים סצנה. פרומפטים חזקים מתארים סצנה שּמִשתנה.
חלש: A coffee cup on a wooden table in a cafe.
חזק: A steaming coffee cup on a wooden cafe table; steam curls upward and drifts left as morning light slowly brightens across the surface over 5 seconds.
הגרסה החלשה נותנת למודל תמונה סטילס ומאלצת אותו להמציא תנועה — בדרך כלל דחיפה עצלה פנימה או רַעַד סביבתי. הגרסה החזקה קוראת בשם לנושא (ספל קפה), לפעולה (האדים מתפתלים ונודדים), ולשינוי לאורך זמן (האור מתחזק בהדרגה לאורך הקליפ). כעת למודל יש מצב התחלה וסוף שהוא יכול לאינטרפולציה ביניהם — בדיוק מה שמודל וידאו נבנה לעשות.
התיקון הוא מכני. בכל פרומפט, שאלו: מה הדבר האחד שיהיה שונה בסוף הקליפ לעומת ההתחלה? אם אינכם יכולים לענות, תקבלו גלויית נוף נעה. אפו את השינוי הזה במשפט. אפילו שינוי קטן — סיבוב ראש, דלת נפתחת, ערפל שמתגלגל — נותן למודל משימה לבצע לאורך הציר הזמן.
תבנית 2: לביים את המצלמה כמו צלם קולנוע

אם לא תגדירו את המצלמה, המודל יבחר אחת בשבילכם — והוא בוחר גרוע, כברירת מחדל לדולי-אין גנרי או ריחוף ידני מתנדנד שצועק "AI". הפרומפטים הטובים מתייחסים למצלמה כבחירה יצירתית מכוונת, לא כבדיעבד.
אתם צריכים שלושה דברים: גודל שוט (רחב, בינוני, תקריב), תחושת עדשה/פריימינג (35mm, זווית רחבה, עומק שדה רדוד), ותנועה אחת (דחיפה איטית פנימה, אורביט, סטטי ונעול). תנועה אחת. לא שלוש.
חלש: A car driving down a coastal road, cinematic.
חזק: Wide tracking shot of a vintage convertible on a coastal highway, shot on a 35mm lens with shallow depth of field, camera tracks alongside the car at matching speed, golden hour.
“Cinematic” היא משאלה, לא הוראה. הגרסה החזקה אומרת למודל את הפריימינג (שוט מעקב רחב), את האופי האופטי (35mm, עומק שדה רדוד), ותנועה אחת קוהרנטית (מעקב לצד הרכב במהירות תואמת). הקוהרנטיות הזו היא מה שנקרא מקצועי. הוראות מצלמה סותרות — "להקיף, לזום ולבצע פאן בו-זמנית" — הן המקום שבו מודלים מתפרקים ומייצרים את אותו מראה שחורצי ולא יציב.
אם אתם חדשים לחשיבה במונחי מצלמה, המדריך שלנו על איך לכתוב פרומפטים לוידאו ב-AI מפרק את המונחים. קיצור הדרך: דמיינו שאתם מוסרים הוראה בשורה אחת למפעיל מצלמה שיעשה בדיוק מה שתאמרו — ולא כלום מעבר. היו עד כדי כך ספציפיים.
תבנית 3: לנעול את טוקני הרצף שלכם
זו התבנית שמבדילה חובבים מאנשים שמייצרים חומר שמיש. מודלי וידאו ב-AI נודדים. לאורך כמה שניות, פנים מתעצבנות מחדש בעדינות לאדם אחר, לוגו אדום זולג לכתום, מוצר מקבל כפתור שלא היה לו. טוקני רצף הם הביטויים הספציפיים והחוזרים שמשמשים לקיבוע האלמנטים האלה.
טוקן רצף הוא תיאור קצר ומובחן שמתחייבים אליו ומשתמשים בו מילה במילה — לזהות הסובייקט, למוצר, לפלטת הצבעים ולכל מיתוג.
חלש: A woman in a red jacket walks through a city, then we see her closer up.
חזק: A woman with shoulder-length curly black hair and a bright crimson leather jacket walks through a neon-lit city; same crimson jacket and same hairstyle held consistent throughout the clip.
"בחורה עם מעיל אדום" היא הזמנה למודל להמציא אותה מחדש. "שיער שחור מתולתל עד הכתפיים ומעיל עור ארגמן בוהק," שחוזר ומסומן במפורש כעקבי, נותן למודל עוגן להיאחז בו. כשמייצרים כמה קליפים לאותו פרויקט, העתיקו את הטוקנים האלה לכל פרומפט — לעולם אל תנסחו מחדש. ניסוח מחדש הוא איך הדמות בשוט השלישי מפסיקה להיראות כמו הדמות בשוט הראשון.
לעבודת מותג זה בלתי ניתן למשא ומתן. נעלו את שם הצבע המדויק (מקביל להקס), מיקום הלוגו, והתכונה המגדירה של המוצר בכל פרומפט. אם הפלטפורמה שלכם תומכת בהפניה לתמונה או text-to-video עם פריים פתיחה, השתמשו בזה — אבל גַּבו זאת בטוקני טקסט נעולים, כי התיאור הוא מה שנושא את הזהות לאורך התנועה, לא רק לתוך הפריים הראשון.
תבנית 4: להתאים את השוט לפלטפורמה ולמשך

פרומפט שמצוין עבור הירו של YouTube באורך 12 שניות לא מתאים להוק של TikTok באורך 4 שניות, וההבדל הוא לא רק יחס מסך. הפרומפטים הטובים מתוכננים מהסוף להתחלה — לפי המקום שבו הוידאו יחיה.
שלוש החלטות מתקבלות לפני מילה של תיאור: יחס מסך (9:16 אנכי לפידים, 16:9 ל-YouTube ודפי נחיתה), משך (ומכאן כמה באמת יכול לקרות), וקצב (פעימה רגועה אחת ללופ קצר, קשת ברורה לקליפ ארוך יותר).
חלש: An energetic montage of a fitness product with lots of quick cuts and text, for social media.
חזק: 9:16 vertical, single continuous 5-second shot: a runner laces up bright orange sneakers and pushes off frame-left into a sprint, fast-paced, punchy, designed as a TikTok hook with the action landing in the first 2 seconds.
לבקש "המון חתכים מהירים" בתוך דור קצר יחיד זה לבקש בלגן — רוב המודלים מפיקים שוט רציף אחד לכל דור, ולכן הבקשה מתנגשת בכלי. הגרסה החזקה מכבדת את הפורמט: אנכי, שוט אחד, פעולה מהונדסת לפגוע בתוך שתי השניות הראשונות שבהן הפלטפורמה דורשת זאת. לעיתים קרובות תקבלו תוצאה טובה יותר על-ידי יצירה של כמה קליפים נקיים בעלי שוט בודד לפי המפרט הזה ועריכתם יחד, מאשר לנסות לדחוס עריכה לפרומפט אחד.
המשך מכתיב כמה שינוי אפשר לבקש. בארבע שניות, פעולה אחת ברורה נוחתת. בשתים-עשרה, אפשר לביים קשת קטנה. לבקש סיפור בשלוש מערכות בארבע שניות פשוט מורח הכל יחד.
תבנית 5: להגביל עם שליליים ומפרט פלט ברור
התבנית האחרונה היא זו שכמעט אף אחד לא משתמש בה, ולכן היא יתרון. לומר למודל מה אתם לא רוצים הוא לרוב חזק יותר מלערום עוד על מה שכן. שילבו זאת עם מפרט פלט מפורש ותפסיקו להשאיר החלטות לא זוהרות למקרה.
שתי פעולות: שליליים (הארטיפקטים והקלישאות שאתם מסרבים להם — ידיים מעוותות, ג'יבריש בטקסט, גפיים נוספות, הבהובים, זום איטי לא רצוי) ומפרט פלט (תחושת פריימרייט, תאורה, מצב רוח, ויחס מסך, נאמרים בפשטות בסוף).
חלש: A chef plating a dish in a restaurant kitchen.
חזק: A chef precisely plating a dish in a warm restaurant kitchen; medium shot, soft key light from the left, calm and deliberate pacing, 16:9. Avoid: distorted hands, extra fingers, floating utensils, on-screen text, fast camera movement.
רשימת השליליים עושה עבודה אמיתית. ידיים הן המקום שבו מודלי וידאו מביכים את עצמם, אז "ידיים מעוותות, אצבעות נוספות" אומר למודל להשקיע שם מאמץ. "Avoid on-screen text" מחסל את אותיות הג'יבריש שמודלים אוהבים להזות. וסגירה במפרט פלט — גודל שוט, כיוון תאורה, קצב, יחס מסך — פירושה שאינכם מקווים שהמודל ינחש את כוונתכם; הצהרתם אותה.
שמרו את רשימת השליליים ממוקדת ורלוונטית. עשרה שליליים גנריים מדללים את האות. שלושה-ארבעה שמכוונים לנקודות הכשל הסבירות של הפרומפט הזה — מחדדים אותו. למודלים שונים יש נקודות חולשה שונות, ולכן שווה לדעת באיזה אתם משתמשים — מפת חוזקות מודלי ה-AI שלנו מפרקת היכן כל מודל מצטיין והיכן נוטה להישבר.
איך לשלב את כל החמישה לפרומפט אחד

התבניות האלה אינן תפריט — הפרומפטים הטובים מערימים את כולן. זה הסדר שבו הן נופלות באופן טבעי:
- נושא + פעולה + שינוי ("שפית מצלחת מנה; אדים עולים כשהיא מניחה את הקישוט הסופי")
- מצלמה ("שוט בינוני, 50mm, דחיפה איטית פנימה")
- טוקני רצף ("אותה שפית במקטורן לבן כפול-שורה לאורך כל הקליפ")
- מפרט פלטפורמה + משך ("16:9, 8 שניות, קצב רגוע")
- שליליים + פלט ("Key חם משמאל. Avoid: ידיים מעוותות, טקסט על המסך")
נקרא מלמעלה למטה, זו הוראה אחת קוהרנטית שמודל יכול לבצע בביטחון. כל פסוקית עונה על שאלה שהמודל אחרת היה עונה עליה בעצמו — ו"כּעצמו" הוא המקום שבו וידאו AI רע נולד.
אתם גם לא חייבים להתחיל מדף חלק בכל פעם. ספרייה של תבניות פרומפט להעתקה נותנת לכם שלדים מוכחים לסוגי שוט נפוצים; אתם מחליפים את הנושא והטוקנים שלכם וכבר רצים עם כל חמש התבניות בלי לחשוב על זה.
הצעד הבא שלכם
בחרו פרומפט אחד שכתבתם שהפיק קליפ מאכזב. הריצו אותו דרך חמש התבניות: האם הוא מציין שינוי לאורך זמן? האם הוא מביים תנועת מצלמה אחת ברורה? האם טוקני הרצף שלכם נעולים וחוזרים? האם הוא מותאם לפלטפורמה ולמשך אמיתיים? האם הוא אומר למודל ממה להימנע?
תקנו את שתי התשובות החלשות והפיקו מחדש. מעבר עריכה יחיד כזה הוא בדרך כלל ההבדל בין קליפ שאתם מוחקים לקליפ שאתם מפרסמים.
כשתהיו מוכנים להפעיל את התבניות, פִתחו את text-to-video באפליקציה וכתבו את הפרומפט הראשון בצורה מובנית — נושא, מצלמה, טוקנים, מפרט, שליליים. ואם אתם רוצים את הנתונים מאחורי מה שבאמת עובד בהיקף, קראו את ניתוח הבן-זוג של מה 40,000 פרומפטים לוידאו ב-AI חושפים. מלאכה פלוס ראיות — כך מפסיקים לנחש ומתחילים לביים.
