TinklaraštisVadovas

5 raginimų šablonai, kurie išskiria puikius dirbtinio intelekto (AI) vaizdo įrašus nuo prastų

5 raginimų šablonai, kurie lemia geriausius dirbtinio intelekto (AI) vaizdo įrašus — su silpnų ir stiprių pavyzdžiais, kuriuos galite nukopijuoti. Baikite spėlioti ir gaukite realiai naudojamus klipus.

Dauguma AI vaizdo įrašų sugriūva dėl tų pačių nuobodžių priežasčių. Subjektas klipo viduryje pasikeičia. Kamera daro tai, ko niekas neprašė. Produktas pakeičia spalvą tarp antros ir ketvirtos sekundės. Rezultatas techniškai „vaizdo įrašas“, o praktiškai – netinkamas naudoti.

Peržiūrėjus dešimtis tūkstančių realių AI vaizdo raginimų — tiek tų, kurie pagimdė klipus, kuriuos žmonės iš tiesų publikavo, tiek tų, kurie virto šiukšlėmis ir buvo ištrinti — išryškėja dėsningumas. Puikūs raginimai nėra ilgesni ar poetiškesni. Jie labiau struktūruoti. Jie pasako modeliui, kas keičiasi, kaip elgiasi kamera, kas turi likti užfiksuota, ir ko atsisakoma.

Tai yra amatų vadovas prie mūsų duomenų ataskaitos apie tai, ką atskleidžia 40 000 AI vaizdo raginimų apie tai, ką žmonės kuria. Anas įrašas aptaria, ką kūrėjai generuoja. Šis — kaip stiprieji tai parašo. Penki raštai, kiekvienas su silpna versija, stipria versija ir paaiškinimu, kodėl skirtumas svarbus.

Svarbiausios įžvalgos

- Pradėkite nuo subjekto + veiksmo + aiškaus pokyčio laike — statiški aprašymai sukuria statiškus, negyvus klipus.

- Nurodykite kamerą taip, lyg režisuotumėte operatorių: plano dydis, objektyvas ir vienas apgalvotas judesys.

- Užrakinkite tęstinumo žetonus (veidas, produktas, spalva, logotipas), kad jie išliktų per visą klipą, o ne dreifuotų.

- Suderinkite kadrą ir tempą su platforma ir trukme prieš generuodami, o ne po to.

- Apribokite su neigiamais reikalavimais ir aiškia išvesties specifikacija, kad modelis žinotų, ko vengti, ne tik ko bandyti.

Raštas 1: Pradėkite nuo subjekto, veiksmo ir pokyčio laike

Vaizdas – tai judesys. Vienintelis didžiausias skirtumas tarp raginimų, kurie sukuria gyvą medžiagą, ir raginimų, kurie sukuria lėtą priartinimą prie fotografijos, yra tas, ar aprašėte, kad kažkas vyksta.

Silpni raginimai aprašo sceną. Stiprūs raginimai aprašo sceną, kuri keičiasi.

Silpnas: Kavos puodelis ant medinio stalo kavinėje.

Stiprus: Garai kylantis kavos puodelis ant medinio kavinės stalo; garai sukasi aukštyn ir dreifuoja kairėn, o rytinė šviesa per 5 sekundes pamažu ryškėja paviršiumi.

Silpna versija pateikia modeliui statišką vaizdą ir verčia jį išgalvoti judesį — dažniausiai tingų priartinimą arba atsitiktinį virpėjimą. Stipri versija įvardija subjektą (kavos puodelis), veiksmą (garai sukasi ir dreifuoja) ir pokytį laike (šviesa per klipą ryškėja). Modelis dabar turi pradžios ir pabaigos būsenas, tarp kurių gali interpoliuoti — būtent tam vaizdo modeliai ir sukurti.

Pataisa — mechaninė. Kiekvienam raginimui paklauskite: kuo pabaigoje šis klipas skiriasi nuo pradžios? Jei negalite atsakyti, gausite judantį atviruką. Įkepkite tą pokytį į sakinį. Net ir menkas — galvos pasukimas, durų atsidarymas, įriedantis rūkas — suteikia modeliui užduotį laiko juostoje.

Raštas 2: Režisuokite kamerą kaip operatorius

Illustration: structure beats cleverness

Jei nenurodysite kameros, modelis pasirinks ją už jus — ir rinksis prastai, numatytai rinkdamasis generinį dolly-in ar dreifuojantį rankinį virpėjimą, kuris rėkia „AI“. Geriausi raginimai traktuoja kamerą kaip sąmoningą kūrybinį pasirinkimą, o ne post factum.

Reikia trijų dalykų: plano dydžio (platus, vidutinis, stambus), objektyvo ar kadravimo pojūčio (35 mm, plataus kampo, maža lauko gylio zona) ir vieno judesio (lėtas priartinimas, orbitavimas, statiškas fiksas). Vieno judesio. Ne trijų.

Silpnas: Automobilis važiuoja pajūrio keliu, kinematografiška.

Stiprus: Platus sekantis kadravimas: senovinis kabrioletas pajūrio plentu, filmuota 35 mm objektyvu su mažu lauko gyliu; kamera juda greta automobilio tokiu pačiu greičiu; auksinė valanda.

„Kinematografiška“ yra noras, o ne instrukcija. Stipri versija nurodo kadravimą (platus sekimas), optinį charakterį (35 mm, mažas lauko gylis) ir vieną nuoseklų judesį (sekti greta tokiu pačiu greičiu). Būtent tas nuoseklumas atrodo profesionaliai. Prieštaringos kameros instrukcijos — „orbituok, kartu zoomink ir panink“ — yra vieta, kur modeliai išsiskaido ir sukuria tą „plaukiojantį“, nestabilų vaizdą.

Jei kamera jums nauja, mūsų gidas apie kaip rašyti AI vaizdo raginimus išskleidžia žodyną. Trumpai: įsivaizduokite, kad perduodate vienos eilutės nurodymą operatoriui, kuris darys tiksliai tai, ką pasakysite, ir nieko daugiau. Būkite tokie konkretūs.

Raštas 3: Užrakinkite tęstinumo žetonus

Tai raštas, kuris atskiria mėgėjus nuo tų, kurie kuria naudojamą medžiagą. AI vaizdo modeliai dreifuoja. Per kelias sekundes veidas vos pastebimai persikuria į kitą žmogų, raudonas logotipas nuslysta į oranžinį, produktui atsiranda mygtukas, kurio nebuvo. Tęstinumo žetonai — tai konkretūs, pakartojami posakiai, kuriais tuos elementus pririšate.

Tęstinumo žetonas — trumpas, atpažįstamas aprašas, kurį pasirenkate ir kartojate pažodžiui — subjekto tapatybei, produktui, spalvų paletei ir bet kokiam prekės ženklui.

Silpnas: Moteris su raudona striuke eina per miestą, tada matome ją arčiau.

Stiprus: Moteris su pečius siekiančiais garbanotais juodais plaukais ir ryškia karmino raudona odine striuke eina per neonų nušviestą miestą; ta pati karmino striukė ir tos pačios šukuosenos tęstinumas per visą klipą.

„Moteris su raudona striuke“ — kvietimas modeliui ją perkurti. „Pečius siekiantys garbanoti juodi plaukai ir ryški karmino raudona odinė striukė“, pakartota ir aiškiai pažymėta kaip pastovi, suteikia modeliui inkarą. Kai generuojate kelis klipus vienam projektui, nukopijuokite tuos pačius žetonus į kiekvieną raginimą — niekada jų neperfrazuokite. Būtent parafrazės lemia, kad trečiame kadre personažas nustoja panašėti į tą iš pirmojo.

Prekės ženklo darbams tai – privaloma. Kiekviename raginime užrakinkite tikslų spalvos pavadinimą (atitinkantį heksą), logotipo vietą ir esminę produkto savybę. Jei platforma palaiko vaizdo nuorodą arba text-to-video su pradiniu kadru, naudokite — bet paremkit ir užrakintais teksto žetonais, nes būtent aprašas perneša tapatybę per judesį, o ne tik į pirmą kadrą.

Raštas 4: Suderinkite kadrą su platforma ir trukme

Illustration: directing the camera

Raginimas, puikus 12 sekundžių YouTube hero kadrui, netiks 4 sekundžių TikTok kabliukui, ir skirtumas — ne tik kraštinių santykis. Geriausi raginimai kuriami atgal nuo vietos, kurioje vaizdo įrašas gyvens.

Prieš rašydami bent žodį, priimkite tris sprendimus: kraštinių santykis (9:16 vertikalus srautams, 16:9 YouTube ir nukreipimo puslapiams), trukmė (ir kiek iš tiesų gali įvykti) ir tempas (vienas ramus taktui skirtas judesys trumpam kilpai, aiški arka ilgesniam klipui).

Silpnas: Energingas fitneso produkto montažas su daug greitų perėjimų ir tekstu, socialiniams tinklams.

Stiprus: 9:16 vertikalus, vienas ištisinis 5 sekundžių kadras: bėgikas suveržia ryškiai oranžinius sportbačius ir šauna iš kadro kairėn į sprintą; greitas, smūginis tempas; sukonstruota kaip TikTok kabliukas, veiksmas įvyksta per pirmas 2 sekundes.

Prašyti „daug greitų perėjimų“ vienoje trumpoje generacijoje — prašytis košės: dauguma modelių per generaciją sukuria vieną ištisinį kadrą, tad prašymas kertasi su įrankiu. Stipri versija gerbia formatą: vertikalus, vienas kadras, veiksmas sukonstruotas pataikyti per pirmas dvi sekundes, kur to reikalauja platforma. Dažnai geriau sugeneruoti kelis švarius vienkadrinius klipus pagal šią specifikaciją ir sukarpyti juos montuojant, nei bandyti sukišti montažą į vieną raginimą.

Trukmė taip pat lemia, kiek pokyčio galite prašyti. Per keturias sekundes nusileidžia vienas aiškus veiksmas. Per dvylika — galite surežisuoti mažą arką. Trijų veiksmų istorija per keturias sekundes — tiesus kelias į sulietą mišinį.

Raštas 5: Apribokite su neigiamais ir aiškia išvesties specifikacija

Paskutinis raštas — tas, kurio beveik niekas nenaudoja, todėl jis suteikia pranašumą. Pasakyti modeliui, ko nenorite, dažnai yra galingiau, nei pridėti daugiau to, ko norite. Suporuokite tai su aiškia išvesties specifikacija ir nepaliksite neįdomių sprendimų atsitiktinumui.

Du ėjimai: neigiami reikalavimai (artefaktai ir klišės, kurių nepriimate — iškraipytos rankos, teksto abrakadabra, papildomos galūnės, mirgėjimas, nepageidaujamas lėtas zoom) ir išvesties specifikacija (kadro dažnio pojūtis, apšvietimas, nuotaika ir kraštinių santykis, aiškiai nurodyti pabaigoje).

Silpnas: Šefas patiekia lėkštę restorano virtuvėje.

Stiprus: Šefas preciziškai patiekia lėkštę jaukioje restorano virtuvėje; vidutinis planas, minkšta pagrindinė šviesa iš kairės, ramus, apgalvotas tempas, 16:9. Vengti: iškraipytų rankų, papildomų pirštų, plaukiojančių įrankių, ekrano teksto, greitų kameros judesių.

Neigiamas sąrašas atlieka realų darbą. Rankos — vieta, kur vaizdo modeliai apsijuokia, tad įvardijus „iškraipytos rankos, papildomi pirštai“, modelis skirs ten pastangų. „Vengti ekrano teksto“ užmuša beprasmes raidžių kratinio haliucinacijas. O užbaigiant išvesties specifikacija — plano dydžiu, šviesos kryptimi, tempu, kraštinių santykiu — neliekate tikėtis, kad modelis atspės jūsų intenciją; ją suformuluojate.

Laikykite neigiamą sąrašą glaustą ir aktualų. Dešimt bendrinių neigiamų reikalavimų silpnina signalą. Trys–keturi, taikantys į šio raginimo tikėtinas nesėkmes, jį paaštrina. Skirtingi modeliai turi skirtingas silpnybes, todėl verta žinoti, kurį naudojate — mūsų AI modelių stiprybių žemėlapis parodo, kur kuris exceluoja ir kur linkęs lūžti.

Kaip sujungti visus penkis į vieną raginimą

Illustration: locking continuity tokens

Šie raštai — ne meniu; geriausi raginimai sudeda visus penkis. Tvarka natūraliai tokia:

  1. Subjektas + veiksmas + pokytis („šefė pateikia patiekalą; kylantys garai, kai ji uždeda paskutinę puošmeną“)
  2. Kamera („vidutinis planas, 50 mm, lėtas priartinimas“)
  3. Tęstinumo žetonai („ta pati šefė su balta dvieile darbinio švarko apykakle per visą klipą“)
  4. Platforma + trukmė („16:9, 8 sekundės, ramus tempas“)
  5. Neigiami + išvestis („šilta pagrindinė šviesa iš kairės. Vengti: iškraipytų rankų, ekrano teksto“)

Skaitant iš viršaus į apačią, tai vienas nuoseklus nurodymas, kurį modelis gali užtikrintai įvykdyti. Kiekviena frazė atsako į klausimą, kurį kitaip modelis spręstų pats — o „pats“ yra ten, kur gimsta prastas AI vaizdas.

Ir jums nereikia kaskart pradėti nuo tuščio lapo. Biblioteka su kopijuojamais raginimų šablonais suteikia patikrintus skeletus dažniausiems kadrams; įdedate savo subjektą ir žetonus, ir jau iškart vykdote visus penkis raštus nebesukdami galvos.

Kitas žingsnis

Pasirinkite vieną savo raginimą, kuris davė nuviliantį klipą. Pervažiuokite jį per penkis raštus: ar jis įvardija pokytį laike? Ar nurodo vieną aiškų kameros judesį? Ar jūsų tęstinumo žetonai užrakinti ir kartojami? Ar jis suvestas su realia platforma ir trukme? Ar jis pasako modeliui, ko vengti?

Pataisykite du silpniausius atsakymus ir generuokite iš naujo. Tas vienas redagavimo ratas dažniausiai ir lemia skirtumą tarp klipo, kurį ištrinate, ir klipo, kurį publikuojate.

Kai būsite pasiruošę pritaikyti raštus, atsidarykite programėlėje text-to-video ir parašykite pirmą raginimą struktūruotai — subjektas, kamera, žetonai, specifikacija, neigiami. O jei norite duomenų apie tai, kas iš tikrųjų veikia mastu, perskaitykite porinę analizę apie ką atskleidžia 40 000 AI vaizdo raginimų. Amatas ir įrodymai — taip nustojate spėlioti ir pradedate režisuoti.

Emir Göcen
Autorius

Emir Göcen

Vivideo bendrakūrėjas, turintis mašininio mokymosi ir kompiuterinės regos patirties, vadovaujantis, kaip Vivideo vertina ir jungia geriausius dirbtinio intelekto vaizdo modelius.

Sukurkite pirmąjį dirbtinio intelekto (AI) vaizdo įrašą nemokamai

Planuokite, generuokite, įgarsinkite, pritaikykite prekės ženklui ir publikuokite — su 30+ modelių, per kelias minutes.

Išbandykite Vivideo nemokamai