พจนานุกรมคำศัพท์

พจนานุกรมวิดีโอด้วยปัญญาประดิษฐ์

รวมทุกคำที่คุณต้องเจอเมื่อทำวิดีโอด้วยปัญญาประดิษฐ์ — ตั้งแต่พื้นฐานกล้องและ codec ไปจนถึง diffusion, avatar และการสร้างแบบมีตัวแทน — อธิบายด้วยภาษาที่เข้าใจง่าย

74 คำศัพท์ · วิดีโอ · AI · วิดีโอด้วย AI

74 คำศัพท์

C G H L R ก ข ค จ ช ซ ด ต ถ ท บ พ ภ ม ร ล ว ศ ส อ เ แ โ

การเกรดสี (Colour grading)วิดีโอ: ขั้นตอนสร้างสรรค์ในการปรับสี คอนทราสต์ และอารมณ์ของฟุตเทจในขั้นตอนโพสต์โปรดักชัน เพื่อให้ได้ลุคที่ตั้งใจและสม่ำเสมอ
การแทรกเฟรม (Frame interpolation)วิดีโอด้วย AI: การสร้างเฟรมคั่นระหว่างเพื่อเพิ่มอัตราเฟรมหรือทำให้การเคลื่อนไหวลื่นขึ้น — เช่น แปลง 24fps ให้เป็น 60fps ที่ลื่นไหล
การปรับแต่งแบบละเอียด (Fine-tuning)AI: การฝึกต่อจากโมเดลฐานด้วยข้อมูลเฉพาะ เพื่อให้เชี่ยวชาญงานหรือสไตล์หนึ่งๆ — สำหรับแบรนด์ บุคคล หรือแนวภาพเฉพาะ
การฝึกสอน (Training)AI: สอนโมเดลด้วยการป้อนข้อมูลจำนวนมหาศาลและค่อยๆ ปรับพารามิเตอร์ภายในจนให้ผลลัพธ์ที่ดี
การเรียนรู้เชิงลึก (Deep learning)AI: การเรียนรู้ของเครื่องที่ใช้โครงข่ายประสาทหลายชั้น เป็นพลังขับเคลื่อนโมเดลภาพ วิดีโอ เสียง และภาษายุคปัจจุบัน

ข้อความเป็นเสียงพูด (Text-to-speech, TTS)วิดีโอด้วย AI: แปลงข้อความที่เขียนเป็นเสียงพูดที่เป็นธรรมชาติด้วยเสียงสังเคราะห์ — กลไกเบื้องหลังวอยซ์โอเวอร์ด้วยปัญญาประดิษฐ์
ข้อความสู่วิดีโอ (T2V)วิดีโอด้วย AI: การสร้างคลิปวิดีโอจากคำบรรยายที่เขียนโดยตรง — ไม่ต้องใช้กล้อง นักแสดง หรือสต็อกฟุตเทจ

ความละเอียด (Resolution)วิดีโอ: ขนาดพิกเซลของแต่ละเฟรม เขียนเป็น กว้าง × สูง (เช่น 1920×1080) พิกเซลมากขึ้นหมายถึงรายละเอียดมากขึ้น ระดับที่พบได้บ่อยคือ 720p (HD), 1080p (Full HD), 4K และ 8K
ความสม่ำเสมอตามเวลา (Temporal consistency)วิดีโอด้วย AI: คงความเสถียรของตัวละคร วัตถุ และสไตล์จากเฟรมสู่เฟรม เพื่อลดการกะพริบ บิดงอ หรือเปลี่ยนรูปร่างผิดธรรมชาติ
คอนเทนเนอร์ (รูปแบบไฟล์)วิดีโอ: ปลอกไฟล์ที่บรรจุวิดีโอ เสียง และเมทาดาต้าไว้ด้วยกัน — MP4, MOV, WebM หรือ MKV ซึ่งแยกจาก codec ที่อยู่ภายใน
คอมโพสิตติ้ง (Compositing)วิดีโอ: การซ้อนองค์ประกอบภาพหลายชั้น — ฟุตเทจ กราฟิก เอฟเฟกต์ ข้อความ — รวมเป็นเฟรมเดียว
คีย์เฟรม (Keyframe)วิดีโอ: ในการตัดต่อ คือเฟรมที่ทำเครื่องหมายเพื่อกำหนดค่า (ตำแหน่ง สเกล ความทึบ) ให้ซอฟต์แวร์ไล่อนิเมตระหว่างกัน ในการบีบอัด คือเฟรมอ้างอิงแบบเต็มที่ใช้สร้างเฟรมใกล้เคียง
คุมกล้อง (Camera control)วิดีโอด้วย AI: สั่งการเคลื่อนกล้องเสมือน — แพน ซูม โคจร ดอลลี่ — ภายในช็อตที่สร้างด้วยปัญญาประดิษฐ์
คุมการเคลื่อนไหว / บรัชการเคลื่อนไหววิดีโอด้วย AI: เครื่องมือที่ให้คุณกำหนดว่าของต่างๆ จะขยับที่ไหนและอย่างไรในคลิปที่สร้าง แทนการปล่อยให้โมเดลตัดสินทั้งหมด

แคปชัน / ซับไตเติลวิดีโอ: ข้อความบนหน้าจอของเสียงพูด แคปชันจะระบุเสียงและผู้พูดเพื่อการเข้าถึง; ซับไตเติลมักเป็นการถอดหรือแปลบทสนทนา

โครงข่ายประสาทเทียม (Neural network)AI: โมเดลที่ได้รับแรงบันดาลใจหลวมๆ จากสมอง: ชั้นของ “นิวรอน” ที่เชื่อมต่อกันและเรียนรู้รูปแบบจากข้อมูล เป็นรากฐานของปัญญาประดิษฐ์เชิงกำเนิดสมัยใหม่
โครมาคีย์ (ฉากเขียว)วิดีโอ: การแทนที่ฉากหลังสีทึบ — มักเป็นสีเขียว — ด้วยภาพหรือวิดีโออื่น โดยทำให้สีนั้นโปร่งใส
โคลนเสียง (Voice cloning)วิดีโอด้วย AI: สร้างเสียงของบุคคลหนึ่งจากตัวอย่างสั้นๆ เพื่อให้สามารถพูดข้อความใหม่ด้วยเสียงเดียวกัน
โทเคน (Token)AI: หน่วยย่อยที่สุดที่โมเดลประมวลผล — ส่วนหนึ่งของคำสำหรับข้อความ หรือแพตช์/เฟรมสำหรับวิดีโอ
โบเก้ (Bokeh)วิดีโอ: เอฟเฟกต์เบลอฉากหลังที่นุ่มนวลน่ามอง มักเห็นเป็นวงแสงกลมๆ
โมเดลฐาน (Foundation model)AI: โมเดลขนาดใหญ่แบบครอบคลุมที่ฝึกด้วยข้อมูลหลากหลาย สามารถปรับใช้กับงานย่อยๆ ได้มากมาย
โมเดลเปิดน้ำหนัก (Open-weight model)AI: โมเดลที่เผยแพร่น้ำหนักให้ใครๆ รัน ศึกษา หรือปรับแต่งได้ (เช่น บน fal หรือในเครื่อง) ตรงข้ามกับโมเดลปิดที่เข้าถึงได้ผ่าน API เท่านั้น
โมเดล DiffusionAI: แนวทางหลักเบื้องหลังภาพและวิดีโอด้วยปัญญาประดิษฐ์: โมเดลเริ่มจากสัญญาณรบกวนแบบสุ่มและค่อยๆ ลบออกทีละขั้นจนกลายเป็นผลลัพธ์ที่สอดคล้องกับพรอมต์ของคุณ
โมเดล (Model)AI: ระบบปัญญาประดิษฐ์ที่ผ่านการฝึก ซึ่งแปลงอินพุต — เช่น ข้อความพรอมต์ — เป็นเอาต์พุต เช่น วิดีโอ แต่ละโมเดลมีจุดเด่น ความเร็ว และราคาแตกต่างกัน
โลเวอร์เธิร์ด (Lower third)วิดีโอ: ข้อความที่วางส่วนล่างของเฟรม มักใช้ใส่ชื่อและตำแหน่งผู้พูด หรือคำบรรยายย่อย

จำนวนสเต็ปการแซมเปิล (Sampling steps)AI: จำนวนรอบที่โมเดล diffusion ใช้แปลงสัญญาณรบกวนให้เป็นเฟรมสุดท้าย ขั้นตอนมากขึ้นอาจได้คุณภาพสูงขึ้น แต่ช้าลงและมีค่าใช้จ่ายมากขึ้น

ช็อตตั้งต้นฉาก (Establishing shot)วิดีโอ: ช็อตกว้างเปิดเรื่องที่กำหนดสถานที่และบริบทของซีน ก่อนจะตัดเข้าใกล้
ช็อต (Shot)วิดีโอ: ฟุตเทจชิ้นเดียวที่ต่อเนื่อง ประเภทที่พบบ่อยเช่น ช็อตกว้าง ช็อตกลาง และช็อตใกล้
ชุดข้อมูล (Dataset)AI: คอลเลกชันของตัวอย่าง — วิดีโอ ภาพ ข้อความ — ที่ใช้ฝึกโมเดล คุณภาพและความหลากหลายของมันจะกำหนดขีดความสามารถของโมเดล

เช็คพอยต์ (Checkpoint)AI: สแนปช็อตที่บันทึกค่าน้ำหนักของโมเดล มักถูกแชร์เป็น “ไฟล์โมเดล” พร้อมดาวน์โหลดไปใช้งาน
เฟรมแรกและเฟรมสุดท้ายวิดีโอด้วย AI: การป้อนเฟรมเริ่มและ/หรือเฟรมจบให้โมเดลอนิเมตเชื่อมระหว่างกัน ทำให้คุมจุดเริ่มและจบของช็อตได้แม่นยำ
เรนเดอร์ / การเรนเดอร์วิดีโอ: การประมวลผลโปรเจกต์ออกเป็นไฟล์วิดีโอสำเร็จรูป — หรือในปัญญาประดิษฐ์ คือโมเดลที่สร้างเฟรมเป็นคลิปสุดท้าย
เลตเตอร์บ็อกซิ่ง (Letterboxing)วิดีโอ: แถบดำที่เพิ่มด้านบนและล่าง (หรือด้านข้าง) ของวิดีโอเพื่อให้พอดีกับอัตราส่วนภาพที่ต่าง โดยไม่ต้องครอปภาพ
เวิลด์โมเดลวิดีโอด้วย AI: ปัญญาประดิษฐ์ที่สร้างแบบจำลองภายในของฉาก วัตถุ และกฎฟิสิกส์ เพื่อช่วยสร้างวิดีโอที่ยาวขึ้น เชื่อมโยงกัน และสม่ำเสมอ

ซีด (Seed)AI: ตัวเลขสุ่มตั้งต้นสำหรับการสร้าง หากใช้ซีดเดิมกับพรอมต์เดิมจะได้ผลคล้ายกัน — มีประโยชน์ต่อความสม่ำเสมอและการปรับเล็กน้อย

ดิจิทัลฮิวแมน / ดิจิทัลทวินวิดีโอด้วย AI: แบบจำลองคนจริงที่เสมือนจริงระดับโฟโตเรียลลิสติกด้วยปัญญาประดิษฐ์ ฝึกครั้งเดียวแล้วนำกลับมาใช้เป็นผู้ดำเนินรายการบนกล้องได้
ดีพเฟกวิดีโอด้วย AI: มีเดียสังเคราะห์ที่สลับหรือสร้างใบหน้าหรือเสียงของใครบางคนได้อย่างสมจริง ทรงพลังแต่ก่อให้เกิดประเด็นด้านความยินยอม ความน่าเชื่อถือ และกฎหมาย

ต่อความยาววิดีโอ (Video extension)วิดีโอด้วย AI: ต่อคลิปให้ยาวเกินเดิมด้วยการสร้างเฟรมเพิ่มเติมที่สอดคล้องต่อเนื่องอย่างเป็นธรรมชาติ

ถ่ายโอนสไตล์ (Style transfer)วิดีโอด้วย AI: นำสไตล์ภาพของสิ่งหนึ่งไปใช้กับฟุตเทจหรือการสร้างของคุณ

ทรานซิชัน (Transition)วิดีโอ: วิธีที่ช็อตหนึ่งเปลี่ยนไปเป็นอีกช็อต — คัตทันที ดิสโซลฟ์ เฟด หรือไวป์
ทรานส์ฟอร์เมอร์ (Transformer)AI: สถาปัตยกรรมโครงข่ายประสาทที่อาศัย “attention” ชั่งน้ำหนักความสัมพันธ์ของส่วนต่างๆ ในอินพุต เป็นแกนของโมเดลภาษาขนาดใหญ่และโมเดลวิดีโอสมัยใหม่จำนวนมาก
ทอล์กกิงเฮด (Talking head)วิดีโอด้วย AI: วิดีโอที่โฟกัสคนพูดกับกล้อง — กรณีใช้งานคลาสสิกของ avatar และผู้บรรยายด้วยปัญญาประดิษฐ์

บิตเรต (Bitrate)วิดีโอ: ปริมาณข้อมูลที่ใช้ต่อหนึ่งวินาทีของวิดีโอ วัดเป็น kbps หรือ Mbps บิตเรตสูงเก็บรายละเอียดได้มากกว่าแต่ไฟล์จะใหญ่ขึ้น
บี-โรล (B-roll)วิดีโอ: ฟุตเทจเสริมที่ตัดซ้อนเหนือช็อตหลักเพื่อเพิ่มบริบท อธิบายประเด็น หรือซ่อนรอยตัด

พรอมต์เชิงลบ (Negative prompt)AI: คำอธิบายสิ่งที่คุณไม่ต้องการในเอาต์พุต ช่วยพาโมเดลเลี่ยงวัตถุ สไตล์ หรืออาร์ติแฟกต์ที่ไม่พึงประสงค์
พรอมต์ (Prompt)AI: คำสั่งที่คุณให้โมเดล — โดยมากเป็นข้อความ บางครั้งแนบภาพ — อธิบายวิดีโอที่คุณต้องการให้สร้าง
พากย์เสียงด้วย AIวิดีโอด้วย AI: แทนที่หรือเพิ่มเสียงพูดเป็นอีกภาษา โดยอุดมคติคือให้เข้ากับน้ำเสียงผู้พูดเดิมและการขยับปาก
พารามิเตอร์ (Weights)AI: ตัวเลขภายในที่โมเดลเรียนรู้ระหว่างการฝึก เก็บสิ่งที่โมเดล “รู้” พารามิเตอร์มากขึ้นอาจหมายถึงความสามารถมากขึ้น

ภาพสู่วิดีโอ (I2V)วิดีโอด้วย AI: ปลุกภาพนิ่งให้มีชีวิตเป็นวิดีโอ โดยมักมีพรอมต์กำกับทิศทางการเคลื่อนไหวที่ต้องการ
ภาพอ้างอิง (Reference image)วิดีโอด้วย AI: ภาพที่คุณให้โมเดลเพื่อกำหนดตัวแบบ ตัวละคร หรือสไตล์ของวิดีโอที่สร้าง

มัลติโมดัล (Multimodal)AI: โมเดลที่เข้าใจหรือสร้างข้อมูลมากกว่าหนึ่งชนิดในคราวเดียว — เช่น ข้อความ ภาพ วิดีโอ และเสียงร่วมกัน

ระยะชัดลึก (Depth of field)วิดีโอ: ปริมาณส่วนของภาพที่คมชัด ระยะชัดตื้นจะละลายฉากหลังให้ตัวแบบเด่นขึ้น

ลาเทนต์สเปซ (Latent space)AI: พื้นที่เชิงคณิตศาสตร์แบบย่อที่โมเดลทำงานจริง การสร้างจะเกิดที่นี่ก่อน แล้วจึงถอดรหัสออกมาเป็นพิกเซลที่มองเห็นได้
ลายน้ำ (Watermark)วิดีโอ: โลโก้หรือข้อความซ้อนบนวิดีโอเพื่อบ่งชี้ความเป็นเจ้าของ หลายตัวสร้างฟรีจะใส่ลายน้ำ; แผนชำระเงินมักเอาออกได้
ลิปซิงก์ (Lip sync)วิดีโอด้วย AI: ทำให้การขยับปากของตัวละครหรือ avatar ตรงกับเสียงพูด เพื่อให้ดูเหมือนกำลังพูดจริง

วิดีโอแบบมีตัวแทน (Agentic video)วิดีโอด้วย AI: ตัวแทนปัญญาประดิษฐ์ที่วางแผนและดูแลงานโปรดักชันทั้งชุด — บท ซีน เสียง อวตาร และการตัดต่อ — จากบรีฟเดียว แทนการทำทีละคลิป
วิดีโอสู่วิดีโอ (V2V)วิดีโอด้วย AI: แปลงคลิปที่มีอยู่ให้เป็นสไตล์หรือลุคใหม่ โดยคงการเคลื่อนไหวและจังหวะเวลาเดิม

ศิลปะการเขียนพรอมต์ (Prompt engineering)AI: ทักษะการถ้อยคำพรอมต์ให้โมเดลสร้างผลลัพธ์ตามที่ตั้งใจอย่างสม่ำเสมอ ครอบคลุมถึงตัวแบบ สไตล์ กล้อง และอารมณ์

สเกลไกด์ (CFG)AI: ระดับที่โมเดลทำตามพรอมต์อย่างเคร่งครัดเทียบกับการด้นสด ค่ายิ่งสูงยิ่งเกาะคำพูดมากขึ้น; ค่าต่ำให้พื้นที่สร้างสรรค์แก่โมเดลมากขึ้น
สตอรีบอร์ด (Storyboard)วิดีโอ: ลำดับสเก็ตช์หรือเฟรมที่วางแผนไว้ ลอกโครงแต่ละช็อตก่อนลงมือถ่ายทำหรือสร้างวิดีโอ

อวตารด้วย AI (AI avatar)วิดีโอด้วย AI: ผู้บรรยายบนจอที่สร้างหรือโคลนด้วยปัญญาประดิษฐ์ ซึ่งพูดสคริปต์ของคุณได้ด้วยเสียงและภาษาที่เลือก
อัตราเฟรม (FPS)วิดีโอ: จำนวนเฟรมต่อวินาที — ภาพนิ่งกี่ภาพที่เล่นในหนึ่งวินาที 24fps ให้ความรู้สึกภาพยนตร์ 30fps เป็นมาตรฐานบนเว็บ และ 60fps ลื่นไหลมาก เหมาะกับภาพเคลื่อนไหวและกีฬา
อัตราส่วนภาพ (Aspect ratio)วิดีโอ: สัดส่วนกว้างต่อสูงของเฟรม — 16:9 (จอกว้าง), 9:16 (แนวตั้งสำหรับ Reels และ TikTok) หรือ 1:1 (สี่เหลี่ยมจัตุรัส) เป็นตัวกำหนดว่าวิดีโอของคุณพอดีกับแพลตฟอร์มหรือหน้าจอใด
อัปสเกล (Upscaling)วิดีโอด้วย AI: ใช้ปัญญาประดิษฐ์เพิ่มความละเอียดวิดีโอ — เช่น 1080p เป็น 4K — โดยเติมรายละเอียดที่น่าเชื่อถือ แทนการขยายพิกเซลเฉยๆ
อาการหลอนของโมเดล (Hallucination)AI: เมื่อโมเดลสร้างผลลัพธ์มั่นใจแต่ผิดหรือแต่งขึ้น — อย่างตัวอักษรเพี้ยน นิ้วมือเกิน หรือการเคลื่อนไหวที่เป็นไปไม่ได้
อินเพนต์ / เอาต์เพนต์วิดีโอด้วย AI: เติมเต็มส่วนหนึ่งของเฟรม (อินเพนต์) หรือขยายเกินขอบภาพ (เอาต์เพนต์) ในวิดีโอใช้เพื่อลบ แทนที่ หรือขยายบริเวณต่างๆ ต่อเนื่องตามเวลา
อินเฟอเรนซ์ (Inference)AI: การรันโมเดลที่ฝึกแล้วเพื่อสร้างเอาต์พุต — เช่น การสร้างวิดีโอจากพรอมต์ นี่คือส่วนที่คิดค่าใช้จ่ายต่อการสร้างหนึ่งครั้ง
อิมเบดดิง (Embedding)AI: ลิสต์ตัวเลข (เวกเตอร์) ที่จับความหมายของข้อความ รูปภาพ หรือเสียง เพื่อให้โมเดลเปรียบเทียบและผสานอินพุตต่างชนิดกันได้

Codecวิดีโอ: อัลกอริทึมที่บีบอัดและคลายบีบอัดวิดีโอ — เช่น H.264, H.265/HEVC, AV1 หรือ VP9 ช่วยบาลานซ์คุณภาพภาพกับขนาดไฟล์

GANAI: Generative Adversarial Network — วิธีการยุคก่อนที่ให้เครือข่ายผู้สร้างกับผู้วิจารณ์แข่งกัน ปัจจุบันส่วนใหญ่ถูกแทนที่ด้วย diffusion สำหรับวิดีโอคุณภาพสูง

HDR (High Dynamic Range)วิดีโอ: วิดีโอที่มีช่วงความสว่างและสีสันกว้างกว่ามาตรฐาน (SDR) เพื่อให้ไฮไลต์ เงา และโทนสีดูสมจริงยิ่งขึ้น

LoRAAI: Low-Rank Adaptation — วิธีเบาๆ ในการสอนสไตล์ ตัวละคร หรือคอนเซ็ปต์ใหม่แก่โมเดลด้วยไฟล์เสริมขนาดเล็ก แทนการฝึกทั้งโมเดลใหม่
LUT (Look-Up Table)วิดีโอ: พรีเซ็ตที่แม็ปสีใหม่ เพื่อให้ได้ลุคเฉพาะเพียงคลิกเดียว หรือใช้แปลงฟุตเทจระหว่าง color space

RLHFAI: Reinforcement Learning from Human Feedback — การฝึกที่ใช้ความชอบของมนุษย์มาจูนให้ออกผลลัพธ์ตรงกับที่คนต้องการจริง

จากพรอมต์ถึงเรนเดอร์: ภาษาของวิดีโอด้วยปัญญาประดิษฐ์

การทำวิดีโอด้วยปัญญาประดิษฐ์อยู่กึ่งกลางของสองโลก — ศัพท์ภาพยนตร์และการผลิตวิดีโอที่สั่งสมมาหลายสิบปี ผสานกับภาษาด้านการเรียนรู้ของเครื่องที่พัฒนาอย่างรวดเร็ว พจนานุกรมนี้รวบรวมทั้งสองฝั่งเข้าด้วยกัน รวมถึงคำใหม่ๆ ที่เฉพาะสำหรับการสร้างวิดีโอเชิงกำเนิด เพื่อให้คุณอ่านคู่มือ เครื่องมือ หรือการ์ดโมเดลใดๆ ได้อย่างมั่นใจ

เริ่มจากพื้นฐาน: อัตราส่วนภาพ ความละเอียด อัตราเฟรม และ codec เป็นตัวกำหนดหน้าตาวิดีโอของคุณและว่าจะเล่นที่ไหน ต่อด้วยชั้นปัญญาประดิษฐ์ — โมเดล, diffusion, พรอมต์, seed และ LoRA ที่กำหนดรูปแบบการสร้าง สุดท้ายคือรายละเอียดเฉพาะของวิดีโอด้วย AI — text-to-video, image-to-video, lip sync, avatar, ความสม่ำเสมอตามเวลา และ world model — ที่บอกว่าวันนี้ตัวสร้างทำอะไรได้จริง

ทุกคำจำกัดความเขียนด้วยภาษาที่เข้าใจง่าย ไม่ต้องใช้คณิตศาสตร์ ค้นหาด้วยคีย์เวิร์ด กรองตามหัวข้อ หรือไล่ดู A–Z — แล้วนำศัพท์ไปใช้จริงในสตูดิโอของ Vivideo

พจนานุกรมวิดีโอด้วยปัญญาประดิษฐ์

เริ่มสร้างฟรี วิดีโอ AI คืออะไร?