พจนานุกรมคำศัพท์

พจนานุกรมวิดีโอด้วยปัญญาประดิษฐ์

รวมทุกคำที่คุณต้องเจอเมื่อทำวิดีโอด้วยปัญญาประดิษฐ์ — ตั้งแต่พื้นฐานกล้องและ codec ไปจนถึง diffusion, avatar และการสร้างแบบมีตัวแทน — อธิบายด้วยภาษาที่เข้าใจง่าย

74 คำศัพท์ · วิดีโอ · AI · วิดีโอด้วย AI

74 คำศัพท์
การเกรดสี (Colour grading)วิดีโอ
ขั้นตอนสร้างสรรค์ในการปรับสี คอนทราสต์ และอารมณ์ของฟุตเทจในขั้นตอนโพสต์โปรดักชัน เพื่อให้ได้ลุคที่ตั้งใจและสม่ำเสมอ
การแทรกเฟรม (Frame interpolation)วิดีโอด้วย AI
การสร้างเฟรมคั่นระหว่างเพื่อเพิ่มอัตราเฟรมหรือทำให้การเคลื่อนไหวลื่นขึ้น — เช่น แปลง 24fps ให้เป็น 60fps ที่ลื่นไหล
การปรับแต่งแบบละเอียด (Fine-tuning)AI
การฝึกต่อจากโมเดลฐานด้วยข้อมูลเฉพาะ เพื่อให้เชี่ยวชาญงานหรือสไตล์หนึ่งๆ — สำหรับแบรนด์ บุคคล หรือแนวภาพเฉพาะ
การฝึกสอน (Training)AI
สอนโมเดลด้วยการป้อนข้อมูลจำนวนมหาศาลและค่อยๆ ปรับพารามิเตอร์ภายในจนให้ผลลัพธ์ที่ดี
การเรียนรู้เชิงลึก (Deep learning)AI
การเรียนรู้ของเครื่องที่ใช้โครงข่ายประสาทหลายชั้น เป็นพลังขับเคลื่อนโมเดลภาพ วิดีโอ เสียง และภาษายุคปัจจุบัน
ข้อความเป็นเสียงพูด (Text-to-speech, TTS)วิดีโอด้วย AI
แปลงข้อความที่เขียนเป็นเสียงพูดที่เป็นธรรมชาติด้วยเสียงสังเคราะห์ — กลไกเบื้องหลังวอยซ์โอเวอร์ด้วยปัญญาประดิษฐ์
ข้อความสู่วิดีโอ (T2V)วิดีโอด้วย AI
การสร้างคลิปวิดีโอจากคำบรรยายที่เขียนโดยตรง — ไม่ต้องใช้กล้อง นักแสดง หรือสต็อกฟุตเทจ
ความละเอียด (Resolution)วิดีโอ
ขนาดพิกเซลของแต่ละเฟรม เขียนเป็น กว้าง × สูง (เช่น 1920×1080) พิกเซลมากขึ้นหมายถึงรายละเอียดมากขึ้น ระดับที่พบได้บ่อยคือ 720p (HD), 1080p (Full HD), 4K และ 8K
ความสม่ำเสมอตามเวลา (Temporal consistency)วิดีโอด้วย AI
คงความเสถียรของตัวละคร วัตถุ และสไตล์จากเฟรมสู่เฟรม เพื่อลดการกะพริบ บิดงอ หรือเปลี่ยนรูปร่างผิดธรรมชาติ
คอนเทนเนอร์ (รูปแบบไฟล์)วิดีโอ
ปลอกไฟล์ที่บรรจุวิดีโอ เสียง และเมทาดาต้าไว้ด้วยกัน — MP4, MOV, WebM หรือ MKV ซึ่งแยกจาก codec ที่อยู่ภายใน
คอมโพสิตติ้ง (Compositing)วิดีโอ
การซ้อนองค์ประกอบภาพหลายชั้น — ฟุตเทจ กราฟิก เอฟเฟกต์ ข้อความ — รวมเป็นเฟรมเดียว
คีย์เฟรม (Keyframe)วิดีโอ
ในการตัดต่อ คือเฟรมที่ทำเครื่องหมายเพื่อกำหนดค่า (ตำแหน่ง สเกล ความทึบ) ให้ซอฟต์แวร์ไล่อนิเมตระหว่างกัน ในการบีบอัด คือเฟรมอ้างอิงแบบเต็มที่ใช้สร้างเฟรมใกล้เคียง
คุมกล้อง (Camera control)วิดีโอด้วย AI
สั่งการเคลื่อนกล้องเสมือน — แพน ซูม โคจร ดอลลี่ — ภายในช็อตที่สร้างด้วยปัญญาประดิษฐ์
คุมการเคลื่อนไหว / บรัชการเคลื่อนไหววิดีโอด้วย AI
เครื่องมือที่ให้คุณกำหนดว่าของต่างๆ จะขยับที่ไหนและอย่างไรในคลิปที่สร้าง แทนการปล่อยให้โมเดลตัดสินทั้งหมด
แคปชัน / ซับไตเติลวิดีโอ
ข้อความบนหน้าจอของเสียงพูด แคปชันจะระบุเสียงและผู้พูดเพื่อการเข้าถึง; ซับไตเติลมักเป็นการถอดหรือแปลบทสนทนา
โครงข่ายประสาทเทียม (Neural network)AI
โมเดลที่ได้รับแรงบันดาลใจหลวมๆ จากสมอง: ชั้นของ “นิวรอน” ที่เชื่อมต่อกันและเรียนรู้รูปแบบจากข้อมูล เป็นรากฐานของปัญญาประดิษฐ์เชิงกำเนิดสมัยใหม่
โครมาคีย์ (ฉากเขียว)วิดีโอ
การแทนที่ฉากหลังสีทึบ — มักเป็นสีเขียว — ด้วยภาพหรือวิดีโออื่น โดยทำให้สีนั้นโปร่งใส
โคลนเสียง (Voice cloning)วิดีโอด้วย AI
สร้างเสียงของบุคคลหนึ่งจากตัวอย่างสั้นๆ เพื่อให้สามารถพูดข้อความใหม่ด้วยเสียงเดียวกัน
โทเคน (Token)AI
หน่วยย่อยที่สุดที่โมเดลประมวลผล — ส่วนหนึ่งของคำสำหรับข้อความ หรือแพตช์/เฟรมสำหรับวิดีโอ
โบเก้ (Bokeh)วิดีโอ
เอฟเฟกต์เบลอฉากหลังที่นุ่มนวลน่ามอง มักเห็นเป็นวงแสงกลมๆ
โมเดลฐาน (Foundation model)AI
โมเดลขนาดใหญ่แบบครอบคลุมที่ฝึกด้วยข้อมูลหลากหลาย สามารถปรับใช้กับงานย่อยๆ ได้มากมาย
โมเดลเปิดน้ำหนัก (Open-weight model)AI
โมเดลที่เผยแพร่น้ำหนักให้ใครๆ รัน ศึกษา หรือปรับแต่งได้ (เช่น บน fal หรือในเครื่อง) ตรงข้ามกับโมเดลปิดที่เข้าถึงได้ผ่าน API เท่านั้น
โมเดล DiffusionAI
แนวทางหลักเบื้องหลังภาพและวิดีโอด้วยปัญญาประดิษฐ์: โมเดลเริ่มจากสัญญาณรบกวนแบบสุ่มและค่อยๆ ลบออกทีละขั้นจนกลายเป็นผลลัพธ์ที่สอดคล้องกับพรอมต์ของคุณ
โมเดล (Model)AI
ระบบปัญญาประดิษฐ์ที่ผ่านการฝึก ซึ่งแปลงอินพุต — เช่น ข้อความพรอมต์ — เป็นเอาต์พุต เช่น วิดีโอ แต่ละโมเดลมีจุดเด่น ความเร็ว และราคาแตกต่างกัน
โลเวอร์เธิร์ด (Lower third)วิดีโอ
ข้อความที่วางส่วนล่างของเฟรม มักใช้ใส่ชื่อและตำแหน่งผู้พูด หรือคำบรรยายย่อย
จำนวนสเต็ปการแซมเปิล (Sampling steps)AI
จำนวนรอบที่โมเดล diffusion ใช้แปลงสัญญาณรบกวนให้เป็นเฟรมสุดท้าย ขั้นตอนมากขึ้นอาจได้คุณภาพสูงขึ้น แต่ช้าลงและมีค่าใช้จ่ายมากขึ้น
ช็อตตั้งต้นฉาก (Establishing shot)วิดีโอ
ช็อตกว้างเปิดเรื่องที่กำหนดสถานที่และบริบทของซีน ก่อนจะตัดเข้าใกล้
ช็อต (Shot)วิดีโอ
ฟุตเทจชิ้นเดียวที่ต่อเนื่อง ประเภทที่พบบ่อยเช่น ช็อตกว้าง ช็อตกลาง และช็อตใกล้
ชุดข้อมูล (Dataset)AI
คอลเลกชันของตัวอย่าง — วิดีโอ ภาพ ข้อความ — ที่ใช้ฝึกโมเดล คุณภาพและความหลากหลายของมันจะกำหนดขีดความสามารถของโมเดล
เช็คพอยต์ (Checkpoint)AI
สแนปช็อตที่บันทึกค่าน้ำหนักของโมเดล มักถูกแชร์เป็น “ไฟล์โมเดล” พร้อมดาวน์โหลดไปใช้งาน
เฟรมแรกและเฟรมสุดท้ายวิดีโอด้วย AI
การป้อนเฟรมเริ่มและ/หรือเฟรมจบให้โมเดลอนิเมตเชื่อมระหว่างกัน ทำให้คุมจุดเริ่มและจบของช็อตได้แม่นยำ
เรนเดอร์ / การเรนเดอร์วิดีโอ
การประมวลผลโปรเจกต์ออกเป็นไฟล์วิดีโอสำเร็จรูป — หรือในปัญญาประดิษฐ์ คือโมเดลที่สร้างเฟรมเป็นคลิปสุดท้าย
เลตเตอร์บ็อกซิ่ง (Letterboxing)วิดีโอ
แถบดำที่เพิ่มด้านบนและล่าง (หรือด้านข้าง) ของวิดีโอเพื่อให้พอดีกับอัตราส่วนภาพที่ต่าง โดยไม่ต้องครอปภาพ
เวิลด์โมเดลวิดีโอด้วย AI
ปัญญาประดิษฐ์ที่สร้างแบบจำลองภายในของฉาก วัตถุ และกฎฟิสิกส์ เพื่อช่วยสร้างวิดีโอที่ยาวขึ้น เชื่อมโยงกัน และสม่ำเสมอ
ซีด (Seed)AI
ตัวเลขสุ่มตั้งต้นสำหรับการสร้าง หากใช้ซีดเดิมกับพรอมต์เดิมจะได้ผลคล้ายกัน — มีประโยชน์ต่อความสม่ำเสมอและการปรับเล็กน้อย
ดิจิทัลฮิวแมน / ดิจิทัลทวินวิดีโอด้วย AI
แบบจำลองคนจริงที่เสมือนจริงระดับโฟโตเรียลลิสติกด้วยปัญญาประดิษฐ์ ฝึกครั้งเดียวแล้วนำกลับมาใช้เป็นผู้ดำเนินรายการบนกล้องได้
ดีพเฟกวิดีโอด้วย AI
มีเดียสังเคราะห์ที่สลับหรือสร้างใบหน้าหรือเสียงของใครบางคนได้อย่างสมจริง ทรงพลังแต่ก่อให้เกิดประเด็นด้านความยินยอม ความน่าเชื่อถือ และกฎหมาย
ต่อความยาววิดีโอ (Video extension)วิดีโอด้วย AI
ต่อคลิปให้ยาวเกินเดิมด้วยการสร้างเฟรมเพิ่มเติมที่สอดคล้องต่อเนื่องอย่างเป็นธรรมชาติ
ถ่ายโอนสไตล์ (Style transfer)วิดีโอด้วย AI
นำสไตล์ภาพของสิ่งหนึ่งไปใช้กับฟุตเทจหรือการสร้างของคุณ
ทรานซิชัน (Transition)วิดีโอ
วิธีที่ช็อตหนึ่งเปลี่ยนไปเป็นอีกช็อต — คัตทันที ดิสโซลฟ์ เฟด หรือไวป์
ทรานส์ฟอร์เมอร์ (Transformer)AI
สถาปัตยกรรมโครงข่ายประสาทที่อาศัย “attention” ชั่งน้ำหนักความสัมพันธ์ของส่วนต่างๆ ในอินพุต เป็นแกนของโมเดลภาษาขนาดใหญ่และโมเดลวิดีโอสมัยใหม่จำนวนมาก
ทอล์กกิงเฮด (Talking head)วิดีโอด้วย AI
วิดีโอที่โฟกัสคนพูดกับกล้อง — กรณีใช้งานคลาสสิกของ avatar และผู้บรรยายด้วยปัญญาประดิษฐ์
บิตเรต (Bitrate)วิดีโอ
ปริมาณข้อมูลที่ใช้ต่อหนึ่งวินาทีของวิดีโอ วัดเป็น kbps หรือ Mbps บิตเรตสูงเก็บรายละเอียดได้มากกว่าแต่ไฟล์จะใหญ่ขึ้น
บี-โรล (B-roll)วิดีโอ
ฟุตเทจเสริมที่ตัดซ้อนเหนือช็อตหลักเพื่อเพิ่มบริบท อธิบายประเด็น หรือซ่อนรอยตัด
พรอมต์เชิงลบ (Negative prompt)AI
คำอธิบายสิ่งที่คุณไม่ต้องการในเอาต์พุต ช่วยพาโมเดลเลี่ยงวัตถุ สไตล์ หรืออาร์ติแฟกต์ที่ไม่พึงประสงค์
พรอมต์ (Prompt)AI
คำสั่งที่คุณให้โมเดล — โดยมากเป็นข้อความ บางครั้งแนบภาพ — อธิบายวิดีโอที่คุณต้องการให้สร้าง
พากย์เสียงด้วย AIวิดีโอด้วย AI
แทนที่หรือเพิ่มเสียงพูดเป็นอีกภาษา โดยอุดมคติคือให้เข้ากับน้ำเสียงผู้พูดเดิมและการขยับปาก
พารามิเตอร์ (Weights)AI
ตัวเลขภายในที่โมเดลเรียนรู้ระหว่างการฝึก เก็บสิ่งที่โมเดล “รู้” พารามิเตอร์มากขึ้นอาจหมายถึงความสามารถมากขึ้น
ภาพสู่วิดีโอ (I2V)วิดีโอด้วย AI
ปลุกภาพนิ่งให้มีชีวิตเป็นวิดีโอ โดยมักมีพรอมต์กำกับทิศทางการเคลื่อนไหวที่ต้องการ
ภาพอ้างอิง (Reference image)วิดีโอด้วย AI
ภาพที่คุณให้โมเดลเพื่อกำหนดตัวแบบ ตัวละคร หรือสไตล์ของวิดีโอที่สร้าง
มัลติโมดัล (Multimodal)AI
โมเดลที่เข้าใจหรือสร้างข้อมูลมากกว่าหนึ่งชนิดในคราวเดียว — เช่น ข้อความ ภาพ วิดีโอ และเสียงร่วมกัน
ระยะชัดลึก (Depth of field)วิดีโอ
ปริมาณส่วนของภาพที่คมชัด ระยะชัดตื้นจะละลายฉากหลังให้ตัวแบบเด่นขึ้น
ลาเทนต์สเปซ (Latent space)AI
พื้นที่เชิงคณิตศาสตร์แบบย่อที่โมเดลทำงานจริง การสร้างจะเกิดที่นี่ก่อน แล้วจึงถอดรหัสออกมาเป็นพิกเซลที่มองเห็นได้
ลายน้ำ (Watermark)วิดีโอ
โลโก้หรือข้อความซ้อนบนวิดีโอเพื่อบ่งชี้ความเป็นเจ้าของ หลายตัวสร้างฟรีจะใส่ลายน้ำ; แผนชำระเงินมักเอาออกได้
ลิปซิงก์ (Lip sync)วิดีโอด้วย AI
ทำให้การขยับปากของตัวละครหรือ avatar ตรงกับเสียงพูด เพื่อให้ดูเหมือนกำลังพูดจริง
วิดีโอแบบมีตัวแทน (Agentic video)วิดีโอด้วย AI
ตัวแทนปัญญาประดิษฐ์ที่วางแผนและดูแลงานโปรดักชันทั้งชุด — บท ซีน เสียง อวตาร และการตัดต่อ — จากบรีฟเดียว แทนการทำทีละคลิป
วิดีโอสู่วิดีโอ (V2V)วิดีโอด้วย AI
แปลงคลิปที่มีอยู่ให้เป็นสไตล์หรือลุคใหม่ โดยคงการเคลื่อนไหวและจังหวะเวลาเดิม
ศิลปะการเขียนพรอมต์ (Prompt engineering)AI
ทักษะการถ้อยคำพรอมต์ให้โมเดลสร้างผลลัพธ์ตามที่ตั้งใจอย่างสม่ำเสมอ ครอบคลุมถึงตัวแบบ สไตล์ กล้อง และอารมณ์
สเกลไกด์ (CFG)AI
ระดับที่โมเดลทำตามพรอมต์อย่างเคร่งครัดเทียบกับการด้นสด ค่ายิ่งสูงยิ่งเกาะคำพูดมากขึ้น; ค่าต่ำให้พื้นที่สร้างสรรค์แก่โมเดลมากขึ้น
สตอรีบอร์ด (Storyboard)วิดีโอ
ลำดับสเก็ตช์หรือเฟรมที่วางแผนไว้ ลอกโครงแต่ละช็อตก่อนลงมือถ่ายทำหรือสร้างวิดีโอ
อวตารด้วย AI (AI avatar)วิดีโอด้วย AI
ผู้บรรยายบนจอที่สร้างหรือโคลนด้วยปัญญาประดิษฐ์ ซึ่งพูดสคริปต์ของคุณได้ด้วยเสียงและภาษาที่เลือก
อัตราเฟรม (FPS)วิดีโอ
จำนวนเฟรมต่อวินาที — ภาพนิ่งกี่ภาพที่เล่นในหนึ่งวินาที 24fps ให้ความรู้สึกภาพยนตร์ 30fps เป็นมาตรฐานบนเว็บ และ 60fps ลื่นไหลมาก เหมาะกับภาพเคลื่อนไหวและกีฬา
อัตราส่วนภาพ (Aspect ratio)วิดีโอ
สัดส่วนกว้างต่อสูงของเฟรม — 16:9 (จอกว้าง), 9:16 (แนวตั้งสำหรับ Reels และ TikTok) หรือ 1:1 (สี่เหลี่ยมจัตุรัส) เป็นตัวกำหนดว่าวิดีโอของคุณพอดีกับแพลตฟอร์มหรือหน้าจอใด
อัปสเกล (Upscaling)วิดีโอด้วย AI
ใช้ปัญญาประดิษฐ์เพิ่มความละเอียดวิดีโอ — เช่น 1080p เป็น 4K — โดยเติมรายละเอียดที่น่าเชื่อถือ แทนการขยายพิกเซลเฉยๆ
อาการหลอนของโมเดล (Hallucination)AI
เมื่อโมเดลสร้างผลลัพธ์มั่นใจแต่ผิดหรือแต่งขึ้น — อย่างตัวอักษรเพี้ยน นิ้วมือเกิน หรือการเคลื่อนไหวที่เป็นไปไม่ได้
อินเพนต์ / เอาต์เพนต์วิดีโอด้วย AI
เติมเต็มส่วนหนึ่งของเฟรม (อินเพนต์) หรือขยายเกินขอบภาพ (เอาต์เพนต์) ในวิดีโอใช้เพื่อลบ แทนที่ หรือขยายบริเวณต่างๆ ต่อเนื่องตามเวลา
อินเฟอเรนซ์ (Inference)AI
การรันโมเดลที่ฝึกแล้วเพื่อสร้างเอาต์พุต — เช่น การสร้างวิดีโอจากพรอมต์ นี่คือส่วนที่คิดค่าใช้จ่ายต่อการสร้างหนึ่งครั้ง
อิมเบดดิง (Embedding)AI
ลิสต์ตัวเลข (เวกเตอร์) ที่จับความหมายของข้อความ รูปภาพ หรือเสียง เพื่อให้โมเดลเปรียบเทียบและผสานอินพุตต่างชนิดกันได้
Codecวิดีโอ
อัลกอริทึมที่บีบอัดและคลายบีบอัดวิดีโอ — เช่น H.264, H.265/HEVC, AV1 หรือ VP9 ช่วยบาลานซ์คุณภาพภาพกับขนาดไฟล์
GANAI
Generative Adversarial Network — วิธีการยุคก่อนที่ให้เครือข่ายผู้สร้างกับผู้วิจารณ์แข่งกัน ปัจจุบันส่วนใหญ่ถูกแทนที่ด้วย diffusion สำหรับวิดีโอคุณภาพสูง
HDR (High Dynamic Range)วิดีโอ
วิดีโอที่มีช่วงความสว่างและสีสันกว้างกว่ามาตรฐาน (SDR) เพื่อให้ไฮไลต์ เงา และโทนสีดูสมจริงยิ่งขึ้น
LoRAAI
Low-Rank Adaptation — วิธีเบาๆ ในการสอนสไตล์ ตัวละคร หรือคอนเซ็ปต์ใหม่แก่โมเดลด้วยไฟล์เสริมขนาดเล็ก แทนการฝึกทั้งโมเดลใหม่
LUT (Look-Up Table)วิดีโอ
พรีเซ็ตที่แม็ปสีใหม่ เพื่อให้ได้ลุคเฉพาะเพียงคลิกเดียว หรือใช้แปลงฟุตเทจระหว่าง color space
RLHFAI
Reinforcement Learning from Human Feedback — การฝึกที่ใช้ความชอบของมนุษย์มาจูนให้ออกผลลัพธ์ตรงกับที่คนต้องการจริง

จากพรอมต์ถึงเรนเดอร์: ภาษาของวิดีโอด้วยปัญญาประดิษฐ์

การทำวิดีโอด้วยปัญญาประดิษฐ์อยู่กึ่งกลางของสองโลก — ศัพท์ภาพยนตร์และการผลิตวิดีโอที่สั่งสมมาหลายสิบปี ผสานกับภาษาด้านการเรียนรู้ของเครื่องที่พัฒนาอย่างรวดเร็ว พจนานุกรมนี้รวบรวมทั้งสองฝั่งเข้าด้วยกัน รวมถึงคำใหม่ๆ ที่เฉพาะสำหรับการสร้างวิดีโอเชิงกำเนิด เพื่อให้คุณอ่านคู่มือ เครื่องมือ หรือการ์ดโมเดลใดๆ ได้อย่างมั่นใจ

เริ่มจากพื้นฐาน: อัตราส่วนภาพ ความละเอียด อัตราเฟรม และ codec เป็นตัวกำหนดหน้าตาวิดีโอของคุณและว่าจะเล่นที่ไหน ต่อด้วยชั้นปัญญาประดิษฐ์ — โมเดล, diffusion, พรอมต์, seed และ LoRA ที่กำหนดรูปแบบการสร้าง สุดท้ายคือรายละเอียดเฉพาะของวิดีโอด้วย AI — text-to-video, image-to-video, lip sync, avatar, ความสม่ำเสมอตามเวลา และ world model — ที่บอกว่าวันนี้ตัวสร้างทำอะไรได้จริง

ทุกคำจำกัดความเขียนด้วยภาษาที่เข้าใจง่าย ไม่ต้องใช้คณิตศาสตร์ ค้นหาด้วยคีย์เวิร์ด กรองตามหัวข้อ หรือไล่ดู A–Z — แล้วนำศัพท์ไปใช้จริงในสตูดิโอของ Vivideo

พจนานุกรมวิดีโอด้วยปัญญาประดิษฐ์

เริ่มสร้างฟรีวิดีโอ AI คืออะไร?