Từ điển

Từ điển video AI

Mọi thuật ngữ bạn sẽ gặp khi làm video với trí tuệ nhân tạo — từ kiến thức căn bản về máy quay và codec đến diffusion, avatar và tạo sinh tự chủ — đều được giải nghĩa dễ hiểu.

74 thuật ngữ · Video · AI · Video AI

74 thuật ngữ
Ảnh tham chiếuVideo AI
Ảnh bạn đưa cho mô hình để định hướng chủ thể, nhân vật hoặc phong cách của video được tạo.
Ảnh thành video (I2V)Video AI
Làm một ảnh tĩnh “sống” thành video, thường được dẫn dắt bởi prompt mô tả chuyển động bạn muốn.
Ảo tưởng (hallucination)AI
Khi mô hình tạo đầu ra tự tin nhưng sai hoặc bịa — như chữ méo, thừa ngón tay, hay chuyển động bất khả thi.
Avatar AIVideo AI
Người dẫn xuất hiện trên màn hình do trí tuệ nhân tạo tạo ra hoặc nhân bản, có thể đọc kịch bản của bạn bằng giọng và ngôn ngữ đã chọn.
B-rollVideo
Footage bổ trợ chèn lên cảnh chính để thêm ngữ cảnh, minh họa ý hoặc che đi điểm cắt dựng.
BitrateVideo
Lượng dữ liệu sử dụng mỗi giây video, đo bằng kbps hoặc Mbps. Bitrate cao giữ nhiều chi tiết hơn nhưng tạo tệp lớn hơn.
BokehVideo
Hiệu ứng mờ mềm mại dễ chịu ở hậu cảnh, thường là các vòng sáng lung linh ngoài tiêu cự.
Cảnh thiết lập bối cảnhVideo
Một cảnh mở đầu góc rộng đặt bối cảnh và địa điểm cho phân đoạn trước khi cắt vào gần hơn.
CheckpointAI
Ảnh chụp trạng thái đã lưu của trọng số mô hình. Checkpoint thường được chia sẻ như “tệp mô hình” có thể tải về để chạy.
Chỉnh màu (colour grading)Video
Bước sáng tạo tinh chỉnh màu sắc, độ tương phản và tâm trạng của footage trong hậu kỳ để tạo diện mạo nhất quán, có chủ đích.
Chroma key (phông xanh)Video
Thay nền một màu — thường là xanh lá — bằng ảnh hoặc video khác bằng cách làm trong suốt màu đó.
Chuyển cảnhVideo
Cách một cảnh đổi sang cảnh tiếp theo — cắt thẳng, hòa trộn (dissolve), mờ dần (fade), hoặc quét (wipe).
Chuyển phong cáchVideo AI
Áp phong cách thị giác của một tham chiếu lên footage hoặc phần tạo của bạn.
CodecVideo
Thuật toán nén và giải nén video — như H.264, H.265/HEVC, AV1 hoặc VP9. Nó cân bằng giữa chất lượng hình ảnh và kích thước tệp.
Con người số / bản sao sốVideo AI
Bản sao trí tuệ nhân tạo chân thực của một người thật, được huấn luyện một lần và tái sử dụng như người dẫn trước ống kính.
Container (định dạng tệp)Video
Lớp vỏ tệp giữ video, âm thanh và metadata cùng nhau — MP4, MOV, WebM hoặc MKV. Nó tách biệt với codec nằm bên trong.
Cú máyVideo
Một đoạn footage liên tục. Loại thường gặp gồm toàn cảnh (wide), trung cảnh (medium) và cận cảnh (close-up).
DeepfakeVideo AI
Nội dung tổng hợp thay thế hoặc tạo giả khuôn mặt hay giọng nói của ai đó một cách chân thực. Mạnh mẽ, nhưng đặt ra bài toán về đồng thuận, tính xác thực và pháp lý.
Dựng chồng lớp (Compositing)Video
Xếp chồng nhiều thành phần hình ảnh — footage, đồ họa, hiệu ứng, chữ — vào một khung hình hoàn chỉnh.
Đa phương thức (multimodal)AI
Mô hình có thể hiểu hoặc tạo nhiều dạng dữ liệu cùng lúc — ví dụ văn bản, ảnh, video và âm thanh.
Điều khiển chuyển động / motion brushVideo AI
Công cụ cho phép bạn định hướng nơi và cách vật thể chuyển động trong clip tạo sinh, thay vì để hoàn toàn cho mô hình quyết định.
Điều khiển máy quayVideo AI
Chỉ đạo các chuyển động máy quay ảo — lia (pan), thu phóng (zoom), quay vòng (orbit), trượt (dolly) — trong một cảnh trí tuệ nhân tạo tạo ra.
Độ phân giảiVideo
Kích thước điểm ảnh của mỗi khung, viết theo dạng rộng × cao (ví dụ 1920×1080). Nhiều pixel hơn nghĩa là chi tiết hơn. Các mức phổ biến gồm 720p (HD), 1080p (Full HD), 4K và 8K.
Độ sâu trường ảnhVideo
Mức độ vùng ảnh nằm trong tiêu cự sắc nét. Độ sâu nông làm mờ hậu cảnh để chủ thể nổi bật.
Đồng bộ khẩu hìnhVideo AI
Khớp chuyển động miệng của nhân vật hoặc avatar với âm thanh lời nói để trông như họ thật sự phát âm.
GANAI
Generative Adversarial Network — phương pháp trước đây nơi một mạng sinh và một mạng phê bình cạnh tranh. Phần lớn đã được diffusion thay thế cho video chất lượng cao.
HDR (Dải tương phản động cao)Video
Video mang dải sáng và màu rộng hơn tiêu chuẩn (SDR), cho điểm sáng, vùng tối sống động và tông màu phong phú hơn.
Hình chìmVideo
Logo hoặc chữ phủ lên video để đánh dấu quyền sở hữu. Nhiều trình tạo trí tuệ nhân tạo miễn phí thêm watermark; gói trả phí thường loại bỏ.
Học sâuAI
Học máy sử dụng mạng nơ-ron nhiều lớp. Nó vận hành các mô hình hình ảnh, video, giọng nói và ngôn ngữ ngày nay.
Huấn luyện (training)AI
Dạy mô hình bằng cách cho xem lượng dữ liệu khổng lồ và dần điều chỉnh tham số bên trong cho đến khi cho ra kết quả tốt.
KeyframeVideo
Trong dựng phim: một khung được đánh dấu thiết lập giá trị (vị trí, tỉ lệ, độ mờ) để phần mềm nội suy chuyển động. Trong nén: một khung tham chiếu đầy đủ mà các khung lân cận được tái tạo từ đó.
Kết xuất / đang kết xuấtVideo
Xử lý dự án thành một tệp video hoàn chỉnh — hoặc, trong trí tuệ nhân tạo, mô hình tạo các khung hình thành một clip cuối.
Không gian tiềm ẩn (latent space)AI
Biểu diễn toán học nén nơi mô hình thực sự hoạt động. Quá trình tạo diễn ra ở đây trước, rồi được giải mã thành pixel nhìn thấy.
Khung đầu & khung cuốiVideo AI
Cung cấp khung bắt đầu và/hoặc khung kết thúc để mô hình nội suy chuyển động giữa chúng, giúp bạn kiểm soát chính xác mở đầu và kết đoạn.
Kỹ thuật promptAI
Nghệ thuật diễn đạt prompt để mô hình ổn định cho ra kết quả bạn muốn, bao gồm chủ thể, phong cách, máy quay và tâm trạng.
LetterboxingVideo
Thêm dải đen phía trên và dưới (hoặc hai bên) video để khớp tỉ lệ khung hình khác mà không cắt mất hình.
LoRAAI
Low-Rank Adaptation — cách nhẹ nhàng để dạy mô hình một phong cách, nhân vật hay khái niệm mới bằng tệp bổ sung nhỏ, thay vì huấn luyện lại toàn bộ mô hình.
Lồng tiếng AIVideo AI
Thay thế hoặc thêm lời thoại bằng ngôn ngữ khác, lý tưởng là khớp giọng người nói và khẩu hình.
LUT (Look-Up Table)Video
Preset ánh xạ lại màu sắc để áp một phong cách cụ thể trong một lần bấm, hoặc chuyển đổi footage giữa các không gian màu.
Mạng nơ-ronAI
Một mô hình phỏng theo não bộ: các lớp “nơ-ron” kết nối học mẫu từ dữ liệu. Đây là nền tảng của trí tuệ nhân tạo tạo sinh hiện đại.
Mô hìnhAI
Hệ thống trí tuệ nhân tạo đã huấn luyện biến đầu vào — như prompt văn bản — thành đầu ra, như video. Mỗi mô hình có điểm mạnh, tốc độ và chi phí khác nhau.
Mô hình diffusionAI
Cách tiếp cận chủ đạo phía sau ảnh và video trí tuệ nhân tạo: mô hình bắt đầu từ nhiễu ngẫu nhiên và dần loại bỏ cho đến khi hiện ra kết quả mạch lạc khớp prompt của bạn.
Mô hình nền tảngAI
Mô hình lớn, đa dụng được huấn luyện trên dữ liệu rộng, có thể thích ứng cho nhiều tác vụ phía sau.
Mô hình open-weightAI
Mô hình có trọng số được công bố để ai cũng có thể chạy, nghiên cứu hoặc fine-tune (ví dụ trên fal hoặc cục bộ), trái với mô hình đóng chỉ truy cập qua API.
Mô hình thế giớiVideo AI
Một trí tuệ nhân tạo xây dựng mô phỏng nội tại về cách bối cảnh, vật thể và vật lý vận hành, giúp tạo video dài hơn, mạch lạc và nhất quán.
Mở rộng videoVideo AI
Tiếp tục một clip vượt quá độ dài gốc bằng cách tạo thêm các khung tiếp nối tự nhiên.
Nâng độ phân giải (upscaling)Video AI
Dùng trí tuệ nhân tạo để tăng độ phân giải video — như từ 1080p lên 4K — bổ sung chi tiết hợp lý thay vì chỉ kéo giãn pixel.
Nhân bản giọng nóiVideo AI
Tái tạo giọng nói của một người cụ thể từ mẫu ngắn để có thể đọc văn bản mới bằng chính giọng đó.
Nhân vật nói chuyệnVideo AI
Video tập trung vào một người nói trước máy quay — trường hợp sử dụng kinh điển cho avatar và người dẫn trí tuệ nhân tạo.
NhúngAI
Danh sách số (vector) nắm bắt ý nghĩa của văn bản, ảnh hoặc âm thanh, để mô hình có thể so sánh và kết hợp các đầu vào khác nhau.
Nội suy khung hìnhVideo AI
Tạo các khung xen giữa để tăng tốc độ khung hoặc làm mượt chuyển động — ví dụ biến 24fps thành 60fps mượt mà.
Phần chữ góc dưới (lower third)Video
Dòng chữ đặt ở phần dưới khung hình, thường là tên và chức danh người nói, hoặc chú thích.
Phụ đề / captionVideo
Chữ trên màn hình của phần thoại. Phụ đề có thể ghi chú âm thanh và người nói để tăng khả năng tiếp cận; caption thường chép lại hoặc dịch lời thoại.
PromptAI
Chỉ dẫn bạn đưa cho mô hình — thường là văn bản, đôi khi kèm ảnh — mô tả video bạn muốn tạo.
Prompt phủ địnhAI
Mô tả những gì bạn KHÔNG muốn có trong đầu ra. Nó hướng mô hình tránh các đối tượng, phong cách hoặc lỗi tạo tác không mong muốn.
RLHFAI
Reinforcement Learning from Human Feedback — huấn luyện dùng phản hồi sở thích của con người để căn chỉnh đầu ra của mô hình với điều con người thực sự muốn.
SeedAI
Số ngẫu nhiên khởi đầu cho một lần tạo. Dùng lại cùng seed với cùng prompt sẽ tái tạo cùng kết quả — hữu ích cho tính nhất quán và tinh chỉnh nhỏ.
Số bước lấy mẫuAI
Số vòng lặp mà mô hình diffusion thực hiện để biến nhiễu thành khung hình cuối. Nhiều bước có thể cho chất lượng cao hơn nhưng chậm và tốn kém hơn.
StoryboardVideo
Chuỗi phác thảo hoặc khung hình được lên kế hoạch mô tả từng cảnh quay trước khi bạn sản xuất hoặc tạo video.
Suy luận (inference)AI
Chạy một mô hình đã huấn luyện để tạo đầu ra — ví dụ, tạo video của bạn từ prompt. Đây là phần bạn trả phí theo mỗi lần tạo.
Tập dữ liệuAI
Tập hợp ví dụ — video, ảnh, văn bản — dùng để huấn luyện mô hình. Chất lượng và độ đa dạng của nó định hình khả năng của mô hình.
Tham số (weights)AI
Những con số nội bộ mà mô hình học trong quá trình huấn luyện. Chúng lưu điều mô hình “biết”; nhiều tham số có thể đồng nghĩa nhiều năng lực hơn.
Thang hướng dẫn (CFG)AI
Mức độ mô hình bám sát prompt của bạn hay ứng biến. Giá trị cao bám sát từ ngữ hơn; giá trị thấp cho mô hình nhiều tự do sáng tạo.
Tỉ lệ khung hìnhVideo
Tỷ lệ chiều rộng so với chiều cao của khung hình — 16:9 (màn hình rộng), 9:16 (dọc cho Reels và TikTok), hoặc 1:1 (vuông). Nó quyết định video khớp với từng nền tảng và màn hình thế nào.
Tinh chỉnhAI
Huấn luyện bổ sung một mô hình nền trên dữ liệu cụ thể để chuyên biệt hóa — cho một phong cách, thương hiệu hoặc một người.
Tính nhất quán theo thời gianVideo AI
Giữ nhân vật, đối tượng và phong cách ổn định từ khung này sang khung khác để video không nhấp nháy, méo hoặc biến hình bất thường.
TokenAI
Đơn vị nhỏ nhất của đầu vào mà mô hình xử lý — một phần của từ đối với văn bản, hoặc một mảng/khung đối với video.
Tô vẽ trong/ngoài khung (inpainting/outpainting)Video AI
Điền phần còn thiếu trong một khung (inpainting) hoặc mở rộng ra ngoài viền (outpainting). Trong video, dùng để xóa, thay thế hoặc mở rộng vùng theo thời gian.
Tốc độ khung hình (FPS)Video
Số khung hình mỗi giây — bao nhiêu ảnh tĩnh phát trong một giây. 24fps cho cảm giác điện ảnh, 30fps là chuẩn cho web, còn 60fps trông siêu mượt cho chuyển động và thể thao.
TransformerAI
Kiến trúc mạng nơ-ron dựa trên “attention”, cân nhắc mối liên hệ giữa các phần của đầu vào. Nó là nền tảng của các mô hình ngôn ngữ lớn và nhiều mô hình video hiện đại.
Văn bản thành giọng nói (TTS)Video AI
Biến văn bản thành âm thanh lời nói tự nhiên bằng giọng tổng hợp — động cơ phía sau thuyết minh trí tuệ nhân tạo.
Văn bản thành video (T2V)Video AI
Tạo trực tiếp một clip video từ mô tả bằng văn bản — không cần máy quay, diễn viên hay kho footage.
Video tác nhân tự chủVideo AI
Một tác nhân trí tuệ nhân tạo lên kế hoạch và điều hành toàn bộ quy trình sản xuất — kịch bản, cảnh, giọng, avatar và dựng — từ một bản yêu cầu duy nhất, thay vì từng clip rời.
Video thành video (V2V)Video AI
Biến đổi một clip hiện có sang phong cách hoặc diện mạo mới trong khi giữ nguyên chuyển động và nhịp thời gian gốc.

Từ prompt đến render: ngôn ngữ của video AI

Làm video với trí tuệ nhân tạo nằm ở giao điểm của hai thế giới — hàng thập kỷ thuật ngữ điện ảnh và sản xuất video, cùng ngôn ngữ học máy luôn thay đổi. Từ điển này gom cả hai, cộng thêm những khái niệm mới của video tạo sinh, để bạn đọc hiểu mọi công cụ, hướng dẫn hay thẻ mô tả mô hình với sự tự tin.

Bắt đầu từ nền tảng: tỉ lệ khung hình, độ phân giải, tốc độ khung hình và codec quyết định video trông ra sao và phát ở đâu. Kế đến là lớp trí tuệ nhân tạo — mô hình, diffusion, prompt, seed và LoRA định hình điều sẽ được tạo ra. Cuối cùng là các đặc thù của video AI — text-to-video, image-to-video, đồng bộ khẩu hình, avatar, tính nhất quán theo thời gian và world mô hình — mô tả những gì các trình tạo ngày nay thực sự làm được.

Mỗi định nghĩa đều viết bằng ngôn ngữ đơn giản, không cần toán. Tìm theo từ khóa, lọc theo chủ đề, hoặc duyệt A–Z — rồi áp dụng vốn từ ngay trong studio của Vivideo.