Đa số video AI thất bại vì những lý do nhàm chán giống nhau. Chủ thể biến dạng giữa chừng. Camera làm điều chẳng ai yêu cầu. Màu sản phẩm đổi từ giây thứ hai đến thứ tư. Kết quả thì “là video” trên lý thuyết nhưng thực tế không dùng được.

Sau khi xem xét hàng chục nghìn prompt video AI thực — những prompt tạo ra clip người ta thực sự xuất bản, và những prompt tạo ra rác bị xóa — một mô hình nổi lên. Prompt hay không dài hơn hay “thi vị” hơn. Chúng có cấu trúc chặt chẽ hơn. Chúng cho model biết điều gì thay đổi, camera vận hành ra sao, điều gì phải khóa cố định, và điều gì bạn kiên quyết từ chối.

Đây là tài liệu thực hành đi kèm báo cáo dữ liệu về 40.000 prompt video AI tiết lộ điều gì về thứ người ta tạo. Bài kia nói về cái “gì” được tạo. Bài này nói về “cách” người giỏi viết. Năm mẫu, mỗi mẫu có phiên bản yếu, phiên bản mạnh, và lý do khác biệt quan trọng.

Điểm chính cần nhớ
- Mở đầu bằng chủ thể + hành động + một thay đổi theo thời gian — mô tả tĩnh sẽ cho ra clip tĩnh, vô hồn.
- Quy định camera như bạn đang chỉ đạo DP: cỡ cảnh, ống kính, và một chuyển động có chủ đích.
- Khóa các “token liên tục” (khuôn mặt, sản phẩm, màu sắc, logo) để chúng giữ nguyên suốt clip thay vì trôi dạt.
- Khớp khuôn hình và nhịp độ với nền tảng và thời lượng trước khi tạo, không phải sau đó.
- Ràng buộc bằng tiêu cực và thông số đầu ra rõ ràng để model biết phải tránh gì, không chỉ phải cố gắng gì.

Mẫu 1: Dẫn Bằng Chủ Thể, Hành Động, Và Thay Đổi Theo Thời Gian

Video là chuyển động. Khác biệt lớn nhất giữa prompt tạo ra cảnh quay sống động và prompt tạo ra cú zoom chậm vào một bức ảnh là việc bạn có mô tả điều gì đó đang xảy ra hay không.

Prompt yếu mô tả một khung cảnh. Prompt mạnh mô tả một khung cảnh có sự thay đổi.

Yếu: Một tách cà phê trên bàn gỗ trong quán cà phê.

Mạnh: Một tách cà phê đang bốc hơi trên bàn gỗ trong quán; hơi nước cuộn lên và drift sang trái khi ánh sáng ban mai từ từ sáng dần trên bề mặt trong 5 giây.

Phiên bản yếu đưa cho model một ảnh tĩnh và buộc nó bịa chuyển động — thường là cú đẩy vào lười biếng hoặc rung lắc mơ hồ. Phiên bản mạnh nêu rõ chủ thể (tách cà phê), hành động (hơi nước cuộn và drift), và sự thay đổi theo thời gian (ánh sáng sáng dần xuyên suốt clip). Giờ model có trạng thái đầu-cuối để nội suy — chính xác là điều một model video được xây dựng để làm.

Cách sửa mang tính cơ học. Với mọi prompt, hãy hỏi: điều gì là một thứ duy nhất khác đi ở cuối clip so với lúc bắt đầu? Nếu bạn không trả lời được, bạn sẽ nhận tấm bưu thiếp biết “di chuyển”. Hãy nướng sự thay đổi đó vào câu. Dù nhỏ — quay đầu, cửa mở, sương tràn vào — cũng đủ giao cho model một nhiệm vụ chạy dọc timeline.

Mẫu 2: Chỉ Đạo Camera Như Một Nhà Quay Phim

Illustration: structure beats cleverness

Nếu bạn không chỉ định camera, model sẽ chọn hộ bạn — và thường chọn tệ, mặc định dolly-in chung chung hoặc lắc lư handheld trôi nổi “mùi AI”. Prompt tốt xem camera là lựa chọn sáng tạo có chủ ý, không phải ý nghĩ đến sau.

Bạn cần ba thứ: cỡ cảnh (wide, medium, close-up), ống kính hoặc cảm giác khung (35mm, wide-angle, độ sâu trường ảnh nông), và một chuyển động duy nhất (slow push-in, orbit, static lock-off). Một chuyển động. Không phải ba.

Yếu: Một chiếc xe chạy trên đường ven biển, cinematic.

Mạnh: Cảnh tracking rộng của một chiếc mui trần cổ điển trên cao tốc ven biển, quay ở ống kính 35mm với độ sâu trường ảnh nông, camera chạy song song chiếc xe với tốc độ khớp, golden hour.

“Cinematic” là điều ước, không phải chỉ thị. Phiên bản mạnh nói cho model biết khung hình (tracking rộng), tính cách quang học (35mm, DOF nông), và một cú chuyển mạch lạc (track song song tốc độ khớp). Sự mạch lạc đó tạo cảm giác chuyên nghiệp. Chỉ thị camera mâu thuẫn — “orbit đồng thời zoom và pan” — là nơi model gãy và tạo ra look bơi lội, bất ổn.

Nếu bạn mới làm quen ngôn ngữ camera, hướng dẫn về cách viết prompt video AI sẽ phân rã từ vựng. Lối tắt: tưởng tượng bạn đưa một câu chỉ đạo cho cameraman, người sẽ làm đúng y như thế và không hơn. Hãy cụ thể đến mức đó.

Mẫu 3: Khóa Các Token Liên Tục (Continuity Tokens)

Đây là mẫu tách biệt người chơi thử với người tạo được footage usable. Model video AI trôi dạt. Vài giây là đủ để gương mặt render thành người khác, logo đỏ lệch sang cam, sản phẩm mọc thêm nút lạ. Continuity token là cụm mô tả ngắn, có tính nhận diện mà bạn cam kết và lặp lại y nguyên — cho danh tính chủ thể, sản phẩm, bảng màu, và mọi yếu tố thương hiệu.

Yếu: Một người phụ nữ mặc áo khoác đỏ đi qua thành phố, rồi ta thấy cô ấy gần hơn.

Mạnh: Một người phụ nữ có mái tóc đen xoăn ngang vai và áo khoác da đỏ tươi (crimson) đi qua một thành phố rực ánh neon; giữ nguyên cùng chiếc áo crimson và cùng kiểu tóc xuyên suốt clip.

“Người phụ nữ mặc áo đỏ” là lời mời để model tái tạo lại cô ấy. “Tóc đen xoăn ngang vai và áo khoác da đỏ tươi crimson”, được lặp lại và nhấn mạnh tính nhất quán, cho model một mỏ neo bám vào. Khi bạn tạo nhiều clip cho một dự án, hãy sao chép chính xác các token đó vào mọi prompt — đừng diễn đạt lại. Diễn đạt lại là cách nhân vật ở shot ba ngừng giống nhân vật ở shot một.

Với brand, điều này là bất khả nhượng. Khóa tên màu tương đương hex thật chính xác, vị trí logo, và tính năng nhận diện của sản phẩm trong mọi prompt. Nếu nền tảng hỗ trợ ảnh tham chiếu hoặc text-to-video với khung mở đầu, hãy dùng — nhưng hãy củng cố bằng token văn bản đã khóa, vì mô tả là thứ mang danh tính xuyên qua chuyển động, không chỉ vào khung đầu.

Mẫu 4: Khớp Cảnh Quay Với Nền Tảng Và Thời Lượng

Một prompt tuyệt cho hero YouTube 12 giây lại sai cho hook TikTok 4 giây, và khác biệt không chỉ là tỷ lệ khung. Prompt tốt được thiết kế đi lùi từ nơi video sẽ sống.

Ba quyết định cần xong trước khi viết mô tả: tỷ lệ khung (9:16 dọc cho feed, 16:9 cho YouTube và landing page), thời lượng (và do đó mức độ việc có thể xảy ra), và nhịp độ (một nhịp bình tĩnh cho vòng lặp ngắn, một đường cong rõ cho clip dài hơn).

Yếu: Một montage năng động về sản phẩm fitness với nhiều cut nhanh và chữ, cho mạng xã hội.

Mạnh: 9:16 dọc, một cú máy liên tục 5 giây: một runner buộc dây đôi giày màu cam rực và đạp chân rời khung về bên trái vào sprint, nhịp nhanh, punchy, thiết kế làm TikTok hook với hành động nổ ra trong 2 giây đầu.

Yêu cầu “nhiều cut nhanh” trong một lần tạo ngắn là mời gọi hỗn loạn — đa số model tạo ra một cú máy liên tục mỗi lần, nên yêu cầu đó trái công cụ. Phiên bản mạnh tôn trọng format: dọc, một cú, hành động được tính để chạm trong hai giây đầu theo yêu cầu nền tảng. Thường bạn sẽ có kết quả tốt hơn bằng cách tạo vài cú máy sạch theo spec này rồi dựng lại, thay vì cố nhồi cả edit vào một prompt.

Thời lượng cũng quyết định biên độ thay đổi. Trong 4 giây, một hành động rõ là đủ. Trong 12 giây, bạn có thể dàn dựng một đường cong nhỏ. Đòi chuyện ba hồi trong 4 giây chỉ khiến mọi thứ bị b smear vào nhau.

Mẫu 5: Ràng Buộc Bằng Tiêu Cực Và Thông Số Đầu Ra Rõ Ràng

Mẫu cuối là thứ hầu như chẳng ai dùng, nên nó tạo lợi thế. Nói cho model biết điều bạn không muốn thường mạnh hơn chất chồng điều bạn muốn. Ghép với thông số đầu ra rõ ràng và bạn ngừng để những quyết định kém hào nhoáng cho may rủi.

Hai động tác: tiêu cực (những lỗi và sáo mòn bạn từ chối — tay méo, chữ nhảm, thừa chi, flicker, slow zoom không mong muốn) và thông số đầu ra (cảm giác frame rate, ánh sáng, mood, tỷ lệ khung nêu rõ ràng ở cuối).

Yếu: Một đầu bếp bày món trong bếp nhà hàng.

Mạnh: Một đầu bếp bày món một cách chính xác trong gian bếp nhà hàng ấm áp; cỡ trung, key light mềm từ trái, nhịp điệu bình tĩnh, 16:9. Tránh: tay méo, thừa ngón, đồ dùng bay lơ lửng, chữ trên màn hình, chuyển động camera nhanh.

Danh sách tiêu cực làm việc thật. Bàn tay là nơi model video dễ hớ, nên nêu “tay méo, thừa ngón” buộc model dồn lực ở đó. “Tránh chữ trên màn hình” giết mớ ký tự bịa đặt model hay ảo giác. Và chốt bằng spec đầu ra — cỡ cảnh, hướng sáng, nhịp, tỷ lệ — nghĩa là bạn không hy vọng model đoán ý; bạn đã nói ra.

Giữ danh sách tiêu cực gọn và đúng mực. Mười tiêu cực chung chung làm loãng tín hiệu. Ba-bốn tiêu cực nhắm trúng điểm yếu có thể xảy ra của prompt này sẽ mài sắc nó. Mỗi model có điểm yếu riêng, nên đáng để biết bạn đang dùng model nào — bản đồ sức mạnh các model AI cho thấy nơi mỗi model xuất sắc và nơi chúng hay vỡ.

Cách Kết Hợp Cả Năm Thành Một Prompt

Các mẫu này không phải menu — prompt tốt nhất là chồng cả năm. Trật tự tự nhiên như sau:

Chủ thể + hành động + thay đổi (“một đầu bếp bày món; hơi nước bốc lên khi cô đặt miếng garnish cuối cùng”)
Camera (“cỡ trung, 50mm, slow push-in”)
Continuity tokens (“cùng nữ đầu bếp trong áo jacket trắng double-breasted xuyên suốt”)
Spec nền tảng + thời lượng (“16:9, 8 giây, nhịp bình tĩnh”)
Tiêu cực + đầu ra (“key light ấm từ trái. Tránh: tay méo, chữ trên màn hình”)

Đọc từ trên xuống, đó là một chỉ thị thống nhất mà model có thể tự tin thực thi. Mỗi mệnh đề trả lời một câu hỏi mà nếu không, model sẽ tự trả lời — và “tự trả lời” là nơi video AI tệ sinh ra.

Bạn cũng không cần viết từ trang trắng mỗi lần. Thư viện mẫu prompt có thể sao chép cung cấp các khung đã được chứng thực cho các kiểu shot phổ biến; bạn thay chủ thể và token của mình là đã chạy đủ năm mẫu mà không cần nghĩ nhiều.

Bước Tiếp Theo Của Bạn

Chọn một prompt bạn đã viết nhưng cho ra clip gây thất vọng. Chạy nó qua năm mẫu: Nó có nêu một thay đổi theo thời gian không? Nó có chỉ đạo một chuyển động camera rõ ràng không? Continuity tokens của bạn đã khóa và lặp lại chưa? Nó được spec cho nền tảng và thời lượng thật chưa? Nó có nói model phải tránh gì không?

Sửa hai câu trả lời yếu nhất và tạo lại. Chỉ một vòng edit đó thường là khác biệt giữa clip bạn xóa và clip bạn xuất bản.

Khi sẵn sàng áp dụng, mở text-to-video trong app và viết prompt đầu tiên theo cấu trúc — chủ thể, camera, token, spec, tiêu cực. Và nếu bạn muốn dữ liệu phía sau những gì đang hiệu quả ở quy mô lớn, hãy đọc bài phân tích đi kèm về 40.000 prompt video AI tiết lộ điều gì. Thủ công cộng bằng chứng là cách bạn ngừng đoán và bắt đầu chỉ đạo.

5 mẫu nhắc lệnh giúp phân biệt video Trí tuệ nhân tạo (AI) xuất sắc với video tệ