용어집

인공지능 영상 사전

카메라·코덱 기초부터 디퓨전, 아바타, 에이전틱 생성까지 — 인공지능으로 영상을 만들 때 마주치는 모든 용어를 쉬운 말로 설명합니다.

74 용어 · 영상 · 인공지능 · 인공지능 영상

가이던스 스케일 (CFG)인공지능
프롬프트를 얼마나 엄격히 따를지 vs. 모델의 즉흥성을 얼마나 허용할지의 정도. 값이 높으면 지시에 더 충실하고, 낮으면 창의적 자유도가 커집니다.
네거티브 프롬프트인공지능
출력에 포함되길 원치 않는 요소를 명시하는 설명. 불필요한 객체·스타일·아티팩트를 피하도록 모델을 유도합니다.
데이터셋인공지능
모델 학습에 쓰이는 예시 모음 — 비디오, 이미지, 텍스트 등. 품질과 다양성이 모델의 능력을 좌우합니다.
디지털 휴먼 / 디지털 트윈인공지능 영상
실재 인물을 고품질로 복제한 포토리얼리스틱 인공지능 진행자. 한 번 학습해 반복 활용합니다.
디퓨전 모델인공지능
인공지능 이미지·영상의 주류 접근법: 무작위 노이즈에서 시작해 단계를 거치며 노이즈를 걷어 내 프롬프트에 맞는 일관된 결과를 만듭니다.
딥러닝 (Deep learning)인공지능
다층 신경망을 사용하는 머신러닝. 오늘날의 이미지·비디오·음성·언어 모델을 구동합니다.
딥페이크인공지능 영상
얼굴·목소리를 사실적으로 바꾸거나 만들어 내는 합성 미디어. 강력하지만 동의·진위·법적 이슈를 동반합니다.
레터박싱영상
다른 화면비에 맞추기 위해 영상 위아래(또는 좌우)에 검은 띠를 더해, 크롭 없이 전체 화면을 보이게 하는 방법.
레퍼런스 이미지인공지능 영상
생성 영상의 피사체·캐릭터·스타일을 가이드하기 위해 모델에 제공하는 이미지.
렌더 / 렌더링영상
프로젝트를 최종 영상 파일로 처리하는 것 — 또는 인공지능에서 모델이 프레임을 생성해 최종 클립으로 만드는 과정.
로워 서드영상
프레임 하단에 배치하는 텍스트. 주로 화자 이름·직함이나 캡션을 표시합니다.
립싱크인공지능 영상
캐릭터나 아바타의 입 모양을 음성과 맞춰 실제로 말하는 듯 보이게 함.
멀티모달인공지능
텍스트·이미지·비디오·오디오 등 둘 이상 형태의 데이터를 동시에 이해하거나 생성하는 모델.
모델인공지능
입력(예: 텍스트 프롬프트)을 출력(예: 비디오)으로 바꾸는 학습된 인공지능 시스템. 모델마다 강점·속도·가격이 다릅니다.
모션 컨트롤 / 모션 브러시인공지능 영상
생성된 클립에서 사물이 어디로·어떻게 움직일지 직접 지시해, 전적으로 모델에만 맡기지 않도록 하는 도구.
보이스 클로닝인공지능 영상
짧은 샘플로 특정 인물의 목소리를 재현해 같은 음색으로 새로운 텍스트를 말하게 함.
보케 (Bokeh)영상
배경 초점 밖 영역의 부드럽고 아름다운 흐림, 흔히 빛망울로 표현됩니다.
비디오 확장인공지능 영상
자연스럽게 이어지도록 추가 프레임을 생성해 원래 길이를 넘어 클립을 연장.
비디오-투-비디오 (V2V)인공지능 영상
기존 클립의 동작·타이밍은 보존하면서 새로운 스타일·룩으로 변환.
비트레이트영상
초당 사용하는 데이터 양(kbps 또는 Mbps). 비트레이트가 높을수록 디테일은 유지되지만 파일 크기는 커집니다.
샘플링 스텝인공지능
디퓨전 모델이 노이즈를 최종 프레임으로 바꾸는 반복 횟수. 스텝이 많을수록 품질이 좋아질 수 있지만 더 느리고 비용이 듭니다.
샷 (Shot)영상
끊김 없이 이어지는 하나의 연속 촬영. 대표적으로 와이드 샷, 미디엄 샷, 클로즈업이 있습니다.
설정 샷 (Establishing shot)영상
장면의 장소와 맥락을 먼저 보여주는 넓은 오프닝 샷으로, 이후 근접 샷으로 컷 전환하기 전 사용됩니다.
스타일 전이 (Style transfer)인공지능 영상
레퍼런스의 시각적 스타일을 자신의 푸티지나 생성 결과에 적용.
스토리보드영상
제작·생성 전, 각 샷을 순서대로 스케치/프레임으로 계획한 구성도.
시간적 일관성인공지능 영상
프레임마다 캐릭터·오브젝트·스타일을 안정적으로 유지해 깜빡임, 왜곡, 비자연스러운 변형을 방지.
시드 (Seed)인공지능
생성의 시작 난수. 같은 프롬프트에 같은 시드를 쓰면 동일 결과를 재현할 수 있어 일관성 유지와 미세 수정에 유용합니다.
신경망 (Neural network)인공지능
뇌에서 영감을 얻은 구조: 연결된 ‘뉴런’ 층을 통해 데이터 패턴을 학습. 현대 생성형 인공지능의 기반입니다.
업스케일링인공지능 영상
인공지능으로 영상의 해상도를 상승 — 예: 1080p를 4K로 — 단순 확대가 아닌 그럴듯한 디테일을 보강.
에이전틱 비디오인공지능 영상
하나의 브리프로 대본, 씬, 음성, 아바타, 편집까지 전 과정을 계획·수행하는 인공지능 에이전트 — 클립 단위가 아닌 프로덕션 단위로 작동.
오픈 웨이트 모델인공지능
가중치가 공개되어 누구나 실행·연구·파인튜닝할 수 있는 모델(예: fal 또는 로컬). API로만 접근 가능한 폐쇄형과 대비됩니다.
워터마크영상
소유권 표기를 위해 영상 위에 올리는 로고나 텍스트. 많은 무료 인공지능 생성기는 워터마크를 추가하고, 유료 요금제는 보통 제거합니다.
월드 모델인공지능 영상
장면·객체·물리의 작동을 내부 시뮬레이션으로 구축해 더 길고 일관된 영상 생성을 돕는 인공지능.
이미지-투-비디오 (I2V)인공지능 영상
정지 이미지를 영상으로 움직이게 만드는 것. 원하는 모션을 프롬프트로 보조 설명하는 경우가 많습니다.
인공지능 더빙인공지능 영상
다른 언어의 음성을 대체·추가하고, 이상적으로는 화자 음색·립싱크까지 맞춥니다.
인공지능 아바타인공지능 영상
스크립트를 선택한 음성·언어로 말하는 온스크린 진행자를 인공지능으로 생성·클론한 존재.
인페인팅 / 아웃페인팅인공지능 영상
프레임의 일부를 채우거나(인페인팅) 경계를 넘어 확장(아웃페인팅)하는 것. 영상에서는 시간 축을 따라 영역을 제거·교체·확장하는 데 사용.
임베딩 (Embedding)인공지능
텍스트·이미지·오디오의 의미를 담은 숫자 목록(벡터). 모델이 서로 다른 입력을 비교·결합할 수 있게 해줍니다.
잠재 공간 (Latent space)인공지능
모델이 실제로 작업하는 압축 표현 공간. 먼저 이곳에서 생성이 일어나고, 이후 눈에 보이는 픽셀로 디코딩됩니다.
첫 프레임 & 마지막 프레임인공지능 영상
시작·종료 프레임을 제공해 모델이 그 사이를 애니메이트하도록 함으로써 샷의 시작과 끝을 정밀 제어.
체크포인트인공지능
모델 가중치를 저장해 둔 스냅샷. 사람들이 내려받아 실행하는 ‘모델 파일’로 배포되곤 합니다.
추론 (Inference)인공지능
이미 학습된 모델을 실행해 출력을 만드는 것 — 예를 들어 프롬프트로 영상을 생성. 과금은 보통 생성(한 번) 단위로 이뤄집니다.
카메라 컨트롤인공지능 영상
인공지능으로 만든 샷 내부에서 팬, 줌, 오빗, 돌리 등 가상 카메라 움직임을 지시.
캡션 / 자막영상
음성 내용을 화면에 텍스트로 표시. 캡션은 소리·화자 정보까지 포함해 접근성을 높이고, 자막은 주로 대사를 필사·번역합니다.
컨테이너 (파일 형식)영상
비디오·오디오·메타데이터를 함께 담는 파일 래퍼 — MP4, MOV, WebM, MKV. 내부에 저장된 코덱과는 구분됩니다.
컬러 그레이딩영상
후반 작업에서 색상, 대비, 무드를 조정해 전체 푸티지에 일관되고 의도된 룩을 부여하는 창의적 단계.
코덱 (Codec)영상
영상을 압축·복원하는 알고리즘 — H.264, H.265/HEVC, AV1, VP9 등. 화질과 파일 크기의 균형을 맞춥니다.
크로마 키 (그린 스크린)영상
단색(일반적으로 초록) 배경을 투명 처리해 다른 이미지나 영상으로 대체하는 기법.
키프레임영상
편집에서 값(위치, 스케일, 불투명도 등)을 지정해 소프트웨어가 그 사이를 보간하도록 하는 기준 프레임. 압축에서는 주변 프레임이 참고해 재구성하는 완전한 기준 프레임을 뜻합니다.
텍스트-투-비디오 (T2V)인공지능 영상
글 설명만으로 바로 영상 클립을 생성 — 카메라, 배우, 스톡 푸티지 없이도 가능합니다.
텍스트-투-스피치 (TTS)인공지능 영상
문자를 합성 음성으로 읽어 주는 기술 — 인공지능 보이스오버의 엔진.
토큰 (Token)인공지능
모델이 처리하는 최소 단위 — 텍스트의 부분 단어, 비디오의 패치나 프레임 등.
토킹 헤드인공지능 영상
카메라를 향해 말하는 사람을 중심으로 한 영상 — 인공지능 아바타·프레젠터의 대표 사례.
트랜스포머인공지능
입력 간 관계를 가중하는 ‘어텐션’에 기반한 신경망 구조. 대규모 언어 모델과 많은 최신 비디오 모델의 토대입니다.
트랜지션영상
한 샷에서 다음 샷으로 넘어가는 방식 — 하드 컷, 디졸브, 페이드, 와이프 등.
파라미터(가중치)인공지능
학습 중 모델이 습득하는 내부 수치. 모델이 ‘아는 것’을 저장하며, 수가 많을수록 보통 역량이 커질 수 있습니다.
파운데이션 모델인공지능
폭넓은 데이터로 학습된 대규모 범용 모델로, 다양한 다운스트림 작업에 적응시킬 수 있습니다.
파인튜닝 (미세 조정)인공지능
기본 모델을 특정 데이터로 추가 학습해 특화하는 과정 — 특정 스타일·브랜드·인물 등에 맞춤화.
프레임 레이트 (FPS)영상
초당 프레임 수 — 1초에 재생되는 정지 이미지 개수. 24fps는 영화 같은 느낌, 30fps는 웹 표준, 60fps는 스포츠·모션에 매우 부드럽습니다.
프레임 보간 (Frame interpolation)인공지능 영상
중간 프레임을 생성해 프레임 레이트를 높이거나 모션을 매끈하게 함 — 예: 24fps를 부드러운 60fps로.
프롬프트 (Prompt)인공지능
모델에 주는 지시문 — 보통 텍스트, 때로 이미지를 더해 원하는 영상을 설명합니다.
프롬프트 엔지니어링인공지능
주제·스타일·카메라·무드까지 의도한 결과가 안정적으로 나오도록 프롬프트를 설계하는 기법.
피사계 심도 (Depth of field)영상
이미지에서 또렷하게 초점이 맞는 범위. 얕은 심도는 배경을 흐려 피사체를 돋보이게 합니다.
학습 (Training)인공지능
방대한 데이터를 보여 주며 내부 파라미터를 점진적으로 조정해 좋은 결과를 내도록 모델을 가르치는 과정.
할루시네이션인공지능
모델이 그럴듯하지만 사실과 다른 결과를 내는 현상 — 깨진 텍스트, 손가락 개수 오류, 불가능한 동작 등.
합성 (Compositing)영상
푸티지, 그래픽, 이펙트, 텍스트 등 여러 시각 요소를 한 프레임으로 층층이 쌓아 결합하는 작업.
해상도 (Resolution)영상
각 프레임의 픽셀 크기. 가로 × 세로로 표기(예: 1920×1080). 픽셀이 많을수록 디테일이 높습니다. 일반 등급은 720p(HD), 1080p(Full HD), 4K, 8K.
화면비 (Aspect ratio)영상
프레임의 가로:세로 비율 — 16:9(와이드), 9:16(Reels·TikTok용 세로), 1:1(정사각형). 각 플랫폼·디스플레이에 영상이 어떻게 맞는지를 결정합니다.
B-롤영상
메인 샷 위에 덧붙여 맥락을 보태고, 설명을 돕거나 컷 편집을 감추는 보조 영상.
GAN인공지능
Generative Adversarial Network — 생성기와 판별기가 경쟁하는 초기 방법. 고품질 영상에서는 디퓨전에 크게 자리를 내주었습니다.
HDR(하이 다이내믹 레인지)영상
표준(SDR)보다 더 넓은 밝기·색역을 담는 영상. 하이라이트·그림자·색감이 더 현실적이고 풍부합니다.
LoRA인공지능
Low-Rank Adaptation — 전체 모델을 재학습하지 않고 작은 추가 파일로 새 스타일·캐릭터·개념을 가볍게 가르치는 방법.
LUT(룩업 테이블)영상
원하는 룩을 한 번에 적용하거나 색 공간 변환에 쓰이는 색상 매핑 프리셋.
RLHF인공지능
Reinforcement Learning from Human Feedback — 사람의 선호를 이용해 모델 출력을 인간 의도에 맞추는 학습.

프롬프트부터 렌더까지: 인공지능 영상의 언어

인공지능으로 영상 만들기는 두 세계의 교차점에 서 있습니다 — 수십 년간 쌓인 영화·영상 제작 어휘와, 빠르게 변하는 머신러닝의 언어. 이 사전은 두 영역을 한데 묶고, 생성형 영상에만 존재하는 새 개념까지 더해 어떤 툴, 튜토리얼, 모델 카드도 자신 있게 읽을 수 있도록 돕습니다.

기본부터 시작하세요: 화면비, 해상도, 프레임 레이트, 코덱이 영상의 모양과 재생 환경을 좌우합니다. 그다음은 인공지능 레이어 — 모델, 디퓨전, 프롬프트, 시드, LoRA가 생성 결과를 빚어냅니다. 마지막으로 인공지능 영상 고유 요소 — 텍스트-투-비디오, 이미지-투-비디오, 립싱크, 아바타, 시간적 일관성, 월드 모델 — 이 오늘의 생성기가 실제로 할 수 있는 일을 설명합니다.

모든 정의는 수학 없이도 이해되는 쉬운 한국어로 작성했습니다. 키워드로 검색하고, 주제로 필터링하거나, A–Z로 둘러본 뒤 Vivideo 스튜디오에서 바로 활용해 보세요.

인공지능 영상 사전

무료로 시작하기AI 비디오란?