용어집

인공지능 영상 사전

카메라·코덱 기초부터 디퓨전, 아바타, 에이전틱 생성까지 — 인공지능으로 영상을 만들 때 마주치는 모든 용어를 쉬운 말로 설명합니다.

74 용어 · 영상 · 인공지능 · 인공지능 영상

74 용어

B G H L R 가 네 데 디 딥 레 렌 로 립 멀 모 보 비 샘 샷 설 스 시 신 업 에 오 워 월 이 인 임 잠 첫 체 추 카 캡 컨 컬 코 크 키 텍 토 트 파 프 피 학 할 합 해 화

가이던스 스케일 (CFG)인공지능: 프롬프트를 얼마나 엄격히 따를지 vs. 모델의 즉흥성을 얼마나 허용할지의 정도. 값이 높으면 지시에 더 충실하고, 낮으면 창의적 자유도가 커집니다.

네거티브 프롬프트인공지능: 출력에 포함되길 원치 않는 요소를 명시하는 설명. 불필요한 객체·스타일·아티팩트를 피하도록 모델을 유도합니다.

데이터셋인공지능: 모델 학습에 쓰이는 예시 모음 — 비디오, 이미지, 텍스트 등. 품질과 다양성이 모델의 능력을 좌우합니다.

디지털 휴먼 / 디지털 트윈인공지능 영상: 실재 인물을 고품질로 복제한 포토리얼리스틱 인공지능 진행자. 한 번 학습해 반복 활용합니다.
디퓨전 모델인공지능: 인공지능 이미지·영상의 주류 접근법: 무작위 노이즈에서 시작해 단계를 거치며 노이즈를 걷어 내 프롬프트에 맞는 일관된 결과를 만듭니다.

딥러닝 (Deep learning)인공지능: 다층 신경망을 사용하는 머신러닝. 오늘날의 이미지·비디오·음성·언어 모델을 구동합니다.
딥페이크인공지능 영상: 얼굴·목소리를 사실적으로 바꾸거나 만들어 내는 합성 미디어. 강력하지만 동의·진위·법적 이슈를 동반합니다.

레터박싱영상: 다른 화면비에 맞추기 위해 영상 위아래(또는 좌우)에 검은 띠를 더해, 크롭 없이 전체 화면을 보이게 하는 방법.
레퍼런스 이미지인공지능 영상: 생성 영상의 피사체·캐릭터·스타일을 가이드하기 위해 모델에 제공하는 이미지.

렌더 / 렌더링영상: 프로젝트를 최종 영상 파일로 처리하는 것 — 또는 인공지능에서 모델이 프레임을 생성해 최종 클립으로 만드는 과정.

로워 서드영상: 프레임 하단에 배치하는 텍스트. 주로 화자 이름·직함이나 캡션을 표시합니다.

립싱크인공지능 영상: 캐릭터나 아바타의 입 모양을 음성과 맞춰 실제로 말하는 듯 보이게 함.

멀티모달인공지능: 텍스트·이미지·비디오·오디오 등 둘 이상 형태의 데이터를 동시에 이해하거나 생성하는 모델.

모델인공지능: 입력(예: 텍스트 프롬프트)을 출력(예: 비디오)으로 바꾸는 학습된 인공지능 시스템. 모델마다 강점·속도·가격이 다릅니다.
모션 컨트롤 / 모션 브러시인공지능 영상: 생성된 클립에서 사물이 어디로·어떻게 움직일지 직접 지시해, 전적으로 모델에만 맡기지 않도록 하는 도구.

보이스 클로닝인공지능 영상: 짧은 샘플로 특정 인물의 목소리를 재현해 같은 음색으로 새로운 텍스트를 말하게 함.
보케 (Bokeh)영상: 배경 초점 밖 영역의 부드럽고 아름다운 흐림, 흔히 빛망울로 표현됩니다.

비디오 확장인공지능 영상: 자연스럽게 이어지도록 추가 프레임을 생성해 원래 길이를 넘어 클립을 연장.
비디오-투-비디오 (V2V)인공지능 영상: 기존 클립의 동작·타이밍은 보존하면서 새로운 스타일·룩으로 변환.
비트레이트영상: 초당 사용하는 데이터 양(kbps 또는 Mbps). 비트레이트가 높을수록 디테일은 유지되지만 파일 크기는 커집니다.

샘플링 스텝인공지능: 디퓨전 모델이 노이즈를 최종 프레임으로 바꾸는 반복 횟수. 스텝이 많을수록 품질이 좋아질 수 있지만 더 느리고 비용이 듭니다.

샷 (Shot)영상: 끊김 없이 이어지는 하나의 연속 촬영. 대표적으로 와이드 샷, 미디엄 샷, 클로즈업이 있습니다.

설정 샷 (Establishing shot)영상: 장면의 장소와 맥락을 먼저 보여주는 넓은 오프닝 샷으로, 이후 근접 샷으로 컷 전환하기 전 사용됩니다.

스타일 전이 (Style transfer)인공지능 영상: 레퍼런스의 시각적 스타일을 자신의 푸티지나 생성 결과에 적용.
스토리보드영상: 제작·생성 전, 각 샷을 순서대로 스케치/프레임으로 계획한 구성도.

시간적 일관성인공지능 영상: 프레임마다 캐릭터·오브젝트·스타일을 안정적으로 유지해 깜빡임, 왜곡, 비자연스러운 변형을 방지.
시드 (Seed)인공지능: 생성의 시작 난수. 같은 프롬프트에 같은 시드를 쓰면 동일 결과를 재현할 수 있어 일관성 유지와 미세 수정에 유용합니다.

신경망 (Neural network)인공지능: 뇌에서 영감을 얻은 구조: 연결된 ‘뉴런’ 층을 통해 데이터 패턴을 학습. 현대 생성형 인공지능의 기반입니다.

업스케일링인공지능 영상: 인공지능으로 영상의 해상도를 상승 — 예: 1080p를 4K로 — 단순 확대가 아닌 그럴듯한 디테일을 보강.

에이전틱 비디오인공지능 영상: 하나의 브리프로 대본, 씬, 음성, 아바타, 편집까지 전 과정을 계획·수행하는 인공지능 에이전트 — 클립 단위가 아닌 프로덕션 단위로 작동.

오픈 웨이트 모델인공지능: 가중치가 공개되어 누구나 실행·연구·파인튜닝할 수 있는 모델(예: fal 또는 로컬). API로만 접근 가능한 폐쇄형과 대비됩니다.

워터마크영상: 소유권 표기를 위해 영상 위에 올리는 로고나 텍스트. 많은 무료 인공지능 생성기는 워터마크를 추가하고, 유료 요금제는 보통 제거합니다.

월드 모델인공지능 영상: 장면·객체·물리의 작동을 내부 시뮬레이션으로 구축해 더 길고 일관된 영상 생성을 돕는 인공지능.

이미지-투-비디오 (I2V)인공지능 영상: 정지 이미지를 영상으로 움직이게 만드는 것. 원하는 모션을 프롬프트로 보조 설명하는 경우가 많습니다.

인공지능 더빙인공지능 영상: 다른 언어의 음성을 대체·추가하고, 이상적으로는 화자 음색·립싱크까지 맞춥니다.
인공지능 아바타인공지능 영상: 스크립트를 선택한 음성·언어로 말하는 온스크린 진행자를 인공지능으로 생성·클론한 존재.
인페인팅 / 아웃페인팅인공지능 영상: 프레임의 일부를 채우거나(인페인팅) 경계를 넘어 확장(아웃페인팅)하는 것. 영상에서는 시간 축을 따라 영역을 제거·교체·확장하는 데 사용.

임베딩 (Embedding)인공지능: 텍스트·이미지·오디오의 의미를 담은 숫자 목록(벡터). 모델이 서로 다른 입력을 비교·결합할 수 있게 해줍니다.

잠재 공간 (Latent space)인공지능: 모델이 실제로 작업하는 압축 표현 공간. 먼저 이곳에서 생성이 일어나고, 이후 눈에 보이는 픽셀로 디코딩됩니다.

첫 프레임 & 마지막 프레임인공지능 영상: 시작·종료 프레임을 제공해 모델이 그 사이를 애니메이트하도록 함으로써 샷의 시작과 끝을 정밀 제어.

체크포인트인공지능: 모델 가중치를 저장해 둔 스냅샷. 사람들이 내려받아 실행하는 ‘모델 파일’로 배포되곤 합니다.

추론 (Inference)인공지능: 이미 학습된 모델을 실행해 출력을 만드는 것 — 예를 들어 프롬프트로 영상을 생성. 과금은 보통 생성(한 번) 단위로 이뤄집니다.

카메라 컨트롤인공지능 영상: 인공지능으로 만든 샷 내부에서 팬, 줌, 오빗, 돌리 등 가상 카메라 움직임을 지시.

캡션 / 자막영상: 음성 내용을 화면에 텍스트로 표시. 캡션은 소리·화자 정보까지 포함해 접근성을 높이고, 자막은 주로 대사를 필사·번역합니다.

컨테이너 (파일 형식)영상: 비디오·오디오·메타데이터를 함께 담는 파일 래퍼 — MP4, MOV, WebM, MKV. 내부에 저장된 코덱과는 구분됩니다.

컬러 그레이딩영상: 후반 작업에서 색상, 대비, 무드를 조정해 전체 푸티지에 일관되고 의도된 룩을 부여하는 창의적 단계.

코덱 (Codec)영상: 영상을 압축·복원하는 알고리즘 — H.264, H.265/HEVC, AV1, VP9 등. 화질과 파일 크기의 균형을 맞춥니다.

크로마 키 (그린 스크린)영상: 단색(일반적으로 초록) 배경을 투명 처리해 다른 이미지나 영상으로 대체하는 기법.

키프레임영상: 편집에서 값(위치, 스케일, 불투명도 등)을 지정해 소프트웨어가 그 사이를 보간하도록 하는 기준 프레임. 압축에서는 주변 프레임이 참고해 재구성하는 완전한 기준 프레임을 뜻합니다.

텍스트-투-비디오 (T2V)인공지능 영상: 글 설명만으로 바로 영상 클립을 생성 — 카메라, 배우, 스톡 푸티지 없이도 가능합니다.
텍스트-투-스피치 (TTS)인공지능 영상: 문자를 합성 음성으로 읽어 주는 기술 — 인공지능 보이스오버의 엔진.

토큰 (Token)인공지능: 모델이 처리하는 최소 단위 — 텍스트의 부분 단어, 비디오의 패치나 프레임 등.
토킹 헤드인공지능 영상: 카메라를 향해 말하는 사람을 중심으로 한 영상 — 인공지능 아바타·프레젠터의 대표 사례.

트랜스포머인공지능: 입력 간 관계를 가중하는 ‘어텐션’에 기반한 신경망 구조. 대규모 언어 모델과 많은 최신 비디오 모델의 토대입니다.
트랜지션영상: 한 샷에서 다음 샷으로 넘어가는 방식 — 하드 컷, 디졸브, 페이드, 와이프 등.

파라미터(가중치)인공지능: 학습 중 모델이 습득하는 내부 수치. 모델이 ‘아는 것’을 저장하며, 수가 많을수록 보통 역량이 커질 수 있습니다.
파운데이션 모델인공지능: 폭넓은 데이터로 학습된 대규모 범용 모델로, 다양한 다운스트림 작업에 적응시킬 수 있습니다.
파인튜닝 (미세 조정)인공지능: 기본 모델을 특정 데이터로 추가 학습해 특화하는 과정 — 특정 스타일·브랜드·인물 등에 맞춤화.

프레임 레이트 (FPS)영상: 초당 프레임 수 — 1초에 재생되는 정지 이미지 개수. 24fps는 영화 같은 느낌, 30fps는 웹 표준, 60fps는 스포츠·모션에 매우 부드럽습니다.
프레임 보간 (Frame interpolation)인공지능 영상: 중간 프레임을 생성해 프레임 레이트를 높이거나 모션을 매끈하게 함 — 예: 24fps를 부드러운 60fps로.
프롬프트 (Prompt)인공지능: 모델에 주는 지시문 — 보통 텍스트, 때로 이미지를 더해 원하는 영상을 설명합니다.
프롬프트 엔지니어링인공지능: 주제·스타일·카메라·무드까지 의도한 결과가 안정적으로 나오도록 프롬프트를 설계하는 기법.

피사계 심도 (Depth of field)영상: 이미지에서 또렷하게 초점이 맞는 범위. 얕은 심도는 배경을 흐려 피사체를 돋보이게 합니다.

학습 (Training)인공지능: 방대한 데이터를 보여 주며 내부 파라미터를 점진적으로 조정해 좋은 결과를 내도록 모델을 가르치는 과정.

할루시네이션인공지능: 모델이 그럴듯하지만 사실과 다른 결과를 내는 현상 — 깨진 텍스트, 손가락 개수 오류, 불가능한 동작 등.

합성 (Compositing)영상: 푸티지, 그래픽, 이펙트, 텍스트 등 여러 시각 요소를 한 프레임으로 층층이 쌓아 결합하는 작업.

해상도 (Resolution)영상: 각 프레임의 픽셀 크기. 가로 × 세로로 표기(예: 1920×1080). 픽셀이 많을수록 디테일이 높습니다. 일반 등급은 720p(HD), 1080p(Full HD), 4K, 8K.

화면비 (Aspect ratio)영상: 프레임의 가로:세로 비율 — 16:9(와이드), 9:16(Reels·TikTok용 세로), 1:1(정사각형). 각 플랫폼·디스플레이에 영상이 어떻게 맞는지를 결정합니다.

B-롤영상: 메인 샷 위에 덧붙여 맥락을 보태고, 설명을 돕거나 컷 편집을 감추는 보조 영상.

GAN인공지능: Generative Adversarial Network — 생성기와 판별기가 경쟁하는 초기 방법. 고품질 영상에서는 디퓨전에 크게 자리를 내주었습니다.

HDR(하이 다이내믹 레인지)영상: 표준(SDR)보다 더 넓은 밝기·색역을 담는 영상. 하이라이트·그림자·색감이 더 현실적이고 풍부합니다.

LoRA인공지능: Low-Rank Adaptation — 전체 모델을 재학습하지 않고 작은 추가 파일로 새 스타일·캐릭터·개념을 가볍게 가르치는 방법.
LUT(룩업 테이블)영상: 원하는 룩을 한 번에 적용하거나 색 공간 변환에 쓰이는 색상 매핑 프리셋.

RLHF인공지능: Reinforcement Learning from Human Feedback — 사람의 선호를 이용해 모델 출력을 인간 의도에 맞추는 학습.

프롬프트부터 렌더까지: 인공지능 영상의 언어

인공지능으로 영상 만들기는 두 세계의 교차점에 서 있습니다 — 수십 년간 쌓인 영화·영상 제작 어휘와, 빠르게 변하는 머신러닝의 언어. 이 사전은 두 영역을 한데 묶고, 생성형 영상에만 존재하는 새 개념까지 더해 어떤 툴, 튜토리얼, 모델 카드도 자신 있게 읽을 수 있도록 돕습니다.

기본부터 시작하세요: 화면비, 해상도, 프레임 레이트, 코덱이 영상의 모양과 재생 환경을 좌우합니다. 그다음은 인공지능 레이어 — 모델, 디퓨전, 프롬프트, 시드, LoRA가 생성 결과를 빚어냅니다. 마지막으로 인공지능 영상 고유 요소 — 텍스트-투-비디오, 이미지-투-비디오, 립싱크, 아바타, 시간적 일관성, 월드 모델 — 이 오늘의 생성기가 실제로 할 수 있는 일을 설명합니다.

모든 정의는 수학 없이도 이해되는 쉬운 한국어로 작성했습니다. 키워드로 검색하고, 주제로 필터링하거나, A–Z로 둘러본 뒤 Vivideo 스튜디오에서 바로 활용해 보세요.

인공지능 영상 사전

무료로 시작하기 AI 비디오란?