Glossaire

Le dictionnaire de la vidéo par intelligence artificielle

Tous les termes que vous croiserez en créant des vidéos avec l’intelligence artificielle — des bases caméra et codecs à la diffusion, aux avatars et à la génération agentique — expliqués simplement.

74 termes · Vidéo · Intelligence artificielle · Vidéo par intelligence artificielle

74 termes

A B C D E É F G H I J L M P R S T V

Affinage (fine‑tuning)Intelligence artificielle: Un entraînement complémentaire d’un modèle de base sur des données spécifiques pour le spécialiser — pour un style, une marque ou une personne en particulier.
Apprentissage profondIntelligence artificielle: Apprentissage automatique utilisant des réseaux de neurones profonds (à nombreuses couches). Il alimente les modèles actuels d’image, de vidéo, de voix et de langage.
Avatar par intelligence artificielleVidéo par intelligence artificielle: Un présentateur à l’écran généré ou cloné par intelligence artificielle qui peut lire votre script dans la voix et la langue choisies.

B‑rollVidéo: Plans d’illustration insérés par‑dessus le plan principal pour ajouter du contexte, illustrer un point ou masquer une coupe.
Bandeau (lower third)Vidéo: Texte placé dans la partie basse du cadre, généralement le nom et la fonction d’un intervenant, ou un sous‑titre.
Bandes noires (letterboxing)Vidéo: Des barres noires ajoutées au‑dessus et en dessous (ou sur les côtés) d’une vidéo pour l’adapter à un autre format d’image sans recadrer.
BokehVidéo: Le flou d’arrière‑plan doux et esthétique, souvent rendu en disques lumineux.

Clonage de voixVidéo par intelligence artificielle: Recréer la voix d’une personne spécifique à partir d’un court échantillon pour lire de nouveaux textes avec cette même voix.
CodecVidéo: L’algorithme qui compresse et décompresse la vidéo — comme H.264, H.265/HEVC, AV1 ou VP9. Il équilibre qualité visuelle et taille de fichier.
Cohérence temporelleVidéo par intelligence artificielle: Maintenir stables personnages, objets et style d’une image à l’autre afin d’éviter le scintillement, les déformations ou les métamorphoses non naturelles.
CompositionVidéo: Superposition de multiples éléments visuels — rushes, graphismes, effets, texte — dans une seule image combinée.
Conception de promptsIntelligence artificielle: L’art de formuler des prompts pour que le modèle produise de façon fiable le résultat visé, incluant sujet, style, caméra et ambiance.
Conteneur (format de fichier)Vidéo: L’enveloppe qui regroupe la vidéo, l’audio et les métadonnées — MP4, MOV, WebM ou MKV. Elle est distincte du codec stocké à l’intérieur.
Contrôle caméraVidéo par intelligence artificielle: Diriger les mouvements d’une caméra virtuelle — panoramique, zoom, orbite, travelling — au sein d’un plan généré par IA.
Contrôle du mouvement / pinceau de mouvementVidéo par intelligence artificielle: Des outils pour diriger où et comment les éléments bougent dans un clip généré, plutôt que de tout laisser au modèle.

Débit binaireVidéo: La quantité de données utilisée par seconde de vidéo, mesurée en kbps ou Mbps. Un débit plus élevé préserve davantage de détails mais génère des fichiers plus volumineux.
DeepfakeVidéo par intelligence artificielle: Un média synthétique qui remplace ou fabrique de façon réaliste le visage ou la voix de quelqu’un. Puissant, mais qui soulève de vraies questions de consentement, d’authenticité et de droit.
Doublage par IAVidéo par intelligence artificielle: Remplacer ou ajouter une voix dans une autre langue, idéalement assortie à la voix et aux mouvements de lèvres du locuteur.

Échelle de guidage (CFG)Intelligence artificielle: À quel point le modèle suit strictement votre prompt plutôt que d’improviser. Des valeurs élevées collent au texte ; des valeurs basses laissent plus de liberté créative.
Étalonnage colorimétriqueVidéo: L’étape créative d’ajustement des couleurs, du contraste et de l’ambiance en post‑production pour donner un rendu cohérent et intentionnel.
Étapes d’échantillonnageIntelligence artificielle: Le nombre d’itérations qu’un modèle de diffusion effectue pour transformer le bruit en image finale. Plus d’étapes peuvent améliorer la qualité mais ralentissent et coûtent plus cher.

EntraînementIntelligence artificielle: Apprendre à un modèle en lui montrant d’immenses quantités de données et en ajustant progressivement ses paramètres internes jusqu’à produire de bons résultats.
Espace latentIntelligence artificielle: Une représentation mathématique compressée où le modèle opère réellement. La génération y a lieu d’abord, puis est décodée en pixels visibles.
Extension de vidéoVidéo par intelligence artificielle: Prolonger un clip au‑delà de sa durée d’origine en générant des images supplémentaires qui s’enchaînent naturellement.

FiligraneVidéo: Un logo ou du texte superposé à une vidéo pour marquer la propriété. De nombreux générateurs gratuits en ajoutent un ; les offres payantes le retirent généralement.
Format d’imageVidéo: Le rapport largeur/hauteur du cadre — 16:9 (écran large), 9:16 (vertical pour Reels et TikTok) ou 1:1 (carré). Il détermine comment votre vidéo s’adapte à chaque plateforme et écran.
Fréquence d’images (FPS)Vidéo: Images par seconde — combien d’images fixes s’affichent chaque seconde. 24fps donne un rendu cinématographique, 30fps est la norme web, 60fps paraît ultra‑fluide pour les mouvements et le sport.

GANIntelligence artificielle: Generative Adversarial Network — une méthode antérieure où un générateur et un critique se confrontent. Largement remplacée par la diffusion pour la vidéo de haute qualité.
GraineIntelligence artificielle: Le nombre aléatoire de départ d’une génération. Réutiliser la même seed avec le même prompt reproduit le même résultat — utile pour la cohérence et les petits ajustements.

HallucinationIntelligence artificielle: Quand un modèle produit une sortie sûre d’elle mais fausse ou inventée — comme du texte illisible, des doigts en trop ou des mouvements impossibles.
HDR (High Dynamic Range)Vidéo: Une vidéo qui couvre une plage plus large de luminosité et de couleurs que la norme (SDR), pour des hautes lumières, des ombres et des tons plus réalistes.
Humain numérique / double numériqueVidéo par intelligence artificielle: Une réplique photoréaliste par intelligence artificielle d’une personne réelle, entraînée une fois et réutilisée comme présentateur à l’écran.

Image cléVidéo: En montage, une image marquée qui fixe une valeur (position, échelle, opacité) entre lesquelles le logiciel interpole. En compression, une image de référence complète à partir de laquelle les images voisines sont reconstruites.
Image de référenceVidéo par intelligence artificielle: Une image fournie au modèle pour guider le sujet, le personnage ou le style de la vidéo générée.
Image en vidéo (I2V)Vidéo par intelligence artificielle: Donner vie à une image fixe sous forme de vidéo, souvent guidée par un prompt décrivant le mouvement souhaité.
Incrustation (fond vert)Vidéo: Remplacer un arrière‑plan uni — généralement vert — par une autre image ou vidéo en rendant cette couleur transparente.
InférenceIntelligence artificielle: Exécuter un modèle déjà entraîné pour produire une sortie — par exemple générer votre vidéo à partir d’un prompt. C’est ce qui est facturé par génération.
Inpainting / outpaintingVidéo par intelligence artificielle: Remplir une partie d’une image (inpainting) ou étendre au‑delà de ses bords (outpainting). En vidéo, utilisé pour retirer, remplacer ou agrandir des zones au fil du temps.
IntégrationIntelligence artificielle: Une liste de nombres (un vecteur) qui capture le sens d’un texte, d’une image ou d’un audio, afin que le modèle compare et combine différentes entrées.
Interpolation d’imagesVidéo par intelligence artificielle: Générer des images intermédiaires pour augmenter la fréquence d’images ou lisser le mouvement — par exemple passer de 24fps à un 60fps soyeux.
InviteIntelligence artificielle: L’instruction que vous donnez au modèle — généralement du texte, parfois avec une image — décrivant la vidéo que vous voulez créer.

Jeu de donnéesIntelligence artificielle: L’ensemble d’exemples — vidéos, images, textes — sur lequel un modèle est entraîné. Sa qualité et sa variété déterminent ce que le modèle peut faire.

LoRAIntelligence artificielle: Low‑Rank Adaptation — une méthode légère pour apprendre à un modèle un nouveau style, personnage ou concept via un petit fichier additionnel, sans réentraîner tout le modèle.
LUT (Look-Up Table)Vidéo: Un préréglage qui re‑cartographie les couleurs pour appliquer un look en un clic, ou convertir des images entre espaces colorimétriques.

ModèleIntelligence artificielle: Un système d’intelligence artificielle entraîné qui transforme une entrée — par exemple un prompt texte — en sortie, comme une vidéo. Les modèles diffèrent par leurs atouts, vitesses et tarifs.
Modèle à poids ouvertsIntelligence artificielle: Un modèle dont les poids sont publiés pour que chacun puisse l’exécuter, l’étudier ou l’affiner (par ex. sur fal ou en local), par opposition à un modèle fermé accessible uniquement via une API.
Modèle de diffusionIntelligence artificielle: L’approche dominante derrière les images et vidéos générées : le modèle part d’un bruit aléatoire et, étape par étape, l’en enlève jusqu’à faire apparaître un résultat cohérent correspondant à votre prompt.
Modèle du mondeVidéo par intelligence artificielle: Une intelligence artificielle qui construit une simulation interne du comportement des scènes, objets et lois physiques, l’aidant à générer des vidéos plus longues, cohérentes et stables.
Modèle fondationIntelligence artificielle: Un grand modèle généraliste entraîné sur des données larges, adaptable à de nombreuses tâches en aval.
MultimodalIntelligence artificielle: Un modèle qui comprend ou génère plusieurs types de données à la fois — par exemple texte, image, vidéo et audio ensemble.

Paramètres (poids)Intelligence artificielle: Les valeurs internes qu’un modèle apprend pendant l’entraînement. Elles stockent ce que le modèle « sait » ; plus de paramètres peuvent signifier plus de capacités.
PlanVidéo: Une prise continue unique. Types courants : plan large, plan moyen et gros plan.
Plan d’établissementVidéo: Un plan d’ouverture large qui pose le lieu et le contexte d’une scène avant de couper plus serré.
Plan poitrine parlantVidéo par intelligence artificielle: Une vidéo centrée sur une personne qui s’adresse à la caméra — le cas d’usage classique pour les avatars et présentateurs par IA.
Point de contrôleIntelligence artificielle: Un instantané sauvegardé des poids d’un modèle. Les checkpoints sont souvent partagés comme le « fichier modèle » téléchargeable à exécuter.
Première et dernière imageVidéo par intelligence artificielle: Fournir une image de départ et/ou de fin que le modèle anime entre les deux, pour contrôler précisément l’ouverture et la chute d’un plan.
Profondeur de champVidéo: La portion de l’image nette. Une faible profondeur de champ floute l’arrière‑plan pour faire ressortir le sujet.
Prompt négatifIntelligence artificielle: Une description de ce que vous NE voulez PAS dans la sortie. Elle éloigne le modèle d’objets, de styles ou d’artefacts indésirables.

Rendu / renderingVidéo: Le traitement d’un projet en un fichier vidéo final — ou, avec l’intelligence artificielle, le modèle qui génère des images en un clip final.
Réseau de neuronesIntelligence artificielle: Un modèle librement inspiré du cerveau : des couches de « neurones » connectés qui apprennent des motifs à partir de données. C’est la base de l’IA générative moderne.
RésolutionVidéo: Les dimensions en pixels de chaque image, notées largeur × hauteur (ex. 1920×1080). Plus de pixels signifie plus de détails. Niveaux courants : 720p (HD), 1080p (Full HD), 4K et 8K.
RLHFIntelligence artificielle: Reinforcement Learning from Human Feedback — un entraînement qui utilise les préférences humaines pour aligner les sorties d’un modèle avec ce que les gens souhaitent réellement.

Sous‑titres / captionsVidéo: Le texte à l’écran de l’audio parlé. Les sous‑titres pour sourds et malentendants indiquent aussi les sons et intervenants ; les sous‑titres classiques transcrivent ou traduisent le dialogue.
StoryboardVidéo: Une séquence planifiée de croquis ou d’images qui cartographie chaque plan avant de produire ou de générer une vidéo.
SuréchantillonnageVidéo par intelligence artificielle: Utiliser l’intelligence artificielle pour augmenter la résolution d’une vidéo — par exemple de 1080p à 4K — en ajoutant des détails plausibles plutôt qu’en étirant les pixels.
Synchronisation labialeVidéo par intelligence artificielle: Faire correspondre les mouvements de la bouche d’un personnage ou avatar à l’audio parlé pour donner l’impression qu’il prononce réellement les mots.

Texte en parole (TTS)Vidéo par intelligence artificielle: Transformer du texte écrit en audio parlé naturel avec une voix synthétique — le moteur des voix off générées par IA.
Texte en vidéo (T2V)Vidéo par intelligence artificielle: Générer un clip vidéo directement à partir d’une description écrite — sans caméra, acteurs ni banques d’images.
TokenIntelligence artificielle: La plus petite unité d’entrée qu’un modèle traite — un fragment de mot pour le texte, ou une zone/une image pour la vidéo.
Transfert de styleVidéo par intelligence artificielle: Appliquer le style visuel d’une référence à vos propres rushes ou à une génération.
TransformerIntelligence artificielle: Une architecture de réseau de neurones basée sur « l’attention », qui pondère les relations entre les éléments d’entrée. Elle sous‑tend les grands modèles de langage et de nombreuses architectures vidéo modernes.
TransitionVidéo: La façon dont un plan enchaîne sur le suivant — coupe franche, fondus enchaînés, fondu ou volet.

Vidéo agentiqueVidéo par intelligence artificielle: Un agent d’intelligence artificielle qui planifie et gère toute la production — script, scènes, voix, avatars et montage — à partir d’un simple brief, plutôt qu’un clip à la fois.
Vidéo en vidéo (V2V)Vidéo par intelligence artificielle: Transformer un clip existant dans un nouveau style ou un nouvel aspect tout en préservant son mouvement et son timing d’origine.

Du prompt au rendu : le langage de la vidéo par intelligence artificielle

Créer des vidéos avec l’intelligence artificielle se situe au carrefour de deux univers — des décennies de vocabulaire du cinéma et de la production vidéo, et le langage en constante évolution de l’apprentissage automatique. Ce dictionnaire réunit les deux, plus les nouveaux termes propres à la vidéo générative, pour que vous lisiez n’importe quel outil, tutoriel ou fiche modèle en toute confiance.

Commencez par l’essentiel : le format d’image, la résolution, la fréquence d’images et les codecs déterminent l’apparence de votre vidéo et où elle sera diffusée. Puis la couche d’intelligence artificielle — modèles, diffusion, prompts, seeds et LoRA — façonne ce qui est généré. Enfin, les spécificités de la vidéo générative — text-to-video, image-to-video, synchronisation labiale, avatars, cohérence temporelle et modèles du monde — décrivent ce que les générateurs actuels savent réellement faire.

Chaque définition est rédigée en langage clair, sans maths. Recherchez par mot-clé, filtrez par thème ou parcourez de A à Z — puis mettez le vocabulaire en pratique dans le studio Vivideo.

Le dictionnaire de la vidéo par intelligence artificielle

Commencer gratuitement Qu’est-ce que la vidéo IA ?