Panorama des modèles d’IA utilisés pour le cinéma et le jeu vidéo
Dans le domaine du cinéma et du jeu vidéo, les intelligences artificielles génératives sont de plus en plus présentes. Elles permettent de créer des images, des vidéos et du contenu 3D d’une qualité toujours plus réaliste. Zoom sur les différents modèles d’IA utilisés dans ces domaines créatifs.
Modèles d’IA pour les images
Les GAN (réseaux contradictoires génératifs) sont présents depuis 2014. Ils sont composés d’un générateur et d’un discriminateur qui apprennent simultanément à distinguer les images réelles des images générées. Ces GAN permettent de créer des images toujours plus réalistes et de résolution croissante. Grâce à l’apprentissage du générateur, il est possible de modifier les caractéristiques d’une image en modifiant un vecteur de départ.
Le modèle FRAN (réseau visage re-vieillissement), conçu par Disney, permet de modifier l’âge de n’importe quel visage en haute définition, tout en préservant les dimensions de l’image. Pour s’entrainer, ce modèle utilise 400 000 paires visage-âge générées par un GAN. Il est notamment utilisé en post-production dans des films comme le dernier Indiana Jones pour obtenir un visage jeune d’un acteur vieillissant.
Les modèles de diffusion sont devenus la norme en matière de génération d’images. Des outils comme DALL-E ou Midjourney utilisent ces modèles dits « débruiteurs ». Ils apprennent à reconstruire des images en ajoutant du bruit à celles-ci. Ces modèles de diffusion peuvent être guidés par une image ou un texte à l’aide d’un encodeur texte-image appelé CLIP (contrastive image language pretraining) ou par un contour ou une pause humaine à l’aide de ControlNet.
IA générative pour la vidéo
L’ADFA (animation faciale pilotée par audio) est largement utilisé dans les industries créatives. Ce modèle permet d’associer phonèmes et visèmes, c’est-à-dire sons et expressions faciales, permettant ainsi de modifier les expressions d’un audio et d’un texte stylisés. Il est utilisé dans des techniques comme le « vubbing », qui adapte les mouvements de la bouche d’un acteur aux mots prononcés. Des sociétés comme HeyGen ou Flawless ont récemment démontré l’efficacité de ce modèle.
Segment Anything, créé par Meta en 2023, est un modèle spécialisé dans la génération de masques. Il permet d’identifier des objets dans une image ou une vidéo afin de les éditer. Ce modèle est entraîné sur un « jeu de masque d’image » et des annotateurs humains corrigent ces masques pour créer des ensembles de formation plus larges.
L’IA générative appliquée au secteur du jeu vidéo
Le modèle NeRF (champ de rayonnement neuronal) est formé à partir d’images 2D d’une même scène sous différents angles. Il prédit l’éclat (couleur et luminosité) et la densité (capacité à réfléchir ou à absorber la lumière) de chaque point de la scène. Ce modèle est utilisé dans le secteur du jeu vidéo pour modéliser des bâtiments en 3D.
Make-A-Video3D, également créé par Meta, permet de générer une vidéo 3D à partir de texte. Ce modèle est un NeRF 4D qui modélise l’éclat, la densité et la dynamique temporelle de chaque point de l’espace. Il permet ainsi d’animer une image statique.
Il existe de nombreux autres modèles d’IA utilisés dans les médias créatifs, mais ceux-ci donnent un aperçu des principaux outils actuels. L’avenir de l’IA générative est à la fois fascinant et effrayant, comme le souligne Nicolas Gaudemet, Chief AI Officer chez Onepoint. Selon lui, l’IA pourrait permettre à un acteur comme Tom Hanks de poursuivre sa carrière même après sa mort. Une idée qui témoigne des possibilités surprenantes de ces modèles d’IA.