Des chercheurs dévoilent 3D-GPT, une IA capable de générer des mondes en 3D à partir de simples commandes textuelles
Des chercheurs de renommée internationale, provenant de l’Université nationale australienne, de l’Université d’Oxford et de l’Académie d’intelligence artificielle de Pékin, ont récemment mis au point une avancée technologique révolutionnaire dans le domaine de la modélisation 3D. Il s’agit de 3D-GPT, un nouveau système d’intelligence artificielle capable de générer des modèles 3D à partir de simples descriptions textuelles fournies par les utilisateurs.
Dans un article publié sur arXiv, les chercheurs décrivent en détail le fonctionnement de cette IA révolutionnaire. 3D-GPT représente une avancée majeure dans la création d’actifs 3D, offrant un moyen plus efficace et intuitif de créer des ressources 3D par rapport aux flux de travail de modélisation 3D traditionnels.
Le système est capable de disséquer les tâches de modélisation 3D procédurale en segments accessibles et de désigner l’agent approprié pour chaque tâche. Il utilise plusieurs agents d’intelligence artificielle qui se concentrent chacun sur une partie différente de la compréhension du texte et exécutent des fonctions de modélisation.
La génération de contenu automatisée et efficace est un enjeu majeur dans le domaine de la modélisation 3D. La génération procédurale, qui s’appuie sur des paramètres modifiables et des systèmes basés sur des règles, semble être une approche prometteuse. Toutefois, cela peut s’avérer complexe et exigeant, nécessitant une compréhension approfondie des règles, des algorithmes et des paramètres. C’est dans cette optique que 3D-GPT entre en jeu.
Le système utilise des modèles grand langage (LLM) pour la modélisation 3D basée sur des instructions. Les LLM sont positionnés comme des résolveurs de problèmes compétents, disséquant les tâches de modélisation 3D procédurale en segments accessibles et désignant l’agent approprié pour chaque tâche. 3D-GPT intègre trois agents principaux : l’agent de répartition des tâches, l’agent de conceptualisation et l’agent de modélisation. Ces agents collaborent pour atteindre deux objectifs majeurs.
Tout d’abord, ils améliorent les descriptions concises initiales de la scène, en les transformant en formes détaillées tout en adaptant dynamiquement le texte en fonction des instructions ultérieures. Ensuite, ils intègrent la génération procédurale, en extrayant les valeurs des paramètres du texte riche pour s’interfacer sans effort avec un logiciel 3D pour la création d’actifs.
Des études empiriques ont confirmé que 3D-GPT interprète et exécute les instructions de manière fiable, produisant des résultats de haute qualité. De plus, il collabore efficacement avec les concepteurs humains et s’intègre parfaitement à Blender, un logiciel de modélisation 3D populaire, ce qui permet d’élargir les possibilités de manipulation.
Ce travail de recherche met en évidence le potentiel des LLM dans la modélisation 3D et fournit un cadre de base pour les progrès futurs dans la génération et l’animation de scènes en 3D. Les chercheurs ont présenté 3D-GPT comme un nouveau cadre sans formation pour la modélisation 3D guidée par des instructions, intégrant de manière transparente la génération de procédures. Il fonctionne grâce aux capacités des LLM et vise à améliorer la communication entre les humains et l’intelligence artificielle dans le contexte de la conception 3D.
Il est intéressant de souligner que cette approche implique les efforts collaboratifs de trois agents fonctionnant comme une équipe de modélisation 3D cohérente, produisant finalement un fichier de modélisation 3D. Ce procédé diffère des représentations neuronales 3D conventionnelles.
De plus, cette méthode produit systématiquement des résultats de haute qualité, s’adapte facilement à de grandes scènes, garantit la cohérence 3D et offre des capacités de modélisation et d’édition de matériaux. Elle facilite également le traçage de rayons réel, permettant ainsi d’obtenir des visualisations plus précises et réalistes.
Les chercheurs soulignent néanmoins certaines limites de ce framework. Par exemple, le contrôle des courbes et la conception d’ombres complexes restent des défis à relever. De plus, l’efficacité de ce cadre dépend de la qualité et de la disponibilité des algorithmes de génération de procédures, ce qui peut limiter ses résultats dans certaines catégories spécifiques.
Malgré ces limites, les chercheurs sont confiants quant aux perspectives futures de ce domaine. Ils proposent trois orientations incontournables pour les recherches à venir : le réglage fin des LLM 3D, la découverte autonome de règles et le développement d’un système de modélisation 3D autonome réduisant l’intervention humaine.
En conclusion, 3D-GPT représente une avancée majeure dans le domaine de la modélisation 3D guidée par des instructions. Cette IA révolutionnaire ouvre de nouvelles perspectives en termes de création de contenus 3D automatisée et efficace. Elle présente non seulement des résultats de haute qualité, mais permet également une collaboration efficace entre l’intelligence artificielle et les concepteurs humains. Les chercheurs de l’Université nationale australienne continuent à explorer les possibilités offertes par cette technologie et sont confiants quant à son impact sur le domaine de la modélisation 3D.