Le modèle IA crée instantanément une symbol three-D à partir d’un échantillon 2D

L’structure globale de LRM, un cadre d’encodeur et de décodeur basé sur un transformateur entièrement différenciable pour los angeles reconstruction d’une symbol distinctive en NeRF. LRM applique un modèle de imaginative and prescient pré-entraîné (DINO) pour coder l’symbol d’entrée (Phase 3.1), où les caractéristiques de l’symbol sont projetées sur une représentation three-D par un grand décodeur de transformateur by means of une consideration mutuelle (Phase 3.2), suivi d’un perceptron multicouche pour prédire les issues. couleur et intensité pour l’affichage.Volumétrique (Phase 3.3). L’ensemble du réseau est formé de manière exhaustive sur environ un million de données three-D (segment 4.1) avec des pertes mineures de reconstruction d’symbol (segment 3.4). crédit: arXiv (2023). DOI : 10.48550/arxiv.2311.04400

Dans le monde émergent de l’informatique à grande échelle, ce n’était qu’une query de temps avant qu’une avancée révolutionnaire ne soit prête à bouleverser le domaine de los angeles visualisation three-D.

Adobe Analysis et l’Université nationale australienne (ANU) ont annoncé le premier modèle d’IA succesful de créer des pictures three-D à partir d’une seule symbol 2D.

Dans le cadre d’un développement qui pourrait changer le processus de création de modèles three-D, les chercheurs affirment que leur nouvel algorithme, formé sur d’énormes échantillons d’pictures, peut créer de telles pictures three-D en quelques secondes.

Le modèle de reconstruction à grande échelle (LRM) est basé sur un réseau neuronal hautement évolutif contenant 1 million d’ensembles de données avec 500 tens of millions de paramètres, a déclaré Yicong Hong, stagiaire chez Adobe et ancien étudiant diplômé de l’École d’ingénierie, d’informatique et de cybernétique de l’Université nationale australienne. Ces ensembles de données comprennent des pictures, des formes three-D et des vidéos.

“Cette combinaison d’un modèle haute capacité et de données d’entraînement à grande échelle permet à notre modèle d’être hautement généralisable et de produire des reconstructions three-D de haute qualité à partir de différentes entrées de take a look at”, a déclaré Hong, auteur essential d’un rapport sur le projet.

“À notre connaissance, (notre) LRM est le premier modèle de reconstruction three-D à grande échelle.”

Los angeles réalité augmentée, los angeles réalité virtuelle, les jeux, l’animation cinématographique et le design industriel devraient bénéficier de cette technologie transformatrice.

Les premiers logiciels d’imagerie three-D ne fonctionnaient bien que dans des catégories de sujets spécifiques avec des formes prédéfinies. Des progrès ultérieurs dans los angeles génération d’pictures ont été réalisés à l’aide de programmes tels que DALL-E et Solid Diffusion, qui « ont tiré parti de los angeles remarquable capacité de généralisation des modèles de diffusion 2D pour permettre des vues multiples », a expliqué Hong. Cependant, les résultats de ces programmes étaient limités à des modèles génératifs 2D pré-entraînés.

D’autres systèmes ont utilisé l’amélioration de los angeles forme pour obtenir des résultats impressionnants, mais ils sont « souvent lents et peu maniables », selon Hong.

Hong a déclaré que le développement de modèles de langage naturel au sein de grands réseaux de transformateurs qui utilisent des données à grande échelle pour maximiser les tâches de prédiction du mot suivant a encouragé son équipe à se poser los angeles query : « Est-il imaginable d’apprendre un modèle three-D général avant de reconstruire un objet à partir d’un seul modèle ? symbol?”

Leur réponse a été « oui ».

“LRM peut reconstruire des formes three-D haute résolution à partir d’une huge gamme d’pictures capturées dans le monde réel, ainsi que d’pictures générées par des modèles génératifs”, a déclaré Hong. « LRM est également une resolution très pratique pour les packages en aval, automobile il peut produire une forme three-D en seulement cinq secondes sans nécessiter d’optimisation ultérieure. »

Le succès du programme réside dans sa capacité à s’appuyer sur sa base de données de tens of millions de paramètres d’pictures et à prédire le champ de rayonnement neuronal (NeRF). Il s’agit de los angeles capacité de créer des pictures three-D réalistes basées uniquement sur des pictures 2D, même si ces pictures sont en basse résolution. NeRF possède des capacités de synthèse d’pictures, de détection d’objets et de segmentation d’pictures.

Il y a 60 ans, le premier programme informatique était créé permettant aux utilisateurs de créer et de manipuler des formes three-D simples. Planche à dessin, conçue par Ivan Sutherland dans le cadre de sa thèse de doctorat. thèse au MIT, disposait d’un general de 64 Ko de mémoire.

Au fil des décennies, les logiciels three-D ont évolué à pas de géant avec des programmes tels qu’AutoCAD, three-D Studio, SoftImage three-D, RenderMan et Maya.

L’article de Hong “LRM : Huge Unmarried-Symbol Reconstruction Style to three-D” a été téléchargé sur le serveur de préimpression arXiv Le 8 novembre.

Plus d’data:
Yicong Hong et al.,LRM : Modèle de reconstruction d’une symbol distinctive en three-D à grande échelle, arXiv (2023). DOI : 10.48550/arxiv.2311.04400

Web page du projet : yiconghong.me/LRM/

Informations sur les magazines :
arXiv

© 2023 Réseau ScienceX

los angeles quotation: Le modèle IA crée instantanément une symbol three-D à partir d’un échantillon 2D (13 novembre 2023) Récupéré le 13 novembre 2023 sur

Ce report est soumis au droit d’auteur. Nonobstant toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni à titre informatif uniquement.