MELON : L’Innovation de Stanford et Google AI pour la Reconnaissance d’Objets en 3D
MELON : L’Innovation de Stanford et Google AI pour la Reconnaissance d’Objets en 3D


Stanford et Google AI ont créé MELON, une technique d’IA permettant de reconstruire des objets 3D à partir d’images 2D sans connaissance préalable des poses de caméra.
La traduction d’images 2D en modèles 3D précis constitue un défi majeur pour les ordinateurs en raison de l’inférence de pose, qui a des répercussions importantes dans des domaines variés tels que la modélisation 3D du commerce électronique et la navigation des véhicules autonomes. L’obstacle de l’inférence de pose souligne la difficulté à déduire les formes des objets à partir d’images 2D, contrairement à la facilité avec laquelle les humains peuvent le faire.
Les méthodologies antérieures, qu’elles reposent sur des poses de caméra pré-recueillies ou qu’elles emploient des réseaux contradictoires génératifs (GAN), ont échoué à fournir des solutions précises et efficaces pour la reconstruction d’objets 3D à partir d’images 2D en l’absence de poses connues. Cela a conduit à un besoin de nouvelles approches innovantes pour résoudre ce problème complexe.
MELON représente une avancée significative dans ce domaine en utilisant un encodeur CNN léger pour la régression de pose et en introduisant une perte modulo qui prend en compte les pseudosymétries des objets. Cette approche rationalisée mais très efficace permet d’atteindre une précision exceptionnelle dans la reconstruction d’objets 3D à partir d’images sans poses connues, éliminant ainsi la nécessité d’initialisations de pose approximatives et de méthodologies de formation complexes.
En s’appuyant sur un encodeur CNN dynamiquement entraîné pour prédire les poses de la caméra à partir des images d’entraînement et en introduisant un mécanisme de perte modulo qui tient compte des pseudosymétries des objets, MELON parvient à surmonter la nature mal posée du problème de reconstruction d’objets 3D. Cette approche novatrice simplifie le processus tout en produisant des résultats compétitifs, comme le souligne l’évaluation de l’ensemble de données NeRF Synthetic.






