TripoSR : l’IA qui génère un objet 3D à partir d’une image

Stability AI, la société à l’origine du célèbre modèle d’image Stable Diffusion AI, a dévoilé une technologie révolutionnaire appelée TripoSR. Cet outil génère des modèles 3D de haute qualité à partir d’une seule image en moins d’une seconde.


C’est quoi TripoSR ?

Développé en partenariat avec Tripo AI, TripoSR est conçu pour répondre aux demandes croissantes des professionnels du divertissement, des jeux, du design industriel et de l’architecture, offrant des sorties réactives pour visualiser des objets 3D détaillés.

Les caractéristiques de TripoSR

Ce qui distingue TripoSR, c’est sa vitesse et son accessibilité remarquables. Lorsqu’il est testé sur un GPU Nvidia A100, il peut générer des sorties 3D de qualité brouillon, complétées par des maillages texturés, en seulement 0,5 seconde, surpassant ainsi les autres modèles ouverts d’image en 3D comme OpenLRM.

Mais la véritable puissance du TripoSR réside dans sa polyvalence. Même les utilisateurs n’ayant pas accès à des GPU puissants peuvent exploiter ses capacités, car le modèle est optimisé pour fonctionner avec de faibles budgets.

S’appuyant sur les travaux récents de LRM (Large Reconstruction Model For Single Image to 3D), l’équipe de Stability AI et Tripo AI ont introduit plusieurs améliorations techniques au modèle de base. Ces améliorations incluent l’optimisation du numéro de canal, la supervision des masques et une stratégie de rendu de recadrage plus efficace, qui contribuent toutes aux performances impressionnantes du modèle.

Comment fonctionne TripoSR ?

L’outil vous permet de prendre n’importe quelle image, de supprimer l’arrière-plan et de la convertir en un objet 3D entièrement rendu avec lequel vous pouvez interagir. L’image sert de base à la reconstruction 3D. Il passe par un encodeur pré-entraîné pour le convertir en vecteurs avec des caractéristiques globales et locales de l’image. 

Ils disposent des informations nécessaires pour ensuite générer un objet 3D. Il n’a besoin d’aucune entrée supplémentaire telle que les paramètres de la caméra ou sa position car TripoSR a été formé pour « deviner » ces informations. Stability AI et Tripo AI ont soigneusement organisé un CC-BY, un sous-ensemble de meilleure qualité de l’ ensemble de données Objaverse , pour les données d’entraînement. Du côté du modèle, ils ont également introduit plusieurs améliorations techniques par rapport au modèle LRM de base , notamment l’optimisation du numéro de canal, la supervision des masques et une stratégie de rendu de recadrage plus efficace.

Quels sont les cas d’utilisation ?

Cette génération en temps quasi réel d’un objet unique pourrait conduire à une véritable création de monde virtuel comme Apple Vision Pro, créant des jeux qui changent au fur et à mesure que l’utilisateur interagit.

les utilisateurs pourraient générer de nouvelles illustrations ou de nouveaux objets pour remplir leur vue, ou même prendre un objet du monde réel et le transformer en un objet virtuel avec lequel vous pourrez interagir en pleine VR.


Conformément à l’esprit de collaboration open source, le code du modèle TripoSR est désormais disponible sur le GitHub de Tripo AI , et les poids du modèle sont disponibles sur Hugging Face . Il est recommandé aussi de se référer au rapport technique pour plus de détails sur le modèle TripoSR.