il y a 3 mois

Résumé

Les êtres humains apprennent les concepts abstraits grâce à une synergie multisensorielle, et une fois formés, ces représentations peuvent souvent être rappelés à partir d’un seul mode sensoriel. Inspirés par ce principe, nous introduisons Concerto, une simulation minimaliste de l’apprentissage des concepts humains pour la cognition spatiale, combinant une auto-distillation intra-modale en 3D avec un joint embedding cross-modale 2D-3D. Malgré sa simplicité, Concerto apprend des caractéristiques spatiales plus cohérentes et plus informatives, comme le montre la visualisation en zéro-shot. Il surpasse à la fois les modèles auto-supervisés d’état de l’art (SOTA) en 2D et en 3D indépendants de 14,2 % et 4,8 % respectivement, ainsi que leur concaténation de caractéristiques, dans le cadre d’une enquête linéaire pour la perception de scènes 3D. Avec un fine-tuning complet, Concerto établit de nouveaux records SOTA sur plusieurs benchmarks d’interprétation de scènes (par exemple, 80,7 % de mIoU sur ScanNet). Nous proposons également une variante de Concerto adaptée à la compréhension spatiale des nuages de points en vidéo, ainsi qu’un traducteur qui projette linéairement les représentations de Concerto dans l’espace linguistique de CLIP, permettant ainsi une perception en monde ouvert. Ces résultats mettent en évidence que Concerto émerge des représentations spatiales offrant une cohérence géométrique et sémantique de fine-grain supérieure.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Représentation Multimodale

Vision Par Ordinateur

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Représentation Multimodale

Vision Par Ordinateur

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Concerto : L'apprentissage auto-supervisé conjoint 2D-3D émerge des représentations spatiales

Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Concerto : L'apprentissage auto-supervisé conjoint 2D-3D émerge des représentations spatiales

Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Concerto : L'apprentissage auto-supervisé conjoint 2D-3D émerge des représentations spatiales

Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters