il y a 8 mois

Résumé

Aujourd'hui, les réseaux de transformateurs ont démontré des performances supérieures dans de nombreuses tâches de vision par ordinateur. Dans un algorithme de reconstruction 3D multi-vue s'inscrivant dans ce paradigme, le traitement de l'auto-attention doit gérer des jetons d'image complexes contenant une grande quantité d'informations lorsqu'il fait face à des volumes importants d'entrées multi-vues. Le problème du contenu d'information conduit à une extrême difficulté dans l'apprentissage du modèle. Pour atténuer ce problème, des méthodes récentes compresse le nombre de jetons représentant chaque vue ou éliminent les opérations d'attention entre les jetons provenant de vues différentes. Il est évident que ces approches ont un impact négatif sur les performances. Par conséquent, nous proposons une attention à longue portée basée sur le principe diviser pour régner, appelée long-range grouping attention (LGA). Les jetons provenant de toutes les vues sont regroupés pour des opérations d'attention distinctes. Les jetons dans chaque groupe sont échantillonnés à partir de toutes les vues et peuvent fournir une représentation macroscopique pour la vue concernée. La richesse de l'apprentissage des caractéristiques est garantie par la diversité entre les différents groupes. Un encodeur efficace et performant peut être mis en place, qui connecte les caractéristiques inter-vues en utilisant LGA et extrait les caractéristiques intra-vues en utilisant la couche d'auto-attention standard. De plus, un nouveau décodeur progressif d'échantillonnage est également conçu pour générer des voxels avec une résolution relativement élevée. Grâce aux éléments mentionnés ci-dessus, nous construisons un réseau puissant basé sur les transformateurs, appelé LRGT (Long-Range Grouping Transformer). Les résultats expérimentaux sur ShapeNet confirment que notre méthode atteint une précision SOTA (State-of-the-Art) en reconstruction multi-vue. Le code sera disponible sur https://github.com/LiyingCV/Long-Range-Grouping-Transformer.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Transformer

Vision Par Ordinateur

Réponse À Des Questions Visuelles

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Liying Yang Zhenwei Zhu Xuxin Lin Jian Nong Yanyan Liang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Transformer

Vision Par Ordinateur

Réponse À Des Questions Visuelles

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Liying Yang Zhenwei Zhu Xuxin Lin Jian Nong Yanyan Liang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Transformateur de Groupement à Longue Portée pour la Reconstruction 3D Multivue

Liying Yang Zhenwei Zhu Xuxin Lin Jian Nong Yanyan Liang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Transformateur de Groupement à Longue Portée pour la Reconstruction 3D Multivue

Liying Yang Zhenwei Zhu Xuxin Lin Jian Nong Yanyan Liang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Transformateur de Groupement à Longue Portée pour la Reconstruction 3D Multivue

Liying Yang Zhenwei Zhu Xuxin Lin Jian Nong Yanyan Liang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters