il y a 8 mois

Résumé

La segmentation sémantique multimodale montre un potentiel significatif pour améliorer la précision de la segmentation dans des scènes complexes. Cependant, les méthodes actuelles intègrent souvent des modules de fusion de caractéristiques spécialisés adaptés à des modalités spécifiques, ce qui restreint la flexibilité des entrées et augmente le nombre de paramètres d'entraînement. Pour relever ces défis, nous proposons StitchFusion, un cadre de fusion modale simple mais efficace qui intègre directement des modèles pré-entraînés à grande échelle en tant que encodeurs et fuseurs de caractéristiques. Cette approche facilite une fusion complète de caractéristiques multimodales et multirésolution, permettant l'acceptation de toutes les entrées visuelles multimodales. Plus précisément, notre cadre réalise l'intégration modale pendant l'encodage en partageant les informations visuelles multimodales. Pour améliorer l'échange d'informations entre les modalités, nous introduisons un module d'adaptateur multidirectionnel (MultiAdapter) afin de permettre le transfert d'informations intermodales pendant l'encodage. En utilisant MultiAdapter pour propager les informations multirésolution à travers les encodeurs pré-entraînés lors du processus d'encodage, StitchFusion parvient à intégrer les informations visuelles multimodales pendant l'encodage. Des expériences comparatives étendues démontrent que notre modèle atteint des performances de pointe sur quatre jeux de données de segmentation multimodale avec un minimum de paramètres supplémentaires. De plus, l'intégration expérimentale du MultiAdapter avec des modules existants de fusion de caractéristiques (FFMs) souligne leur nature complémentaire. Notre code est disponible sur StitchFusion_repo.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Segmentation Sémantique

Transformer

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Bingyu Li Da Zhang Zhiyuan Zhao Junyu Gao Xuelong Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Segmentation Sémantique

Transformer

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Bingyu Li Da Zhang Zhiyuan Zhao Junyu Gao Xuelong Li

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

StitchFusion : Tisser n'importe quelles modalités visuelles pour améliorer la segmentation sémantique multimodale | Articles | HyperAI

Command Palette

StitchFusion : Tisser n'importe quelles modalités visuelles pour améliorer la segmentation sémantique multimodale

Bingyu Li Da Zhang Zhiyuan Zhao Junyu Gao Xuelong Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

StitchFusion : Tisser n'importe quelles modalités visuelles pour améliorer la segmentation sémantique multimodale

Bingyu Li Da Zhang Zhiyuan Zhao Junyu Gao Xuelong Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

StitchFusion : Tisser n'importe quelles modalités visuelles pour améliorer la segmentation sémantique multimodale

Bingyu Li Da Zhang Zhiyuan Zhao Junyu Gao Xuelong Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters