il y a 6 mois

Résumé

Les architectures actuelles destinées aux tâches multimodales, telles que la réponse à des questions visuelles, souffrent d'une complexité élevée. En conséquence, ces architectures sont difficiles à entraîner et nécessitent des ressources computationnelles importantes. Pour remédier à ces limitations, nous proposons une architecture basée sur CLIP qui ne requiert aucune mise au point (fine-tuning) des extracteurs de caractéristiques. Un classificateur linéaire simple est appliqué aux caractéristiques concaténées provenant des encodeurs d’image et de texte. Lors de l’entraînement, une perte auxiliaire est introduite, opérant sur les types de réponses. La classification résultante est ensuite utilisée comme porte d’attention pour la sélection de la classe de réponse. Sur le défi VizWiz 2022 en réponse aux questions visuelles, nous atteignons une précision de 60,15 % pour la Tâche 1 : Prédire la réponse à une question visuelle, et un score AP de 83,78 % pour la Tâche 2 : Prédire la répondabilité d’une question visuelle.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Multimodal

Apprentissage Multi-tâches

Approche/Framework

Multimodal

Tâche

Fabian Deuser Konrad Habel Philipp J. Rösch Norbert Oswald

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Réponse À Des Questions Visuelles

Multimodal

Apprentissage Multi-tâches

Approche/Framework

Multimodal

Tâche

Fabian Deuser Konrad Habel Philipp J. Rösch Norbert Oswald

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Moins, c'est plus : des couches linéaires sur les caractéristiques CLIP comme modèle puissant pour VizWiz | Articles | HyperAI

Command Palette

Moins, c'est plus : des couches linéaires sur les caractéristiques CLIP comme modèle puissant pour VizWiz

Fabian Deuser Konrad Habel Philipp J. Rösch Norbert Oswald

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Moins, c'est plus : des couches linéaires sur les caractéristiques CLIP comme modèle puissant pour VizWiz

Fabian Deuser Konrad Habel Philipp J. Rösch Norbert Oswald

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Moins, c'est plus : des couches linéaires sur les caractéristiques CLIP comme modèle puissant pour VizWiz

Fabian Deuser Konrad Habel Philipp J. Rösch Norbert Oswald

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters