il y a 8 mois

Résumé

La tâche de recherche d'images composées (Composed Image Retrieval, CoIR) implique des requêtes combinant les modalités image et texte, permettant aux utilisateurs d'exprimer leur intention de manière plus efficace. Cependant, les jeux de données actuels pour CoIR sont d'un ordre de grandeur inférieur à ceux des autres tâches de vision et langage (Vision and Language, V&L). De plus, certains de ces jeux de données présentent des problèmes notables, tels que des requêtes contenant des modalités redondantes. Pour remédier à ces lacunes, nous présentons le jeu de données Large Scale Composed Image Retrieval (LaSCo), un nouveau jeu de données CoIR qui est dix fois plus grand que ceux existants. Le pré-entraînement sur notre LaSCo montre une amélioration notable des performances, même en situation zéro-shot. Par ailleurs, nous proposons une nouvelle approche pour l'analyse des jeux de données et méthodes CoIR, capable de détecter la redondance ou la nécessité des modalités dans les requêtes. Nous introduisons également un nouveau modèle de référence pour CoIR, le Cross-Attention driven Shift Encoder (CASE). Ce modèle permet une fusion précoce des modalités grâce à un module d'attention croisée et utilise une tâche auxiliaire supplémentaire pendant l'entraînement. Nos expériences démontrent que ce nouveau modèle de référence surpasses les méthodes actuelles state-of-the-art sur des benchmarks établis comme FashionIQ et CIRR.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Représentation Multimodale

Apprentissage Multi-tâches

Approche/Framework

Multimodal

Tâche

Matan Levy Rami Ben-Ari Nir Darshan Dani Lischinski

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Représentation Multimodale

Apprentissage Multi-tâches

Approche/Framework

Multimodal

Tâche

Matan Levy Rami Ben-Ari Nir Darshan Dani Lischinski

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Évaluation de la qualité et du roaming des données pour la recherche d'images composées

Matan Levy Rami Ben-Ari Nir Darshan Dani Lischinski

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Évaluation de la qualité et du roaming des données pour la recherche d'images composées

Matan Levy Rami Ben-Ari Nir Darshan Dani Lischinski

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Évaluation de la qualité et du roaming des données pour la recherche d'images composées

Matan Levy Rami Ben-Ari Nir Darshan Dani Lischinski

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters