il y a 8 mois

Résumé

Les images représentant des scènes complexes et dynamiques sont difficiles à analyser automatiquement, nécessitant une compréhension de haut niveau de la situation globale ainsi qu'une identification détaillée des entités participantes et de leurs interactions. Les approches actuelles utilisent des méthodes distinctes adaptées à des sous-tâches telles que la Reconnaissance de Situations et la détection d'Interactions Homme-Homme et Homme-Objet. Cependant, les récentes avancées dans la compréhension des images ont souvent exploité des représentations vision-langage (V&L) à l'échelle du web pour éviter le génie spécifique à chaque tâche. Dans ce travail, nous proposons un cadre pour les tâches de compréhension de scènes dynamiques en tirant parti des connaissances issues de représentations V&L modernes et figées. En abordant ces tâches de manière générique — soit en prédiction et analyse de texte structuré, soit en concaténation directe des représentations à l'entrée de modèles existants — nous obtenons des résultats d'état de l'art tout en utilisant un nombre minimal de paramètres entraînables par rapport aux approches actuelles. De plus, notre analyse des connaissances dynamiques de ces représentations montre que les représentations plus puissantes et récentes encodent efficacement les sémantiques des scènes dynamiques, rendant cette approche désormais possible.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Représentation Multimodale

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Shahaf Pruss Morris Alper Hadar Averbuch-Elor

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Représentation Multimodale

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Shahaf Pruss Morris Alper Hadar Averbuch-Elor

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Compréhension dynamique des scènes à partir de représentations vision-langage

Shahaf Pruss Morris Alper Hadar Averbuch-Elor

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Compréhension dynamique des scènes à partir de représentations vision-langage

Shahaf Pruss Morris Alper Hadar Averbuch-Elor

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Compréhension dynamique des scènes à partir de représentations vision-langage

Shahaf Pruss Morris Alper Hadar Averbuch-Elor

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters