il y a 6 mois

Résumé

Nous présentons une nouvelle référence en matière de récupération texte-vidéo sur les benchmarks MSRVTT et LSMDC, où notre modèle surpasse largement toutes les solutions antérieures. En outre, des résultats de pointe sont atteints sur deux jeux de données avec un seul modèle, sans adaptation fine (fine-tuning). Cette généralisation multidomaine est obtenue grâce à une combinaison appropriée de différents jeux de données de descriptions vidéo. Nous démontrons que l'entraînement sur des jeux de données distincts peut améliorer mutuellement les performances sur les tests. En outre, nous analysons les intersections entre plusieurs jeux de données populaires et constatons un chevauchement significatif entre les ensembles d'entraînement et de test pour MSRVTT, situation similaire observée pour ActivityNet.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Video Captioning

Représentation Multimodale

Multimodal

Tâche

Maksim Dzabraev Maksim Kalashnikov Stepan Komkov Aleksandr Petiushko

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Video Captioning

Représentation Multimodale

Multimodal

Tâche

Maksim Dzabraev Maksim Kalashnikov Stepan Komkov Aleksandr Petiushko

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

MDMMT : Transformer multidomaine multimodal pour la recherche vidéo | Articles | HyperAI

Command Palette

MDMMT : Transformer multidomaine multimodal pour la recherche vidéo

Maksim Dzabraev Maksim Kalashnikov Stepan Komkov Aleksandr Petiushko

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MDMMT : Transformer multidomaine multimodal pour la recherche vidéo

Maksim Dzabraev Maksim Kalashnikov Stepan Komkov Aleksandr Petiushko

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MDMMT : Transformer multidomaine multimodal pour la recherche vidéo

Maksim Dzabraev Maksim Kalashnikov Stepan Komkov Aleksandr Petiushko

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters