il y a 6 mois

Résumé

Dans ce travail, nous présentons une nouvelle solution de pointe pour la tâche de recherche textuelle vers vidéo sur les jeux de données MSR-VTT, LSMDC, MSVD, YouCook2 et TGIF, obtenue à l’aide d’un seul modèle. Trois sources de données différentes sont combinées : des vidéos faiblement supervisées, des paires texte-image étiquetées par la foule, et des paires texte-vidéo. Une analyse minutieuse des réseaux pré-entraînés disponibles permet de sélectionner les meilleures connaissances a priori. Nous proposons une procédure d’entraînement en trois étapes, offrant une haute efficacité de transfert des connaissances et permettant d’utiliser des jeux de données bruités lors de l’entraînement sans dégradation de la connaissance a priori. En outre, une encodage positionnel double est employé pour améliorer la fusion entre les différentes modalités, et une méthode simple pour le traitement des entrées non carrées est suggérée.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Multimodal

Représentation Multimodale

Approche/Framework

Multimodal

Tâche

Alexander Kunitsyn Maksim Kalashnikov Maksim Dzabraev Andrei Ivaniuta

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Multimodal

Représentation Multimodale

Approche/Framework

Multimodal

Tâche

Alexander Kunitsyn Maksim Kalashnikov Maksim Dzabraev Andrei Ivaniuta

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

MDMMT-2 : Transformateur Multidomaine Multimodal pour la Recherche Vidéo, Un Pas de Plus Vers la Généralisation | Articles | HyperAI

Command Palette

MDMMT-2 : Transformateur Multidomaine Multimodal pour la Recherche Vidéo, Un Pas de Plus Vers la Généralisation

Alexander Kunitsyn Maksim Kalashnikov Maksim Dzabraev Andrei Ivaniuta

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MDMMT-2 : Transformateur Multidomaine Multimodal pour la Recherche Vidéo, Un Pas de Plus Vers la Généralisation

Alexander Kunitsyn Maksim Kalashnikov Maksim Dzabraev Andrei Ivaniuta

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MDMMT-2 : Transformateur Multidomaine Multimodal pour la Recherche Vidéo, Un Pas de Plus Vers la Généralisation

Alexander Kunitsyn Maksim Kalashnikov Maksim Dzabraev Andrei Ivaniuta

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters