HyperAIHyperAI

Command Palette

Search for a command to run...

DETR Guidé par la Salience pour la Récupération de Moments et la Détection de Points Saillants

Gordeev Aleksandr ; Dokholyan Vladimir ; Tolstykh Irina ; Kuprashevich Maksim

Résumé

Les approches existantes pour la recherche de moments vidéo et la détection de points forts ne parviennent pas à aligner efficacement les caractéristiques textuelles et vidéo, ce qui entraîne des performances insatisfaisantes et une utilisation limitée en production. Pour remédier à cela, nous proposons une nouvelle architecture qui utilise des modèles vidéo fondamentaux récents conçus pour un tel alignement. Associée au mécanisme d'attention croisée guidée par la salience introduit et à une architecture hybride DETR, notre approche améliore considérablement les performances dans les tâches de recherche de moments et de détection de points forts. Pour une amélioration encore plus significative, nous avons développé InterVid-MR, un jeu de données à grande échelle et de haute qualité destiné à l'entraînement préalable. En l'utilisant, notre architecture obtient des résultats d'état de l'art sur les benchmarks QVHighlights, Charades-STA et TACoS. L'approche proposée offre une solution efficace et évolutrice pour les scénarios d'apprentissage sans supervision (zero-shot) et d'ajustement fin (fine-tuning) dans les tâches vidéo-langue.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp