HyperAIHyperAI
il y a 2 mois

TarViS : Une approche unifiée pour la segmentation vidéo ciblée

Ali Athar; Alexander Hermans; Jonathon Luiten; Deva Ramanan; Bastian Leibe
TarViS : Une approche unifiée pour la segmentation vidéo ciblée
Résumé

Le domaine général de la segmentation vidéo est actuellement fragmenté en différentes tâches couvrant plusieurs benchmarks. Malgré les progrès rapides réalisés dans l'état de l'art, les méthodes actuelles sont majoritairement spécifiques à une tâche et ne peuvent pas généraliser conceptuellement à d'autres tâches. Inspirés par les approches récentes dotées d'une capacité multi-tâche, nous proposons TarViS : une nouvelle architecture réseau unifiée qui peut être appliquée à toute tâche nécessitant la segmentation d'un ensemble de cibles définies arbitrairement dans une vidéo. Notre approche est flexible quant à la façon dont les tâches définissent ces cibles, car elle modélise celles-ci sous forme de requêtes abstraites qui sont ensuite utilisées pour prédire des masques de cibles précis au niveau du pixel. Un seul modèle TarViS peut être entraîné conjointement sur une collection de jeux de données couvrant différentes tâches, et peut basculer entre les tâches lors de l'inférence sans aucun réentraînement spécifique à une tâche. Pour démontrer son efficacité, nous appliquons TarViS à quatre tâches différentes, à savoir la Segmentation d'Instances Vidéo (VIS), la Segmentation Panoptique Vidéo (VPS), la Segmentation d'Objets Vidéo (VOS) et le Suivi Guidé par des Exemples Ponctuels (PET). Notre modèle unifié et entraîné conjointement atteint des performances de pointe sur 5/7 benchmarks couvrant ces quatre tâches, et des performances compétitives sur les deux restants. Le code source et les poids du modèle sont disponibles à l'adresse suivante : https://github.com/Ali2500/TarViS

TarViS : Une approche unifiée pour la segmentation vidéo ciblée | Articles de recherche récents | HyperAI