HyperAIHyperAI
il y a 2 mois

Pont entre le suivi d'objets multi-objets de bout en bout et non de bout en bout

Feng Yan; Weixin Luo; Yujie Zhong; Yiyang Gan; Lin Ma
Pont entre le suivi d'objets multi-objets de bout en bout et non de bout en bout
Résumé

Les méthodes actuelles de suivi multi-objet de bout en bout (e2e-MOT) n'ont pas encore surpassé les méthodes de suivi par détection non de bout en bout. Une raison potentielle est la stratégie d'attribution des étiquettes lors de l'entraînement, qui associe constamment les objets suivis aux requêtes de suivi et attribue ensuite les rares nouveaux venus aux requêtes de détection. Avec une correspondance bipartite un-à-un, une telle attribution entraînera un entraînement déséquilibré, c'est-à-dire un nombre insuffisant d'échantillons positifs pour les requêtes de détection, particulièrement dans une scène fermée, où la majorité des nouveaux venus apparaissent au début des vidéos. Par conséquent, le e2e-MOT sera plus susceptible de produire un terminal de suivi sans renouvellement ou réinitialisation, comparativement aux autres méthodes de suivi par détection. Pour atténuer ce problème, nous présentons Co-MOT, une méthode simple et efficace facilitant le e2e-MOT grâce à une nouvelle stratégie d'attribution des étiquettes basée sur la coopétition avec un concept d'ombre. Plus précisément, nous ajoutons les objets suivis aux cibles d'appariement pour les requêtes de détection lors de l'attribution des étiquettes pour l'entraînement des décodeurs intermédiaires. Pour l'initialisation des requêtes, nous élargissons chaque requête par un ensemble de contreparties ombre avec une perturbation limitée à elle-même. Grâce à des expérimentations abondantes, Co-MOT atteint des performances supérieures sans coûts supplémentaires, par exemple 69,4 % HOTA sur DanceTrack et 52,8 % TETA sur BDD100K. De manière impressionnante, Co-MOT nécessite seulement 38 % des opérations flottantes (FLOPs) de MOTRv2 pour obtenir des performances similaires, ce qui se traduit par une vitesse d'inférence 1,4 fois plus rapide.

Pont entre le suivi d'objets multi-objets de bout en bout et non de bout en bout | Articles de recherche récents | HyperAI