HyperAIHyperAI
vor 2 Monaten

Die Lücke zwischen end-to-end und nicht end-to-end Multi-Objekt-Verfolgung überbrücken

Feng Yan; Weixin Luo; Yujie Zhong; Yiyang Gan; Lin Ma
Die Lücke zwischen end-to-end und nicht end-to-end Multi-Objekt-Verfolgung überbrücken
Abstract

Bestehende end-to-end-Multi-Objekt-Verfolgungsmethoden (e2e-MOT) haben die nicht end-to-end Verfolgung-per-Detektion-Methoden noch nicht übertroffen. Ein möglicher Grund dafür ist die Label-Zuordnungsstrategie während des Trainings, die die verfolgten Objekte stets mit den Tracking-Anfragen verbindet und anschließend die wenigen Neugeborenen den Detektionsanfragen zuordnet. Mit einer ein-zu-einen bipartiten Zuordnung wird eine solche Zuordnung zu einem unbalancierten Training führen, d.h., es gibt wenige positive Beispiele für Detektionsanfragen, insbesondere in geschlossenen Szenen, da die Mehrheit der Neugeborenen am Anfang der Videos auftritt. Daher ist es bei e2e-MOT einfacher, eine Tracking-Terminierung ohne Erneuerung oder Reinitialisierung zu erzeugen, verglichen mit anderen Verfolgung-per-Detektion-Methoden. Um dieses Problem zu lindern, präsentieren wir Co-MOT, eine einfache und effektive Methode zur Förderung von e2e-MOT durch eine neuartige Kooperation/Zusammenwirkung (coopetition) Label-Zuordnung mit einem Schattenkonzept. Speziell fügen wir verfolgte Objekte den Zuordnungszielen für Detektionsanfragen hinzu, wenn wir die Label-Zuordnung für das Training der Zwischendecoder durchführen. Für die Anfrageinitialisierung erweitern wir jede Anfrage um eine Reihe von Schattenkontrahenten (shadow counterparts), wobei diese sich selbst nur begrenzt stören. Durch umfangreiche Abstraktionstests erreicht Co-MOT überlegene Leistungen ohne zusätzliche Kosten, z.B. 69,4 % HOTA auf DanceTrack und 52,8 % TETA auf BDD100K. Beeindruckenderweise benötigt Co-MOT nur 38 % der FLOPs von MOTRv2, um eine ähnliche Leistung zu erzielen, was zu einer 1,4-fach schnelleren Inferenzgeschwindigkeit führt.请注意,"Cooperation/Zusammenwirkung (coopetition)" 这个术语在德语中并不常见,因此保留了英文原词 "coopetition" 并提供了解释。此外,“Abstraktionstests” 是对“ablations” 的一种翻译,但通常在科技文献中会直接使用 “Ablationstests”。因此,建议将该句中的 “Abstraktionstests” 修改为 “Ablationstests”,以保持专业性和准确性。修改后的版本如下:Bestehende end-to-end-Multi-Objekt-Verfolgungsmethoden (e2e-MOT) haben die nicht end-to-end Verfolgung-per-Detektion-Methoden noch nicht übertroffen. Ein möglicher Grund dafür ist die Label-Zuordnungsstrategie während des Trainings, die die verfolgten Objekte stets mit den Tracking-Anfragen verbindet und anschließend die wenigen Neugeborenen den Detektionsanfragen zuordnet. Mit einer ein-zu-einen bipartiten Zuordnung wird eine solche Zuordnung zu einem unbalancierten Training führen, d.h., es gibt wenige positive Beispiele für Detektionsanfragen, insbesondere in geschlossenen Szenen, da die Mehrheit der Neugeborenen am Anfang der Videos auftritt. Daher ist es bei e2e-MOT einfacher, eine Tracking-Terminierung ohne Erneuerung oder Reinitialisierung zu erzeugen, verglichen mit anderen Verfolgung-per-Detektion-Methoden. Um dieses Problem zu lindern, präsentieren wir Co-MOT, eine einfache und effektive Methode zur Förderung von e2e-MOT durch eine neuartige Kooperation/Zusammenwirkung (coopetition) Label-Zuordnung mit einem Schattenkonzept. Speziell fügen wir verfolgte Objekte den Zuordnungszielen für Detektionsanfragen hinzu, wenn wir die Label-Zuordnung für das Training der Zwischendecoder durchführen. Für die Anfrageinitialisierung erweitern wir jede Anfrage um eine Reihe von Schattenkontrahenten (shadow counterparts), wobei diese sich selbst nur begrenzt stören. Durch umfangreiche Ablationstests erreicht Co-MOT überlegene Leistungen ohne zusätzliche Kosten, z.B. 69,4 % HOTA auf DanceTrack und 52,8 % TETA auf BDD100K. Beeindruckenderweise benötigt Co-MOT nur 38 % der FLOPs von MOTRv2, um eine ähnliche Leistung zu erzielen, was zu einer 1,4-fach schnelleren Inferenzgeschwindigkeit führt.

Die Lücke zwischen end-to-end und nicht end-to-end Multi-Objekt-Verfolgung überbrücken | Neueste Forschungsarbeiten | HyperAI