HyperAIHyperAI
vor 17 Tagen

Mr. DETR: Anleitende Mehrpfad-Training für Detektions-Transformers

Chang-Bin Zhang, Yujie Zhong, Kai Han
Mr. DETR: Anleitende Mehrpfad-Training für Detektions-Transformers
Abstract

Bekannte Methoden verbessern die Ausbildung von Detektions-Transformern, indem sie eine ergänzende one-to-many-Zuordnung integrieren. In dieser Arbeit betrachten wir das Modell als ein Multi-Task-Framework, das gleichzeitig one-to-one- und one-to-many-Vorhersagen durchführt. Wir untersuchen die Rolle jedes einzelnen Bausteins im Transformer-Decoder in Bezug auf diese beiden Trainingsziele, einschließlich Selbst-Attention, Cross-Attention und Feed-Forward-Netzwerk. Unsere empirischen Ergebnisse zeigen, dass jeder einzelne Bestandteil des Decoders effektiv beide Ziele gleichzeitig lernen kann, selbst wenn andere Komponenten geteilt werden. Diese Erkenntnis führt uns zu einem neuen Multi-Route-Trainingsschema, das eine Hauptroute für die one-to-one-Vorhersage und zwei ergänzende Trainingspfade für die one-to-many-Vorhersage umfasst. Wir verbessern das Trainingsverfahren durch eine neuartige instruktive Selbst-Attention, die objektbezogene Anfragen für die one-to-many-Vorhersage dynamisch und flexibel leitet. Die ergänzenden Pfade werden während der Inferenz entfernt, sodass weder die Modellarchitektur noch die Inferenzkosten beeinflusst werden. Wir führen umfangreiche Experimente an verschiedenen Baselines durch und erzielen konsistente Verbesserungen, wie in Abbildung 1 dargestellt ist. Projektseite: https://visual-ai.github.io/mrdetr