Command Palette
Search for a command to run...
Conditional DETR für schnellen Training-Konvergenz
Conditional DETR für schnellen Training-Konvergenz
Depu Meng Xiaokang Chen Zejia Fan Gang Zeng Houqiang Li Yuhui Yuan Lei Sun Jingdong Wang
Zusammenfassung
Der kürzlich entwickelte Ansatz DETR wendet die Transformer-Encoder- und Decoder-Architektur auf die Objekterkennung an und erreicht vielversprechende Leistungsergebnisse. In diesem Artikel behandeln wir das kritische Problem der langsamen Konvergenz während des Trainings und stellen einen bedingten Kreuz-Attention-Mechanismus vor, der ein schnelles Training von DETR ermöglicht. Unser Ansatz wird motiviert durch die Beobachtung, dass die Kreuz-Attention in DETR stark auf Content-Embeddings zur Lokalisierung der vier Extremitäten und zur Vorhersage des Box-Bereichs angewiesen ist, was einen hohen Bedarf an hochwertigen Content-Embeddings mit sich bringt und somit die Schwierigkeit des Trainings erhöht. Unser Ansatz, bedingtes DETR genannt, lernt aus den Decoder-Embeddings eine bedingte räumliche Abfrage, die für die mehrfach-kopierte Kreuz-Attention im Decoder verwendet wird. Der Vorteil besteht darin, dass durch die bedingte räumliche Abfrage jeder Kreuz-Attention-Kopf auf einen bestimmten Bandbereich konzentriert werden kann, der eine charakteristische Region umfasst, beispielsweise eine Objektextremität oder einen Bereich innerhalb der Box. Dadurch wird der räumliche Suchraum für die Lokalisierung der charakteristischen Regionen bei der Objektklassifikation und Box-Regression verengt, was die Abhängigkeit von den Content-Embeddings verringert und das Training erleichtert. Experimentelle Ergebnisse zeigen, dass bedingtes DETR die Konvergenz für die Backbone-Architekturen R50 und R101 um das 6,7-fache beschleunigt und für leistungsstärkere Backbones wie DC5-R50 und DC5-R101 sogar um das 10-fache. Der Quellcode ist unter https://github.com/Atten4Vis/ConditionalDETR verfügbar.