HyperAIHyperAI

Command Palette

Search for a command to run...

Conditional DETR für schnellen Training-Konvergenz

Depu Meng Xiaokang Chen Zejia Fan Gang Zeng Houqiang Li Yuhui Yuan Lei Sun Jingdong Wang

Zusammenfassung

Der kürzlich entwickelte Ansatz DETR wendet die Transformer-Encoder- und Decoder-Architektur auf die Objekterkennung an und erreicht vielversprechende Leistungsergebnisse. In diesem Artikel behandeln wir das kritische Problem der langsamen Konvergenz während des Trainings und stellen einen bedingten Kreuz-Attention-Mechanismus vor, der ein schnelles Training von DETR ermöglicht. Unser Ansatz wird motiviert durch die Beobachtung, dass die Kreuz-Attention in DETR stark auf Content-Embeddings zur Lokalisierung der vier Extremitäten und zur Vorhersage des Box-Bereichs angewiesen ist, was einen hohen Bedarf an hochwertigen Content-Embeddings mit sich bringt und somit die Schwierigkeit des Trainings erhöht. Unser Ansatz, bedingtes DETR genannt, lernt aus den Decoder-Embeddings eine bedingte räumliche Abfrage, die für die mehrfach-kopierte Kreuz-Attention im Decoder verwendet wird. Der Vorteil besteht darin, dass durch die bedingte räumliche Abfrage jeder Kreuz-Attention-Kopf auf einen bestimmten Bandbereich konzentriert werden kann, der eine charakteristische Region umfasst, beispielsweise eine Objektextremität oder einen Bereich innerhalb der Box. Dadurch wird der räumliche Suchraum für die Lokalisierung der charakteristischen Regionen bei der Objektklassifikation und Box-Regression verengt, was die Abhängigkeit von den Content-Embeddings verringert und das Training erleichtert. Experimentelle Ergebnisse zeigen, dass bedingtes DETR die Konvergenz für die Backbone-Architekturen R50 und R101 um das 6,7-fache beschleunigt und für leistungsstärkere Backbones wie DC5-R50 und DC5-R101 sogar um das 10-fache. Der Quellcode ist unter https://github.com/Atten4Vis/ConditionalDETR verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Conditional DETR für schnellen Training-Konvergenz | Paper | HyperAI