End-to-End-Objekterkennung mit Transformers

Wir stellen eine neue Methode vor, die das Objektdetektionsproblem als direktes Set-Vorhersage-Problem betrachtet. Unser Ansatz vereinfacht die Detektionspipeline erheblich und beseitigt effektiv die Notwendigkeit vieler handkodierter Komponenten wie eines Non-Maximum-Suppression-Verfahrens oder der Generierung von Anchors, die explizit unsere Vorwissen über die Aufgabe kodieren. Die zentralen Bestandteile des neuen Frameworks, das als DEtection TRansformer (DETR) bezeichnet wird, sind eine set-basierte globale Verlustfunktion, die durch bipartites Matching eindeutige Vorhersagen erzwingt, sowie eine Transformer-Encoder-Decoder-Architektur. Auf Basis einer festen, kleinen Menge gelernter Objektabfragen analysiert DETR die Beziehungen zwischen den Objekten und den globalen Bildkontext, um parallel die endgültige Menge an Vorhersagen direkt auszugeben. Das neue Modell ist konzeptionell einfach und erfordert im Gegensatz zu vielen anderen modernen Detektoren keine spezialisierte Bibliothek. DETR erreicht eine Genauigkeit und Laufzeitleistung, die mit dem etablierten und hochgradig optimierten Faster RCNN-Baseline auf dem anspruchsvollen COCO-Objektdetektionsdatensatz vergleichbar ist. Darüber hinaus kann DETR problemlos verallgemeinert werden, um in einheitlicher Weise Panoptic-Segmentierung zu erzeugen. Wir zeigen, dass es hierbei deutlich gegenüber konkurrierenden Baselines übertrifft. Trainingscode und vortrainierte Modelle sind verfügbar unter https://github.com/facebookresearch/detr.