HyperAIHyperAI

Command Palette

Search for a command to run...

SNIPER: Effizientes Mehrskalen-Training

Bharat Singh Mahyar Najibi Larry S. Davis

Zusammenfassung

Wir stellen SNIPER vor, einen Algorithmus zur effizienten Multi-Skalen-Ausbildung in Instanz-Level-Bilderkennungsaufgaben. Anstatt jedes Pixel in einem Bildpyramidensystem zu verarbeiten, verarbeitet SNIPER Kontextbereiche um die wahren Instanzen (als Chips bezeichnet) in der geeigneten Skala. Für das Hintergrund-Abtasten werden diese Kontextbereiche durch Vorschläge generiert, die aus einem Region Proposal Network stammen, das mit einem kurzen Lernzeitplan trainiert wurde. Somit ändert sich die Anzahl der pro Bild während des Trainings generierten Chips anpassend an die Komplexität der Szene. SNIPER verarbeitet im Vergleich zum üblichen Single-Skalen-Training bei 800x1333 Pixeln auf dem COCO-Datensatz nur 30% mehr Pixel. Dennoch betrachtet es auch Proben von extremen Auflösungen des Bildpyramidensystems, wie 1400x2000 Pixeln. Da SNIPER auf neu abgetasteten niedrigen Auflösungs-Chips (512x512 Pixel) operiert, kann es eine Batch-Größe von bis zu 20 auf einer einzelnen GPU haben, selbst mit einem ResNet-101-Rückenbonieren. Daher kann es während des Trainings von Batch-Normalisierung profitieren, ohne dass eine Synchronisierung der Batch-Normalisierungsstatistiken über mehrere GPUs erforderlich ist. SNIPER bringt das Training von Instanz-Level-Erkennungsaufgaben wie Objekterkennung näher an das Protokoll für Bildklassifizierung und deutet darauf hin, dass die weit verbreitete Meinung, es sei wichtig, bei hohen Auflösungen zu trainieren, um Instanz-Level-Bilderkennungsaufgaben zu lösen, möglicherweise nicht korrekt ist. Unsere Implementierung basierend auf Faster-RCNN mit einem ResNet-101-Rückenbonieren erreicht ein mAP von 47,6% bei der Begrenzungsbox-Erkennung auf dem COCO-Datensatz und kann während der Inferenz mit einer einzelnen GPU fünf Bilder pro Sekunde verarbeiten. Der Quellcode ist unter https://github.com/MahyarNajibi/SNIPER/ verfügbar.注释:- "Rückenbonieren" 是 "backbone" 的德语翻译,但这个词在德语文献中并不常用。通常会直接使用英文 "Backbone" 或者解释为 "Kernnetzwerk"。因此,建议使用 "Backbone"。- “Begrenzungsbox” 是“bounding box”的德语翻译,也可以写作“Grenzrahmen”。以下是优化后的版本:Wir stellen SNIPER vor, einen Algorithmus zur effizienten Multi-Skalen-Ausbildung in Instanz-Level-Bilderkennungsaufgaben. Anstatt jedes Pixel in einem Bildpyramidensystem zu verarbeiten, verarbeitet SNIPER Kontextbereiche um die wahren Instanzen (als Chips bezeichnet) in der geeigneten Skala. Für das Hintergrund-Abtasten werden diese Kontextbereiche durch Vorschläge generiert, die aus einem Region Proposal Network stammen, das mit einem kurzen Lernzeitplan trainiert wurde. Somit ändert sich die Anzahl der pro Bild während des Trainings generierten Chips anpassend an die Komplexität der Szene. SNIPER verarbeitet im Vergleich zum üblichen Single-Skalen-Training bei 800x1333 Pixeln auf dem COCO-Datensatz nur 30% mehr Pixel. Dennoch betrachtet es auch Proben von extremen Auflösungen des Bildpyramidensystems, wie 1400x2000 Pixeln. Da SNIPER auf neu abgetasteten niedrigen Auflösungs-Chips (512x512 Pixel) operiert, kann es eine Batch-Größe von bis zu 20 auf einer einzelnen GPU haben, selbst mit einem ResNet-101 Backbone. Daher kann es während des Trainings von Batch-Normalisierung profitieren, ohne dass eine Synchronisierung der Batch-Normalisierungsstatistiken über mehrere GPUs erforderlich ist. SNIPER bringt das Training von Instanz-Level-Erkennungsaufgaben wie Objekterkennung näher an das Protokoll für Bildklassifizierung und deutet darauf hin, dass die weit verbreitete Meinung, es sei wichtig, bei hohen Auflösungen zu trainieren, um Instanz-Level-Bilderkennungsaufgaben zu lösen, möglicherweise nicht korrekt ist. Unsere Implementierung basierend auf Faster-RCNN mit einem ResNet-101 Backbone erreicht ein mAP von 47,6% bei der Begrenzungsbox-Erkennung auf dem COCO-Datensatz und kann während der Inferenz mit einer einzelnen GPU fünf Bilder pro Sekunde verarbeiten. Der Quellcode ist unter https://github.com/MahyarNajibi/SNIPER/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp