HyperAIHyperAI
vor 2 Monaten

Offene-Vokabular-Objekterkennung unter Verwendung von Beschreibungen

Alireza Zareian; Kevin Dela Rosa; Derek Hao Hu; Shih-Fu Chang
Offene-Vokabular-Objekterkennung unter Verwendung von Beschreibungen
Abstract

Trotz der bemerkenswerten Genauigkeit von tiefen Neuronalen Netzen bei der Objekterkennung sind sie aufgrund der Anforderungen an die Überwachung teuer im Training und in der Skalierung. Insbesondere erfordert das Lernen von mehr Objektkategorien in der Regel proportional mehr Bounding-Box-Annotierungen. Schwach überwachte und Null-Shot-Lernverfahren wurden untersucht, um Objekterkennungsmodelle mit weniger Aufsicht auf mehr Kategorien zu skalieren, aber sie haben nicht den gleichen Erfolg und die gleiche Verbreitung wie vollständig überwachte Modelle erreicht. In dieser Arbeit stellen wir eine neue Formulierung des Problems der Objekterkennung vor, nämlich die offene Vokabular-Objekterkennung (open-vocabulary object detection), die allgemeiner, praktischer und effektiver ist als schwach überwachte und Null-Shot-Ansätze. Wir schlagen eine neue Methode vor, um Objekterkennungsmodelle unter Verwendung von Bounding-Box-Annotierungen für eine begrenzte Menge an Objektkategorien sowie Bild-Beschreibungspaaren zu trainieren, die eine größere Vielfalt an Objekten zu einem deutlich geringeren Aufwand abdecken. Wir zeigen, dass die vorgeschlagene Methode Objekte erkennen und lokalisieren kann, für die während des Trainings keine Bounding-Box-Annotierungen bereitgestellt wurden, und zwar mit einer deutlich höheren Genauigkeit als Null-Shot-Verfahren. Gleichzeitig können Objekte mit Bounding-Box-Annotierung fast so genau erkannt werden wie bei vollständig überwachten Methoden, was deutlich besser ist als schwach überwachte Baseline-Modelle. Somit etablieren wir einen neuen Stand der Technik für skalierbare Objekterkennung.

Offene-Vokabular-Objekterkennung unter Verwendung von Beschreibungen | Neueste Forschungsarbeiten | HyperAI