YOLOv9: Lernen, was Sie lernen möchten, unter Verwendung von programmierbaren Gradienteninformationen

Heutige Ansätze im Bereich des tiefen Lernens konzentrieren sich darauf, die geeignetsten Zielfunktionen zu entwerfen, sodass die Vorhersageresultate des Modells der tatsächlichen Wahrheit möglichst nahekommen. Gleichzeitig muss eine geeignete Architektur entworfen werden, die die Gewinnung ausreichend vieler Informationen für die Vorhersage erleichtert. Bisherige Methoden ignorieren eine zentrale Tatsache: Bei der schichtweisen Merkmalsextraktion und räumlichen Transformation der Eingabedaten gehen erhebliche Mengen an Information verloren. In dieser Arbeit werden die entscheidenden Probleme der Informationsverluste beim Durchgang von Daten durch tiefe Netzwerke, insbesondere das Konzept des Informationsengpasses (information bottleneck) und umkehrbare Funktionen, eingehend untersucht. Wir führen den Begriff des programmierbaren Gradienteninhalts (Programmable Gradient Information, PGI) ein, um die unterschiedlichen Anforderungen von tiefen Netzwerken bei der Erreichung mehrerer Ziele zu bewältigen. PGI ermöglicht es, die vollständige Eingabedateninformation für die Zielaufgabe bereitzustellen, um so zuverlässige Gradienteninformationen zu erhalten, die zur Aktualisierung der Netzwerkgewichte verwendet werden können. Darüber hinaus wird eine neue, leichtgewichtige Netzwerkarchitektur – die Generalized Efficient Layer Aggregation Network (GELAN) – auf Basis von Gradientenpfadplanung vorgestellt. Die Architektur von GELAN bestätigt, dass PGI bei leichtgewichtigen Modellen herausragende Ergebnisse erzielt. Die vorgeschlagenen GELAN- und PGI-Methoden wurden anhand des MS COCO-Datensatzes für Objekterkennung evaluiert. Die Ergebnisse zeigen, dass GELAN allein mit herkömmlichen Faltungsoperatoren eine bessere Parameterausnutzung erreicht als aktuelle State-of-the-Art-Methoden, die auf Depth-wise-Konvolutionen basieren. PGI ist für eine Vielzahl von Modellen – von leichtgewichtigen bis hin zu großen – geeignet und ermöglicht die Wiederherstellung der vollständigen Informationsstruktur. Dadurch können Modelle, die von Grund auf trainiert werden, Ergebnisse erzielen, die besser sind als die von State-of-the-Art-Modellen, die auf großen Datensätzen vortrainiert wurden. Die Vergleichsergebnisse sind in Abbildung 1 dargestellt. Der Quellcode ist unter folgender URL verfügbar: https://github.com/WongKinYiu/yolov9.