HyperAIHyperAI

Command Palette

Search for a command to run...

YOLOv9: Lernen, was Sie lernen möchten, unter Verwendung von programmierbaren Gradienteninformationen

Chien-Yao Wang I-Hau Yeh Hong-Yuan Mark Liao

Zusammenfassung

Heutige Ansätze im Bereich des tiefen Lernens konzentrieren sich darauf, die geeignetsten Zielfunktionen zu entwerfen, sodass die Vorhersageresultate des Modells der tatsächlichen Wahrheit möglichst nahekommen. Gleichzeitig muss eine geeignete Architektur entworfen werden, die die Gewinnung ausreichend vieler Informationen für die Vorhersage erleichtert. Bisherige Methoden ignorieren eine zentrale Tatsache: Bei der schichtweisen Merkmalsextraktion und räumlichen Transformation der Eingabedaten gehen erhebliche Mengen an Information verloren. In dieser Arbeit werden die entscheidenden Probleme der Informationsverluste beim Durchgang von Daten durch tiefe Netzwerke, insbesondere das Konzept des Informationsengpasses (information bottleneck) und umkehrbare Funktionen, eingehend untersucht. Wir führen den Begriff des programmierbaren Gradienteninhalts (Programmable Gradient Information, PGI) ein, um die unterschiedlichen Anforderungen von tiefen Netzwerken bei der Erreichung mehrerer Ziele zu bewältigen. PGI ermöglicht es, die vollständige Eingabedateninformation für die Zielaufgabe bereitzustellen, um so zuverlässige Gradienteninformationen zu erhalten, die zur Aktualisierung der Netzwerkgewichte verwendet werden können. Darüber hinaus wird eine neue, leichtgewichtige Netzwerkarchitektur – die Generalized Efficient Layer Aggregation Network (GELAN) – auf Basis von Gradientenpfadplanung vorgestellt. Die Architektur von GELAN bestätigt, dass PGI bei leichtgewichtigen Modellen herausragende Ergebnisse erzielt. Die vorgeschlagenen GELAN- und PGI-Methoden wurden anhand des MS COCO-Datensatzes für Objekterkennung evaluiert. Die Ergebnisse zeigen, dass GELAN allein mit herkömmlichen Faltungsoperatoren eine bessere Parameterausnutzung erreicht als aktuelle State-of-the-Art-Methoden, die auf Depth-wise-Konvolutionen basieren. PGI ist für eine Vielzahl von Modellen – von leichtgewichtigen bis hin zu großen – geeignet und ermöglicht die Wiederherstellung der vollständigen Informationsstruktur. Dadurch können Modelle, die von Grund auf trainiert werden, Ergebnisse erzielen, die besser sind als die von State-of-the-Art-Modellen, die auf großen Datensätzen vortrainiert wurden. Die Vergleichsergebnisse sind in Abbildung 1 dargestellt. Der Quellcode ist unter folgender URL verfügbar: https://github.com/WongKinYiu/yolov9.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp