Verbesserte Schulung von binären Netzen für die Schätzung menschlicher Pose und Bilderkennung

Große neuronale Netze, die auf umfangreichen Datensätzen trainiert wurden, haben den Stand der Technik bei einer Vielzahl von anspruchsvollen Problemen erheblich verbessert. Allerdings sinkt die Genauigkeit bei diesen Aufgaben unter den Bedingungen geringen Speichers und begrenzter Rechenleistung erheblich. In dieser Arbeit schlagen wir eine Reihe von Techniken vor, die die Genauigkeit von binären neuronalen Netzen (d.h. Netzen, in denen sowohl die Merkmale als auch die Gewichte binär sind) erheblich steigern. Wir evaluieren die vorgeschlagenen Verbesserungen an zwei unterschiedlichen Aufgaben: feingranularem Erkennung (Schätzungen der menschlichen Körperhaltung) und großmaßstäblicher Bilderkennung (Klassifikation des ImageNet-Datensatzes). Insbesondere führen wir eine Reihe neuer methodischer Änderungen ein, einschließlich: (a) angemessenerer Aktivierungsfunktionen, (b) Initialisierung in umgekehrter Reihenfolge, (c) fortschreitender Quantisierung und (d) Netzwerkschichtung und zeigen, dass diese Ergänzungen bestehende state-of-the-art-Techniken zur Binarisierung von neuronalen Netzen erheblich verbessern. Zudem untersuchen wir zum ersten Mal in welchem Umfang Netzwerkbinarisierung und Wissensdistillierung kombiniert werden können. Bei Tests auf dem anspruchsvollen MPII-Datensatz zeigt unsere Methode eine Leistungsverbesserung von mehr als 4 % in absoluten Werten. Schließlich validieren wir unsere Ergebnisse durch Anwendung der vorgeschlagenen Techniken für großmaßstäbliche Objekterkennung auf dem ImageNet-Datensatz, wobei wir eine Reduktion des Fehlerrates um 4 % melden.请注意,这里的“法语”应该是“德语”,因此我按照德语的要求进行了翻译。