Ein energie- und GPU-Recheneffizientes Backbone-Netzwerk für die Echtzeit-Objekterkennung

DenseNet bewahrt Zwischenfeatures mit diversen Rezeptivfeldern durch ihre Aggregation mittels dichter Verbindungen und zeigt dadurch eine gute Leistung bei der Objekterkennung. Obwohl die Wiederverwendung von Features es DenseNet ermöglicht, starke Features mit einer geringen Anzahl von Modellparametern und FLOPs zu erzeugen, ist ein Detektor mit DenseNet-Backbone vergleichsweise langsam und energieineffizient. Wir haben festgestellt, dass der linear wachsende Eingabekanal durch dichte Verbindungen zu hohen Speicherzugriffskosten führt, was wiederum zu einem erhöhten Berechnungsaufwand und vermehrtem Energieverbrauch führt. Um die Ineffizienz von DenseNet zu beheben, schlagen wir eine energie- und recheneffiziente Architektur vor, die VoVNet genannt wird und One-Shot-Aggregation (OSA) umfasst. Die OSA übernimmt nicht nur die Stärken von DenseNet, die diversifizierte Features mit mehreren Rezeptivfeldern darstellen kann, sondern überwindet auch die Ineffizienz dichter Verbindungen, indem sie alle Features nur einmal in den letzten Featuremaps aggregiert. Um die Effektivität von VoVNet als Backbone-Netzwerk zu überprüfen, haben wir sowohl leichtgewichtige als auch großdimensionale VoVNet-Modelle entwickelt und diese auf einstufige und zweistufige Objektdetektoren angewendet. Unsere VoVNet-basierten Detektoren übertreffen die auf DenseNet basierenden Modelle mit einer verdoppelten Geschwindigkeit, während der Energieverbrauch um 1.6- bis 4.1-fach reduziert wird. Neben DenseNet übertrifft VoVNet auch das weit verbreitete ResNet-Backbone-Modell hinsichtlich Geschwindigkeit und Energieeffizienz. Insbesondere wurde die Leistung bei der Erkennung kleiner Objekte gegenüber DenseNet und ResNet erheblich verbessert.