HyperAIHyperAI
vor 11 Tagen

OneNet: Ein kanalweise 1D-Faltungs-U-Net

Sanghyun Byun, Kayvan Shah, Ayushi Gang, Christopher Apton, Jacob Song, Woo Seong Chung
OneNet: Ein kanalweise 1D-Faltungs-U-Net
Abstract

Viele aktuelle Architekturen im Bereich des Computer-Vision nutzen U-Net aufgrund seiner Anpassungsfähigkeit und effizienten Merkmalsextraktion. Allerdings führt der mehrschichtige, multi-resolution-ansatz basierend auf Faltungsoperationen oft zu erheblichen rechnerischen Anforderungen, was eine Einsetzung auf Edge-Geräten einschränkt. Wir präsentieren eine vereinfachte Alternative: einen 1D-Faltungs-Encoder, der die Genauigkeit beibehält, gleichzeitig aber besser für den Einsatz auf Edge-Geräten geeignet ist. Unsere neuartige Encoder-Architektur erreicht semantische Segmentierung durch kanalweise 1D-Faltungen kombiniert mit Pixel-Unshuffle-Operationen. Durch die Integration von PixelShuffle – bekannt dafür, die Genauigkeit bei Super-Resolution-Aufgaben zu verbessern und gleichzeitig den Rechenaufwand zu reduzieren – erfasst OneNet räumliche Beziehungen, ohne 2D-Faltungen zu benötigen, und reduziert die Anzahl der Parameter um bis zu 47 %. Zusätzlich untersuchen wir einen vollständig 1D-basierten Encoder-Decoder, der eine Reduktion der Größe um 71 % erreicht, allerdings mit einem gewissen Genauigkeitsverlust einhergeht. Wir evaluieren unseren Ansatz anhand verschiedener U-Net-Varianten in unterschiedlichen Aufgaben zur Maske-Generierung und zeigen, dass die Genauigkeit effektiv erhalten bleibt. Obwohl der Fokus auf der Bildsegmentierung liegt, ist diese Architektur anpassungsfähig für andere Anwendungen, die auf Faltungsnetzwerke basieren. Der Quellcode für das Projekt ist unter https://github.com/shbyun080/OneNet verfügbar.

OneNet: Ein kanalweise 1D-Faltungs-U-Net | Neueste Forschungsarbeiten | HyperAI