Shanghai Jiao Tong University-Team präsentiert innovate Modellverbesserungen auf ICCV
Das Team des Innovation Centers für intelligente und vernetzte Elektrofahrzeuge der Shanghai Jiao Tong University (SJTU) hat unter der Leitung von Professor Zhang Song’an einen Forschungsartikel im renommierten IEEE/CVF International Conference on Computer Vision (ICCV) veröffentlicht. Der Artikel trägt den Titel „Adapt Foundational Segmentation Models with Heterogeneous Searching Space“ und wurde von Yi Li, einem Masterstudenten des Ningde Era Joint Program an der SJTU, als Hauptautor verfasst. Forschungshintergrund Generische Segmentierungsmodelle haben Schwierigkeiten, auf unkonventionellen Bildgebieten wie getarnten Objekten oder medizinischer Detektion zu performen. Zudem sind die Vorbereitung von Datensätzen kompliziert und zeitaufwändig, wodurch das Feinjustieren (Fine-Tuning) dieser Modelle oft nicht praktikabel ist. Um die Segmentierungskapazitäten zu verbessern, ohne das generische Modell anzupassen, bietet sich die Bildvorverarbeitung durch Vorenhancement an. Forschungsstatus Derzeit basieren die meisten Bildenhancement-Methoden auf festgelegten Regeln, die die Effizienz der Verbesserungen einschränken. Learning-basierte Methoden könnten hierbei eine größere Vielfalt an Enhancement-Techniken bieten. Allerdings fehlt es bei diesen Methoden an der Möglichkeit, die Intensität der Anpassungen in beschreibbaren Graden (z.B. leichte bis starke Helligkeitsanpassung) zu kontrollieren. Die Kombination beider Methoden führt zu einem heterogenen Suchraum, der die Anpassung der Parameter ermöglicht. Forschungsergebnisse In diesem Beitrag wird der Ansatz „Adapt To Enhance“ (ATE) vorgeschlagen, der traditionelle regelbasierte Enhancement-Techniken durch optimierte, lernbasierte Strategien ersetzt. Das Team hat 32 verschiedene Enhancement-Techniken (22 regelbasiert und 10 lernbasiert) integriert, um ein robustes, diskretes heterogenes Suchraummodell zu erstellen. Um die besten Anpassungsstrategien in realen Szenarien effizient anzuwenden, wurden Distillationsmethoden eingesetzt, um den Vorverarbeitungsprozess zu beschleunigen. Dieser Ansatz hat die Modellanpassungsfähigkeit erheblich verbessert, was anhand von neun öffentlichen Datensätzen (NJU2k, VT1k, CAMO, NC4k, COD10k, Kvasir-SEG, BUSI, KoletorSDDV2 und MTSD) bestätigt wurde. Autorinformationen Yi Li ist ein Masterstudent des Fachbereichs Elektronik und Informationstechnik am SJTU PuYuan Institute of Future Technology. Seine Forschungsrichtungen umfassen Computer Vision, Reinforcement Learning und Domain Adaptation für Segmentierungsaufgaben. Professor Zhang Song’an ist Assistenzprofessor am SJTU PuYuan Institute of Future Technology und Mitglied des Innovation Centers für intelligente und vernetzte Elektrofahrzeuge. Er forscht hauptsächlich an Algorithmen für die Entscheidungsfindung von autonom fahrenden Fahrzeugen und hat über 30 Publikationen in führenden Zeitschriften und Konferenzen wie TITS, TIV, CVPR und ICCV veröffentlicht. Professor Zhang Song’an absolvierte sein Bachelor- und Masterstudium in Fahrzeugingenieurwesen an der Tsinghua University in den Jahren 2013 und 2016. Im Jahr 2021 erwarb er seinen Doktortitel in Maschinenbau an der University of Michigan, USA, unter der Betreuung von Professor Peng Hui, Direktor des Mcity. Nach seiner Promotion war er als Forscher am Ford Robotics Research Institute tätig und gleichzeitig Vorsitzender des Komitees für Forschungsanträge in Robotik im Rahmen des Ford-Universitätsverbunds. Im Jahr 2023 kehrte er zur SJTU zurück, wo er seine Tätigkeit am PuYuan Institute of Future Technology aufnahm. Bewertung durch Branchenexperten Die vorgestellte Methode „Adapt To Enhance“ (ATE) wird von Experten der Computer Vision als bedeutender Schritt zur Verbesserung der Anpassungsfähigkeit generischer Segmentierungsmodelle in verschiedenen Anwendungsbereichen gewertet. Die Integration von regelbasierten und lernbasierten Enhancement-Techniken in einem heterogenen Suchraum bietet eine vielseitige und flexible Lösung, die die Leistung dieser Modelle erheblich steigern kann. Das Team der SJTU zeigt mit dieser Studie, dass es möglich ist, die Effizienz der Bildvorverarbeitung zu erhöhen, ohne die grundlegenden Strukturen der Modelle zu ändern. Dies hat erhebliche Auswirkungen auf die Entwicklung robuster und effizienter Segmentierungsalgorithmen, insbesondere in Bereichen wie autonome Fahrzeuge und medizinische Bildverarbeitung. Das Innovation Center für intelligente und vernetzte Elektrofahrzeuge der SJTU ist ein führendes Forschungsinstitut, das sich mit der Entwicklung fortschrittlicher Technologien für autonome Fahrzeuge und künstliche Intelligenz beschäftigt. Die Zusammenarbeit zwischen Industrie und Akademie, wie sie im Ningde Era Joint Program zum Ausdruck kommt, trägt wesentlich zur Förderung praktisch anwendbarer Forschung bei.