Vergleichende Anpassung von Vision- und Sprach-Encodern: parameter-effizientes Tuning für die Bezugsbildsegmentierung

Parameter-effizientes Tuning (PET) hat Aufmerksamkeit erlangt, da es die Anzahl der Parameter reduziert, die Leistung beibehält und zudem eine bessere Ausnutzung hardware-basierter Ressourcen ermöglicht. Allerdings untersuchen nur wenige Studien dichte Vorhersageaufgaben und die Interaktion zwischen Modalitäten. In diesem Artikel untersuchen wir die Herausforderungen des effizienten Tunings im Kontext der Bezugsbildsegmentierung. Wir stellen einen neuartigen Adapter namens Bridger vor, der den Austausch von informationsreichen Signalen zwischen Modalitäten erleichtert und aufgabenbezogene Informationen in das vortrainierte Modell integriert. Zudem entwerfen wir einen leichtgewichtigen Decoder für die Bildsegmentierung. Unser Ansatz erreicht vergleichbare oder überlegene Ergebnisse, wobei lediglich zwischen 1,61 % und 3,38 % der Parameter des Hauptmodells aktualisiert werden, wie an anspruchsvollen Benchmark-Datensätzen gezeigt wurde. Der Quellcode ist unter \url{https://github.com/kkakkkka/ETRIS} verfügbar.