HyperAIHyperAI
vor 16 Tagen

Prompt-gesteuerter Transformer für die multimodale dichte Vorhersage

Yuxiang Lu, Shalayiding Sirejiding, Yue Ding, Chunlin Wang, Hongtao Lu
Prompt-gesteuerter Transformer für die multimodale dichte Vorhersage
Abstract

Die auf Aufgabenbedingung basierende Architektur bietet Vorteile hinsichtlich der Parameter-Effizienz, erreicht jedoch im Vergleich zu modernen Multi-Decoder-Methoden eine geringere Leistung. Die Abwägung zwischen Leistungsfähigkeit und Modellgröße stellt ein wichtiges und herausforderndes Problem dar. In diesem Paper stellen wir ein einfaches und leichtgewichtiges, auf Aufgabenbedingung basierendes Modell namens Prompt Guided Transformer (PGT) vor, um diese Herausforderung zu optimieren. Unser Ansatz entwirft einen promptbedingten Transformer-Block, der aufgabenbezogene Prompts in die Selbst-Attention-Mechanismen integriert, um globale Abhängigkeiten zu modellieren und parameter-effiziente Merkmalsanpassung über mehrere Aufgaben hinweg zu ermöglichen. Dieser Block wird sowohl im gemeinsamen Encoder als auch im Decoder integriert, wodurch die Erfassung von intra- und inter-task Merkmalen verbessert wird. Darüber hinaus entwickeln wir einen leichtgewichtigen Decoder, der die Anzahl der Parameter weiter reduziert und lediglich 2,7 % der Gesamtmodellparameter ausmacht. Ausführliche Experimente auf zwei Multi-Task-Dichte-Vorhersage-Benchmark-Datenbanken, PASCAL-Context und NYUD-v2, zeigen, dass unser Ansatz unter den auf Aufgabenbedingung basierenden Methoden Ergebnisse auf State-of-the-Art-Niveau erzielt, dabei jedoch weniger Parameter verwendet, und gleichzeitig eine signifikante Balance zwischen Leistungsfähigkeit und Modellgröße aufrechterhält.

Prompt-gesteuerter Transformer für die multimodale dichte Vorhersage | Neueste Forschungsarbeiten | HyperAI