HyperAIHyperAI
vor 11 Tagen

MaIL: Eine einheitliche Mask-Image-Sprache-Dreimodale Netzwerk für die Bezugsbildsegmentierung

Zizhang Li, Mengmeng Wang, Jianbiao Mei, Yong Liu
MaIL: Eine einheitliche Mask-Image-Sprache-Dreimodale Netzwerk für die Bezugsbildsegmentierung
Abstract

Die referenzbasierte Bildsegmentierung ist eine typische multimodale Aufgabe, die darauf abzielt, für einen in einer gegebenen Sprachbeschreibung beschriebenen Referenten eine binäre Maske zu generieren. Vorherige Ansätze verwenden eine zweimodale Lösung, bei der Bilder und Sprache als zwei Modalitäten innerhalb eines Encoder-Fusion-Decoder-Pipelines verarbeitet werden. Dieser Ansatz ist jedoch suboptimal für die Zielaufgabe aus zwei Gründen. Erstens werden nur hochlevelige Merkmale, die jeweils von einmodalen Encodern unabhängig erzeugt werden, fusioniert, was eine ausreichende Kreuzmodalen-Lernung behindert. Zweitens werden die einmodalen Encodierer unabhängig voneinander vortrainiert, was zu einer Inkonsistenz zwischen den vortrainierten einmodalen Aufgaben und der Zielaufgabe in mehreren Modalitäten führt. Darüber hinaus ignoriert oder nutzt diese Pipeline oft instanzbasierte Merkmale, die intuitiv von Vorteil wären. Um diese Probleme zu mildern, schlagen wir MaIL vor – eine kompaktere Encoder-Decoder-Pipeline mit einem Mask-Image-Language-Trimodal-Encoder. Konkret vereint MaIL die einmodalen Merkmalsextraktoren und ihr Fusionsmodell in einem tiefen Interaktions-Encoder für verschiedene Modalitäten, wodurch eine ausreichende Merkmalsinteraktion zwischen den Modalitäten gefördert wird. Gleichzeitig umgeht MaIL die zweite Einschränkung direkt, da nun keine einmodalen Encodierer mehr benötigt werden. Darüber hinaus schlagen wir erstmals vor, Instanzmasken als zusätzliche Modality einzuführen, was die explizite Verstärkung instanzbasierter Merkmale ermöglicht und zu feineren Segmentierungsergebnissen beiträgt. MaIL erreicht auf allen häufig verwendeten Datensätzen für referenzbasierte Bildsegmentierung – einschließlich RefCOCO, RefCOCO+ und G-Ref – eine neue SOTA-Leistung mit signifikanten Verbesserungen von 3 % bis 10 % gegenüber den vorherigen besten Methoden. Der Quellcode wird in Kürze veröffentlicht.

MaIL: Eine einheitliche Mask-Image-Sprache-Dreimodale Netzwerk für die Bezugsbildsegmentierung | Neueste Forschungsarbeiten | HyperAI