SeqTR: Ein einfaches aber universelles Netzwerk für visuelle Grundlegung

In diesem Artikel stellen wir ein einfaches, jedoch universelles Netzwerk namens SeqTR für Aufgaben der visuellen Grundlage (visual grounding) vor, beispielsweise Phrasenlokalisierung, Verweisexpressionverstehen (Referring Expression Comprehension, REC) und -segmentierung (Referring Expression Segmentation, RES). Die klassischen Ansätze für visuelle Grundlage erfordern oft erhebliches Fachwissen bei der Gestaltung von Netzwerkarchitekturen und Verlustfunktionen, was deren Verallgemeinerbarkeit über verschiedene Aufgaben erschwert. Um die Modellierung zu vereinfachen und zu vereinheitlichen, formulieren wir das Problem der visuellen Grundlage als ein Punktschätzproblem, das auf Bild- und Texteingaben bedingt ist, wobei entweder das Bounding-Box- oder das binäre Masken-Objekt als Folge diskreter Koordinatentoken dargestellt wird. Unter diesem Paradigma werden alle Aufgaben der visuellen Grundlage in unserem SeqTR-Netzwerk einheitlich behandelt, ohne aufgabenbezogene Verzweigungen oder Head-Architekturen – beispielsweise den konvolutionellen Maskendekoder für RES –, was die Komplexität der Mehraufgaben-Modellierung erheblich reduziert. Darüber hinaus verwendet SeqTR für alle Aufgaben dasselbe Optimierungsziel mit einer einfachen Cross-Entropy-Verlustfunktion, was die Notwendigkeit handgefertigter Verlustfunktionen weiter verringert. Experimente an fünf Benchmark-Datensätzen zeigen, dass das vorgeschlagene SeqTR die bestehenden State-of-the-Art-Methoden übertrifft (oder auf deren Niveau liegt), was belegt, dass ein einfacher, jedoch universeller Ansatz für die visuelle Grundlage tatsächlich machbar ist. Der Quellcode ist unter https://github.com/sean-zhuh/SeqTR verfügbar.