SynthRef: Generierung synthetischer Bezugsausdrücke für die Objektsegmentierung

Neuere Fortschritte im Bereich des Deep Learning haben erhebliche Fortschritte bei visuellen Grundlagenaufgaben wie der sprachgesteuerten Segmentierung von Objekten in Videos ermöglicht. Die Erhebung großer Datensätze für solche Aufgaben ist jedoch aufgrund des hohen Aufwands an Annotationen kostspielig und stellt eine Engstelle dar. Um diesem Problem entgegenzuwirken, stellen wir eine neuartige Methode namens SynthRef vor, die synthetische Bezugsausdrücke für Zielobjekte in Bildern (bzw. Videobildern) generiert. Zudem präsentieren und verbreiten wir erstmals einen großskaligen Datensatz mit synthetischen Bezugsausdrücken für die Segmentierung von Objekten in Videos. Unsere Experimente zeigen, dass durch das Training mit unseren synthetischen Bezugsausdrücken die Fähigkeit eines Modells zur Generalisierung über verschiedene Datensätze hinweg verbessert werden kann, ohne zusätzliche Annotierungskosten zu verursachen. Darüber hinaus ermöglicht unsere Formulierung die Anwendung auf beliebige Objektdetektions- oder Segmentierungsdatensätze.