Command Palette
Search for a command to run...
Mehr sehen, mehr wissen: Unüberwachte Videoobjektssegmentierung mit Co-Attention Siamese Netzen
Mehr sehen, mehr wissen: Unüberwachte Videoobjektssegmentierung mit Co-Attention Siamese Netzen
Xiankai Lu Wenguan Wang Chao Ma Jianbing Shen Ling Shao Fatih Porikli
Zusammenfassung
Wir stellen ein neues Netzwerk vor, das als CO-Aufmerksamkeits-Siamesisches Netzwerk (COSNet) bezeichnet wird, um die Aufgabe der unüberwachten Videoobjektsegmentierung aus einer ganzheitlichen Perspektive anzugehen. Wir betonen die Bedeutung der inhärenten Korrelation zwischen Videoframes und integrieren einen globalen Co-Aufmerksamkeitsmechanismus, um die derzeit besten tiefen Lernmethoden weiter zu verbessern, die sich hauptsächlich auf das Erlernen diskriminativer Vordergrundrepräsentationen basierend auf Erscheinungsbild und Bewegung in kurzdauernden zeitlichen Segmenten konzentrieren. Die Co-Aufmerksamkeitsschichten in unserem Netzwerk bieten effiziente und kompetente Stufen zur Erfassung globaler Korrelationen und Szenekontexte, indem sie Co-Aufmerksamkeitsantworten gemeinsam berechnen und in einen gemeinsamen Merkmalsraum anhängen. Wir trainieren COSNet mit Framepaaren von Videos, was die Trainingsdaten natürlicher erweitert und eine erhöhte Lernkapazität ermöglicht. Während der Segmentierungsphase kodiert das Co-Aufmerksamkeitsmodell nützliche Informationen durch die gemeinsame Verarbeitung mehrerer Referenzframes, was genutzt wird, um häufig wiederkehrende und auffällige Vordergrundobjekte besser zu erkennen. Wir schlagen ein vereintes Framework vor, das von Anfang bis Ende trainierbar ist und bei dem verschiedene Co-Aufmerksamkeitsvarianten abgeleitet werden können, um den reichen Kontext innerhalb von Videos zu erschließen. Unsere umfangreichen Experimente anhand dreier großer Benchmarks zeigen deutlich, dass COSNet den aktuellen Alternativen weit überlegen ist.