HyperAIHyperAI
vor 11 Tagen

MoVie: Modulierte Faltungen für die visuelle Zählung und darüber hinaus neu betrachtet

Duy-Kien Nguyen, Vedanuj Goswami, Xinlei Chen
MoVie: Modulierte Faltungen für die visuelle Zählung und darüber hinaus neu betrachtet
Abstract

Diese Arbeit konzentriert sich auf die visuelle Zählung, die darauf abzielt, die Anzahl der Vorkommen eines bestimmten Objekts oder Ereignisses basierend auf einem natürlichen Bild und einer Abfrage (z. B. einer Frage oder einer Kategorie) vorherzusagen. Im Gegensatz zu den meisten vorherigen Ansätzen, die explizite, symbolische Modelle verwenden, die rechnerisch aufwendig und in ihrer Generalisierbarkeit eingeschränkt sind, schlagen wir eine einfache und effektive Alternative vor, indem wir modulierte Faltungen erneut betrachten, die die Abfrage und das Bild lokal verschmelzen. Inspiriert durch die Architektur von Residual-Bottlenecks bezeichnen wir unseren Ansatz als MoVie, abgeleitet von „Modulated conVolutional bottlenecks“. Bemerkenswert ist, dass MoVie implizit und ganzheitlich reasoniert und während der Inferenz lediglich einen einzigen Vorwärtsdurchlauf benötigt. Dennoch erzielt MoVie herausragende Leistung bei der Zählung: 1) Verbesserung des Standes der Technik bei zählspezifischen VQA-Aufgaben, gleichzeitig mit höherer Effizienz; 2) Überlegenheit gegenüber vorherigen State-of-the-Art-Methoden bei anspruchsvollen Benchmarks wie COCO für die Zählung alltäglicher Objekte; 3) Erreichen des ersten Platzes bei der VQA-Challenge 2020, als MoVie als Modul für „Zahl“-bezogene Fragen in generischen VQA-Modellen integriert wurde. Schließlich zeigen wir Hinweise dafür, dass modulierte Faltungen wie MoVie als allgemeine Mechanismen für reasoning-basierte Aufgaben jenseits der Zählung dienen können.