AssembleNet++: Assemblierung von Modalitätsdarstellungen über Aufmerksamkeitsverbindungen

Wir entwickeln eine Familie leistungsfähiger Videomodelle, die in der Lage sind: (i) Wechselwirkungen zwischen semantischer Objektinformation und rohen Erscheinungs- sowie Bewegungsmerkmalen zu lernen, und (ii) Aufmerksamkeit einzusetzen, um die Bedeutung der Merkmale in jeder konvolutionellen Schicht des Netzwerks besser zu erfassen. Wir führen eine neue Netzwerkkomponente namens Peer-Attention ein, die die Aufmerksamkeitsgewichte dynamisch mithilfe einer anderen Schicht oder einer weiteren Eingabemodalität lernt. Ohne vorherige Vortrainierung erreichen unsere Modelle auf standardisierten öffentlichen Datensätzen für Aktivitätsrekognition mit kontinuierlichen Videos eine bessere Leistung als frühere Ansätze und etablieren eine neue State-of-the-Art. Zudem bestätigen wir, dass unsere Erkenntnisse – insbesondere die neuronalen Verbindungen zwischen der Objektmodalität und die Nutzung von Peer-Attention – allgemein anwendbar sind und die Leistung verschiedener bestehender Architekturen verbessern. Wir benennen unser Modell explizit als AssembleNet++. Der Quellcode wird unter folgender Adresse verfügbar sein: https://sites.google.com/corp/view/assemblenet/