HyperAIHyperAI

Command Palette

Search for a command to run...

AssembleNet++: Assemblierung von Modalitätsdarstellungen über Aufmerksamkeitsverbindungen

Michael S. Ryoo AJ Piergiovanni Juhana Kangaspunta Anelia Angelova

Zusammenfassung

Wir entwickeln eine Familie leistungsfähiger Videomodelle, die in der Lage sind: (i) Wechselwirkungen zwischen semantischer Objektinformation und rohen Erscheinungs- sowie Bewegungsmerkmalen zu lernen, und (ii) Aufmerksamkeit einzusetzen, um die Bedeutung der Merkmale in jeder konvolutionellen Schicht des Netzwerks besser zu erfassen. Wir führen eine neue Netzwerkkomponente namens Peer-Attention ein, die die Aufmerksamkeitsgewichte dynamisch mithilfe einer anderen Schicht oder einer weiteren Eingabemodalität lernt. Ohne vorherige Vortrainierung erreichen unsere Modelle auf standardisierten öffentlichen Datensätzen für Aktivitätsrekognition mit kontinuierlichen Videos eine bessere Leistung als frühere Ansätze und etablieren eine neue State-of-the-Art. Zudem bestätigen wir, dass unsere Erkenntnisse – insbesondere die neuronalen Verbindungen zwischen der Objektmodalität und die Nutzung von Peer-Attention – allgemein anwendbar sind und die Leistung verschiedener bestehender Architekturen verbessern. Wir benennen unser Modell explizit als AssembleNet++. Der Quellcode wird unter folgender Adresse verfügbar sein: https://sites.google.com/corp/view/assemblenet/


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp