Beziehungsmodellierung bei der räumlich-zeitlichen Aktionsskalierung

Dieses Papier präsentiert unsere Lösung für die AVA-Kinetics Crossover Challenge des ActivityNet Workshops bei CVPR 2021. Unsere Lösung nutzt verschiedene Methoden zur Modellierung von Beziehungen für die räumlich-zeitliche Aktionserkennung und verwendet eine Trainingsstrategie, um mehrere Beziehungsmethoden in einem end-to-end-Trainingsprozess über zwei große Video-Datensätze zu integrieren. Auch das Lernen mit Memory Bank und das Feinjustieren für langschwänzige Verteilungen werden untersucht, um die Leistung weiter zu verbessern. In diesem Papier beschreiben wir detailliert die Implementierungen unserer Lösung und stellen Experimentsergebnisse sowie entsprechende Diskussionen vor. Schließlich erreichen wir ein mAP von 40,67 auf dem Testset von AVA-Kinetics.