Eine bessere Baseline für AVA

Wir stellen ein einfaches Baseline-Modell für die Aktionserkennung im AVA-Datensatz vor. Das Modell basiert auf dem Faster R-CNN-Bounding-Box-Detektionsframework und wurde angepasst, um rein räumlich-zeitliche Merkmale zu verarbeiten – in unserem Fall ausschließlich von einem I3D-Modell, das auf Kinetics vortrainiert wurde. Dieses Modell erreicht einen durchschnittlichen AP von 21,9 % im Validierungsdatensatz von AVA v2.1, was eine Steigerung gegenüber den 14,5 % des besten RGB-raumzeitlichen Modells ist, das in der ursprünglichen AVA-Publikation verwendet wurde (das sowohl auf Kinetics als auch auf ImageNet vortrainiert war), und gegenüber den 11,3 % des öffentlich zugänglichen Baselines mit einem ResNet101-Bildmerkmalsextraktor, der auf ImageNet vortrainiert war. Unser endgültiges Modell erreicht Werte von 22,8 % / 21,9 % mAP in den Validierungs-/Testdatensätzen und übertrifft alle Einreichungen zur AVA-Herausforderung beim CVPR 2018.