Echtzeit-CNN-basierte Segmentierungsarchitektur für Ballerkennung in einer Einzelsichtanordnung

In dieser Arbeit wird die Aufgabe der Ballerkennung aus einer einzelnen Perspektive behandelt, wobei der Ball häufig mit den Spielern interagiert und gleichzeitig gegenüber dem Hintergrund nur schlecht abgehoben ist. Wir schlagen einen neuen Ansatz vor, indem wir das Problem als Segmentierungsaufgabe formulieren, die durch eine effiziente CNN-Architektur (Convolutional Neural Network) gelöst wird. Um die Dynamik des Balles zu nutzen, werden dem Netzwerk zwei aufeinanderfolgende Bilder zugeführt. Unser Inferenzmodell kann in Echtzeit laufen, ohne die durch eine zeitliche Analyse verursachte Verzögerung. Zudem zeigen wir, dass die Datenverstärkung (Data Augmentation) zur Testzeit eine erhebliche Steigerung der Erkennungsrate ermöglicht. Als zusätzlicher Beitrag veröffentlichen wir den Datensatz öffentlich, auf dem diese Arbeit basiert.