BMN: Boundary-Matching Netzwerk für die Generierung von temporalen Aktionenvorschlägen

Die Generierung von zeitlichen Aktionenvorschlägen ist eine herausfordernde und vielversprechende Aufgabe, die darauf abzielt, zeitliche Bereiche in realen Videos zu lokalisieren, in denen Aktionen oder Ereignisse auftreten können. Aktuelle bottom-up Vorschlaggenerierungsverfahren können Vorschläge mit präzisen Grenzen generieren, sind aber nicht in der Lage, ausreichend verlässliche Konfidenzwerte effizient zu erzeugen, um Vorschläge abzurufen. Um diese Schwierigkeiten zu bewältigen, führen wir den Boundary-Matching (BM)-Mechanismus ein, um die Konfidenzwerte dicht verteilter Vorschläge zu bewerten. Dieser Mechanismus definiert einen Vorschlag als ein Paar aus Start- und Endgrenzen und kombiniert alle dicht verteilten BM-Paare zu einer BM-Konfidenzkarte. Basierend auf dem BM-Mechanismus schlagen wir ein effektives, effizientes und end-to-end Vorschlaggenerierungsverfahren vor, das als Boundary-Matching Network (BMN) bezeichnet wird. Das BMN generiert gleichzeitig Vorschläge mit präzisen zeitlichen Grenzen sowie verlässliche Konfidenzwerte. Die beiden Zweige des BMNs werden in einem vereinheitlichten Rahmen gemeinsam trainiert. Wir führen Experimente auf zwei anspruchsvollen Datensätzen durch: THUMOS-14 und ActivityNet-1.3, bei denen das BMN erhebliche Leistungsverbesserungen zeigt, sowohl hinsichtlich Effizienz als auch Generalisierungsfähigkeit. Darüber hinaus kann das BMN in Kombination mit bestehenden Aktionklassifizierern den Stand der Technik in der zeitlichen Aktionserkennung erreichen.