DiDeMo-Datensatz Zur Zeitlichen Positionierung
Datum
Größe
Veröffentlichungs-URL
Lizenz
其他
Kategorien

DiDeMo steht für Distinct Describable Moments und ermöglicht die zeitliche Einordnung von Ereignissen in einem Video anhand einer Beschreibung in natürlicher Sprache. Die Videos im Datensatz werden von Flickr gesammelt und jedes Video wird in Segmente von bis zu 30 Sekunden geschnitten. Die Videos im Datensatz sind in Segmente von jeweils 5 Sekunden unterteilt, um die Komplexität der Annotation zu reduzieren.
Der Datensatz ist in Trainings-, Validierungs- und Testsätze unterteilt, die jeweils 8.395, 1.065 und 1.004 Videos enthalten. Der Datensatz enthält insgesamt 26.892 Momente, und ein Moment kann mit Beschreibungen mehrerer Kommentatoren verknüpft sein. Die Beschreibungen im DiDeMo-Datensatz sind detailliert und umfassen Kamerabewegungen, Zeitübergangsmetriken und Aktivitäten. Darüber hinaus werden die Beschreibungen in diesem Datensatz validiert, sodass sich jede Beschreibung auf einen einzelnen Zeitpunkt bezieht.