HyperAI

InternVid-Full Hochwertiger, Groß Angelegter Videotext-Datensatz

Datum

vor einem Jahr

Größe

6.2 GB

Organisation

Shanghaier Labor für künstliche Intelligenz

Veröffentlichungs-URL

huggingface.co

特色图像

Bei diesem Datensatz handelt es sich um einen hochwertigen, groß angelegten Videotext-Datensatz, der 2024 gemeinsam vom Shanghai Artificial Intelligence Laboratory (Shanghai AI Lab), der Universität Nanjing, der Chinesischen Akademie der Wissenschaften und anderen Institutionen veröffentlicht wird. Er zielt darauf ab, die wachsende Nachfrage nach Videosprachenmodellierung zu decken und weitere Verbesserungen beim Verständnis und der Generierung von Videos großer Modelle zu fördern.

Als einer der größten öffentlichen Videotext-Datensätze der WeltInternVid enthält über 7 Millionen Videos mit ausführlichen Textbeschreibungen, die 16 Szenen und etwa 6.000 Handlungsbeschreibungen mit einer Gesamtlänge von fast 760.000 Stunden abdecken.Und hat eine hohe Video-Text-Korrespondenz, der DatensatzDie Video- und Textbeschreibung sind sehr gut aufeinander abgestimmt, Bereitstellung eines „Videowörterbuchs“ für das Training multimodaler Lernaufgaben wie semantisches Video-Text-Matching, Videotext-Abruf und Videotext-Generierung.

InternVid hat in der akademischen Gemeinschaft große Beachtung gefunden, wurde auf das multimodale Weltmodell LWM angewendet und von Google und Stable AI bei der Videogenerierung verwendet oder darauf verwiesen. Das zugehörige Papier gewann den Spotlight auf der International Conference on Representation Learning (ICLR 2024) 2024.

InternVid-Full.torrent
Seeding 1Herunterladen 1Abgeschlossen 106Gesamtdownloads 167
  • InternVid-Full/
    • README.md
      1.74 KB
    • README.txt
      3.48 KB
      • data/
        • InternVid-Full.zip
          6.2 GB