vor 6 Monaten

Zusammenfassung

Sprache ist mit dem Aufstieg von Großmodellen (LLMs) zu einer zentralen Modalität in der Computer Vision geworden. Trotz der Unterstützung langer Eingabefolgen nimmt ihre Wirksamkeit bei der Verarbeitung langfristiger Informationen mit zunehmender Eingabelänge allmählich ab. Dies ist besonders kritisch in Anwendungen wie der Verarbeitung langer Videos. In diesem Paper stellen wir eine Language Repository (LangRepo) für LLMs vor, die präzise und strukturierte Informationen als interpretierbare (d. h. rein textbasierte) Darstellung aufrechterhält. Unser Repository wird iterativ anhand von mehrskaligen Video-Chunk-Teilen aktualisiert. Wir führen Schreib- und Leseoperationen ein, die darauf abzielen, Redundanzen im Text zu reduzieren und Informationen auf verschiedenen zeitlichen Skalen zu extrahieren. Der vorgeschlagene Rahmen wird an zero-shot Visual Question Answering Benchmarks wie EgoSchema, NExT-QA, IntentQA und NExT-GQA evaluiert und zeigt dabei state-of-the-art Ergebnisse für seine Größe. Der Quellcode ist unter https://github.com/kkahatapitiya/LangRepo verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

LLM

Retrieval-Augmented Generation

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Kumara Kahatapitiya Kanchana Ranasinghe Jongwoo Park Michael S. Ryoo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

LLM

Retrieval-Augmented Generation

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Kumara Kahatapitiya Kanchana Ranasinghe Jongwoo Park Michael S. Ryoo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Sprach-Repository für die Verständnislangen Videos | Paper | HyperAI

Command Palette

Sprach-Repository für die Verständnislangen Videos

Kumara Kahatapitiya Kanchana Ranasinghe Jongwoo Park Michael S. Ryoo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Sprach-Repository für die Verständnislangen Videos

Kumara Kahatapitiya Kanchana Ranasinghe Jongwoo Park Michael S. Ryoo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Sprach-Repository für die Verständnislangen Videos

Kumara Kahatapitiya Kanchana Ranasinghe Jongwoo Park Michael S. Ryoo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters