Rahmenkette
Chain-of-frames (CoF) wurde im Mai 2025 von einem Team des NYU Abu Dhabi Center, der ETH Zürich und des U.S. Army Research Laboratory gemeinsam vorgeschlagen. Die zugehörigen Forschungsergebnisse wurden in einem Artikel mit dem Titel „…“ veröffentlicht.Chain-of-Frames: Verbesserung des Videoverständnisses in multimodalen Lernmodellen durch framebasiertes Schließen".
Im Bereich großer Sprachmodelle ermöglichen Gedankenketten die Bewältigung von Denkproblemen. Ähnlich wie Gedankenketten in großen Sprachmodellen ermöglichen Frame-Ketten Videomodellen die Lösung visueller Probleme, die schrittweises Denken über Zeit und Raum erfordern. Im Gegensatz zu bestehenden Video-CoT-Methoden benötigt CoF keine zusätzlichen Netzwerke zur Auswahl oder Beschreibung relevanter Frames. Experimente zeigen, dass CoF-basierte Modelle verkettetes Denken generieren können, das präzise auf Schlüsselframes verweist. Dies führt zu Leistungsverbesserungen und einer signifikanten Reduzierung der Illusionsrate in verschiedenen Benchmarks für das Videoverständnis. Die Einführung von CoF beschleunigt die Entwicklung von Videomodellen zu einem einheitlichen, universellen visuellen Grundlagenmodell.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.