HyperAIHyperAI

Command Palette

Search for a command to run...

vor 16 Tagen

ImagerySearch: Adaptive Test-Time Search für Video-Generierung jenseits semantischer Abhängigkeitsbeschränkungen

Meiqi Wu Jiashu Zhu Xiaokun Feng Chubin Chen Chen Zhu Bingze Song Fangyuan Mao Jiahong Wu Xiangxiang Chu Kaiqi Huang

ImagerySearch: Adaptive Test-Time Search für Video-Generierung jenseits semantischer Abhängigkeitsbeschränkungen

Abstract

Bildgenerierende Modelle haben bemerkenswerte Fortschritte erzielt, insbesondere in realistischen Szenarien; ihre Leistung nimmt jedoch deutlich ab, wenn es um imaginierte Szenarien geht. Solche Prompt-Texte beinhalten oft selten gemeinsam auftretende Konzepte mit langen semantischen Abständen und liegen außerhalb der Trainingsverteilung. Bestehende Ansätze setzen typischerweise eine Skalierung im Testzeitpunkt zur Verbesserung der Videqualität ein, doch ihre festen Suchräume und statischen Belohnungsentwürfe beschränken die Anpassungsfähigkeit an imaginierte Szenarien. Um diese Lücke zu schließen, stellen wir ImagerySearch vor, eine promptgesteuerte, adaptive Suchstrategie im Testzeitpunkt, die sowohl den Inference-Suchraum als auch die Belohnungsfunktion dynamisch anhand der semantischen Beziehungen im Prompt anpasst. Dadurch werden kohärentere und visuell plausiblere Videos auch in anspruchsvollen imaginierten Umgebungen ermöglicht. Um den Fortschritt in dieser Richtung zu bewerten, führen wir LDT-Bench ein, das erste spezifische Benchmark für langstreckige semantische Prompts, bestehend aus 2.839 vielfältigen Konzeptpaaren und einem automatisierten Protokoll zur Beurteilung kreativer Generierungsfähigkeiten. Umfangreiche Experimente zeigen, dass ImagerySearch auf LDT-Bench konsistent starke Baselines für die Videogenerierung und bestehende Ansätze zur Testzeit-Skalierung übertrifft und zudem auf VBench konkurrenzfähige Verbesserungen erzielt, was seine Wirksamkeit bei unterschiedlichen Prompt-Typen belegt. Wir werden LDT-Bench und den Quellcode veröffentlichen, um zukünftige Forschung zu imaginierten Videogenerierungen zu unterstützen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ImagerySearch: Adaptive Test-Time Search für Video-Generierung jenseits semantischer Abhängigkeitsbeschränkungen | Forschungsarbeiten | HyperAI