Command Palette
Search for a command to run...
ImagerySearch: Adaptive Test-Time Search für Video-Generierung jenseits semantischer Abhängigkeitsbeschränkungen
Meiqi Wu Jiashu Zhu Xiaokun Feng Chubin Chen Chen Zhu Bingze Song Fangyuan Mao Jiahong Wu Xiangxiang Chu Kaiqi Huang

Abstract
Bildgenerierende Modelle haben bemerkenswerte Fortschritte erzielt, insbesondere in realistischen Szenarien; ihre Leistung nimmt jedoch deutlich ab, wenn es um imaginierte Szenarien geht. Solche Prompt-Texte beinhalten oft selten gemeinsam auftretende Konzepte mit langen semantischen Abständen und liegen außerhalb der Trainingsverteilung. Bestehende Ansätze setzen typischerweise eine Skalierung im Testzeitpunkt zur Verbesserung der Videqualität ein, doch ihre festen Suchräume und statischen Belohnungsentwürfe beschränken die Anpassungsfähigkeit an imaginierte Szenarien. Um diese Lücke zu schließen, stellen wir ImagerySearch vor, eine promptgesteuerte, adaptive Suchstrategie im Testzeitpunkt, die sowohl den Inference-Suchraum als auch die Belohnungsfunktion dynamisch anhand der semantischen Beziehungen im Prompt anpasst. Dadurch werden kohärentere und visuell plausiblere Videos auch in anspruchsvollen imaginierten Umgebungen ermöglicht. Um den Fortschritt in dieser Richtung zu bewerten, führen wir LDT-Bench ein, das erste spezifische Benchmark für langstreckige semantische Prompts, bestehend aus 2.839 vielfältigen Konzeptpaaren und einem automatisierten Protokoll zur Beurteilung kreativer Generierungsfähigkeiten. Umfangreiche Experimente zeigen, dass ImagerySearch auf LDT-Bench konsistent starke Baselines für die Videogenerierung und bestehende Ansätze zur Testzeit-Skalierung übertrifft und zudem auf VBench konkurrenzfähige Verbesserungen erzielt, was seine Wirksamkeit bei unterschiedlichen Prompt-Typen belegt. Wir werden LDT-Bench und den Quellcode veröffentlichen, um zukünftige Forschung zu imaginierten Videogenerierungen zu unterstützen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.