vor 4 Monaten

Meiqi Wu Jiashu Zhu Xiaokun Feng Chubin Chen Chen Zhu Bingze Song Fangyuan Mao Jiahong Wu Xiangxiang Chu Kaiqi Huang

Zusammenfassung

Bildgenerierende Modelle haben bemerkenswerte Fortschritte erzielt, insbesondere in realistischen Szenarien; ihre Leistung nimmt jedoch deutlich ab, wenn es um imaginierte Szenarien geht. Solche Prompt-Texte beinhalten oft selten gemeinsam auftretende Konzepte mit langen semantischen Abständen und liegen außerhalb der Trainingsverteilung. Bestehende Ansätze setzen typischerweise eine Skalierung im Testzeitpunkt zur Verbesserung der Videqualität ein, doch ihre festen Suchräume und statischen Belohnungsentwürfe beschränken die Anpassungsfähigkeit an imaginierte Szenarien. Um diese Lücke zu schließen, stellen wir ImagerySearch vor, eine promptgesteuerte, adaptive Suchstrategie im Testzeitpunkt, die sowohl den Inference-Suchraum als auch die Belohnungsfunktion dynamisch anhand der semantischen Beziehungen im Prompt anpasst. Dadurch werden kohärentere und visuell plausiblere Videos auch in anspruchsvollen imaginierten Umgebungen ermöglicht. Um den Fortschritt in dieser Richtung zu bewerten, führen wir LDT-Bench ein, das erste spezifische Benchmark für langstreckige semantische Prompts, bestehend aus 2.839 vielfältigen Konzeptpaaren und einem automatisierten Protokoll zur Beurteilung kreativer Generierungsfähigkeiten. Umfangreiche Experimente zeigen, dass ImagerySearch auf LDT-Bench konsistent starke Baselines für die Videogenerierung und bestehende Ansätze zur Testzeit-Skalierung übertrifft und zudem auf VBench konkurrenzfähige Verbesserungen erzielt, was seine Wirksamkeit bei unterschiedlichen Prompt-Typen belegt. Wir werden LDT-Bench und den Quellcode veröffentlichen, um zukünftige Forschung zu imaginierten Videogenerierungen zu unterstützen.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Meiqi Wu Jiashu Zhu Xiaokun Feng Chubin Chen Chen Zhu Bingze Song Fangyuan Mao Jiahong Wu Xiangxiang Chu Kaiqi Huang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Meiqi Wu Jiashu Zhu Xiaokun Feng Chubin Chen Chen Zhu Bingze Song Fangyuan Mao Jiahong Wu Xiangxiang Chu Kaiqi Huang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

ImagerySearch: Adaptive Test-Time Search für Video-Generierung jenseits semantischer Abhängigkeitsbeschränkungen

Meiqi Wu Jiashu Zhu Xiaokun Feng Chubin Chen Chen Zhu Bingze Song Fangyuan Mao Jiahong Wu Xiangxiang Chu Kaiqi Huang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ImagerySearch: Adaptive Test-Time Search für Video-Generierung jenseits semantischer Abhängigkeitsbeschränkungen

Meiqi Wu Jiashu Zhu Xiaokun Feng Chubin Chen Chen Zhu Bingze Song Fangyuan Mao Jiahong Wu Xiangxiang Chu Kaiqi Huang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ImagerySearch: Adaptive Test-Time Search für Video-Generierung jenseits semantischer Abhängigkeitsbeschränkungen

Meiqi Wu Jiashu Zhu Xiaokun Feng Chubin Chen Chen Zhu Bingze Song Fangyuan Mao Jiahong Wu Xiangxiang Chu Kaiqi Huang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters