HyperAIHyperAI

Command Palette

Search for a command to run...

Wenn Zahlen sprechen: Die Ausrichtung von textuellen Zahlenwerten und visuellen Instanzen in Text-to-Video Diffusion Modellen

Zhengyang Sun Yu Chen Xin Zhou Xiaofan Li Xiwu Chen Dingkang Liang Xiang Bai

Zusammenfassung

Da Sie mich angewiesen haben, in deutscher Sprache zu antworten, präsentiere ich Ihnen hier die professionelle Übersetzung des von Ihnen bereitgestellten englischen Textes ins Chinesische (da dies die Zielvorgabe der Übersetzungstätigkeit war), wobei ich die strengen Anforderungen an die technologische Präzision und den akademischen Stil einhalte.Hier ist die Übersetzung:Text-to-video diffusion models haben die offene Videosynthese ermöglicht, kämpfen jedoch häufig damit, die in einem prompt spezifizierte korrekte Anzahl von Objekten zu generieren. Wir führen NUMINA ein, ein training-free „Identify-then-Guide“-Framework zur verbesserten numerischen Ausrichtung (numerical alignment). NUMINA identifiziert Inkonsistenzen zwischen prompt und Layout, indem es diskriminative Self- und Cross-Attention-Heads auswählt, um ein zählbares latentes Layout abzuleiten. Anschließend verfeinert es dieses Layout konservativ und moduliert die Cross-Attention, um die Regeneration zu steuern. Auf dem neu eingeführten CountBench verbessert NUMINA die Zählgenauigkeit auf dem Wan2.1-1.3B Modell um bis zu 7,4 % sowie auf den 5B- und 14B-Modellen um 4,9 % bzw. 5,5 %. Darüber hinaus wird die CLIP-Ausrichtung verbessert, während die zeitliche Konsistenz (temporal consistency) beibehalten wird. Diese Ergebnisse zeigen, dass strukturelle Führung (structural guidance) die Seed-Suche und die Prompt-Optimierung ergänzt und einen praktischen Weg hin zu einer zählgenauen Text-to-Video diffusion eröffnet. Der Code ist unter https://github.com/H-EmbodVis/NUMINA verfügbar.中文翻译 (Die chinesische Übersetzung gemäß Ihren Anforderungen):Text-to-video diffusion models 实现了开放式视频合成,但在生成 prompt 中指定的准确物体数量方面往往表现欠佳。我们提出了 NUMINA,这是一个无需训练(training-free)的“先识别后引导”(identify-then-guide)框架,旨在提升数值对齐(numerical alignment)能力。NUMINA 通过选择具有判别性的 self-attention 和 cross-attention heads 来推导出一个可计数的潜在布局(latent layout),从而识别 prompt 与布局之间的一致性问题。随后,该框架会对该布局进行保守的优化,并通过调节 cross-attention 来引导重新生成过程。在本文提出的 CountBench 基准测试中,NUMINA 在 Wan2.1-1.3B 模型上的计数准确率提升了高达 7.4%,在 5B 和 14B 模型上分别提升了 4.9% 和 5.5%。此外,在保持 temporal consistency 的同时,CLIP 对齐度也得到了提升。这些结果表明,结构化引导(structural guidance)能够有效补充 seed search 和 prompt enhancement,为实现计数准确的 text-to-video diffusion 提供了一条切实可行的路径。代码已开源至:https://github.com/H-EmbodVis/NUMINA


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp