Command Palette
Search for a command to run...
TalkVid: Ein großskaliges und vielfältiges Datensatz für audiogetriebene Synthese von sprechenden Köpfen

Abstract
Die audiogetriebene Synthese von sprechenden Gesichtern hat eine bemerkenswerte photorealistische Qualität erreicht. Dennoch weisen die derzeit führenden (SOTA) Modelle einen kritischen Mangel auf: Sie verfügen über keine ausreichende Generalisierbarkeit für die gesamte Bandbreite menschlicher Vielfalt in Bezug auf Ethnizität, Sprache und Altersgruppen. Wir argumentieren, dass diese Generalisierungslücke ein direktes Symptom der Beschränkungen bestehender Trainingsdaten ist, die nicht über die erforderliche Skalierung, Qualität und Vielfalt verfügen. Um dieser Herausforderung zu begegnen, stellen wir TalkVid vor – ein neues, großskaliges, hochwertiges und vielfältiges Datenset mit insgesamt 1244 Stunden Videomaterial von 7729 einzigartigen Sprechern. TalkVid wurde durch ein streng strukturiertes, mehrstufiges automatisiertes Verarbeitungspipeline erstellt, die rigoros auf Bewegungsstabilität, ästhetische Qualität und Gesichtsdetails prüft und mittels menschlicher Bewertungen validiert wurde, um ihre Zuverlässigkeit sicherzustellen. Darüber hinaus haben wir TalkVid-Bench konstruiert und veröffentlicht – eine stratierte Evaluationsmenge aus 500 Clips, die sorgfältig nach zentralen demografischen und sprachlichen Dimensionen ausbalanciert ist. Unsere Experimente zeigen, dass ein Modell, das auf TalkVid trainiert wurde, die Leistung von Modellen, die auf früheren Datensätzen trainiert wurden, übertrifft und eine deutlich bessere Generalisierbarkeit über Datensätze hinweg aufweist. Entscheidend ist, dass unsere Analyse auf TalkVid-Bench Leistungsunterschiede zwischen Untergruppen aufzeigt, die durch herkömmliche aggregierte Metriken verdeckt werden. Dies unterstreicht die Notwendigkeit des Datensets für zukünftige Forschung. Der Quellcode und die Daten sind unter https://github.com/FreedomIntelligence/TalkVid verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.