Command Palette
Search for a command to run...
PICABench: Wie weit sind wir von der physikalisch realistischen Bildbearbeitung entfernt?

Abstract
Die Bildbearbeitung hat in letzter Zeit beachtliche Fortschritte erzielt. Moderne Bearbeitungsmodelle sind bereits in der Lage, komplexe Anweisungen zu befolgen, um den ursprünglichen Inhalt zu verändern. Doch abgesehen von der korrekten Ausführung der Bearbeitungsaufgabe sind die damit verbundenen physikalischen Effekte entscheidend für die Realitätsnähe der generierten Bilder. So sollte beispielsweise das Entfernen eines Objekts auch dessen Schatten, Spiegelungen und Wechselwirkungen mit benachbarten Objekten mit sich bringen. Leider richten sich bestehende Modelle und Benchmarks hauptsächlich auf die korrekte Ausführung der Anweisungen, während sie diese physikalischen Effekte vernachlässigen. Inwieweit wir also derzeit von einer physikalisch realistischen Bildbearbeitung entfernt sind, ist eine offene Frage. Um dies zu beantworten, führen wir PICABench ein, ein systematisches Benchmark-Set, das die physikalische Realitätsnähe anhand acht subdimensionaler Aspekte (einschließlich Optik, Mechanik und Zustandsübergänge) für die meisten gängigen Bearbeitungsoperationen (Hinzufügen, Entfernen, Attributänderung usw.) evaluiert. Darüber hinaus schlagen wir PICAEval vor, ein zuverlässiges Evaluationsprotokoll, das VLM-as-a-judge in Kombination mit fall- und regionsspezifischen menschlichen Annotationen sowie gezielten Fragen nutzt. Neben der Benchmarking-Funktion erforschen wir zudem effektive Lösungsansätze, indem wir physikalische Gesetzmäßigkeiten aus Videos lernen, und erstellen hierfür die Trainingsdatenmenge PICA-100K. Nach der Evaluation der meisten gängigen Modelle stellen wir fest, dass die physikalische Realitätsnähe weiterhin eine herausfordernde Aufgabe darstellt, bei der noch erheblicher Forschungsbedarf besteht. Wir hoffen, dass unser Benchmark-Set und die vorgeschlagenen Ansätze eine solide Grundlage für zukünftige Arbeiten bilden, die von der naiven Inhaltsbearbeitung hin zu physikalisch konsistenter Realität führen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.