HyperAI
Back to Headlines

Neue Methode zur effizienten Bilderzeugung und -bearbeitung ohne Generatoren

vor 7 Tagen

Eine neue Methode zur Bearbeitung und Generierung von Bildern Die künstliche Intelligenz (KI) zur Bildgenerierung, die auf neuronale Netze basiert und aus verschiedenen Eingaben, einschließlich Textanweisungen, neue Bilder erstellt, wird bis Ende dieses Jahrzehnts zu einer Milliardenindustrie werden. Mit der heutigen Technologie kann man beispielsweise ein fiktives Bild eines Freundes, der eine Flagge auf dem Mars pflanzt oder unvorsichtig in ein Schwarzes Loch fliegt, in weniger als einer Sekunde erstellen. Doch bevor diese Bildgeneratoren solche Aufgaben erfüllen können, müssen sie auf riesigen Datensätzen mit Millionen von Bildern trainiert werden, die oft mit zugehörigem Text versehen sind. Dieser Trainingsprozess ist mühsam und kann Wochen oder Monate dauern, wobei er immense Rechenressourcen verbraucht. Was wäre aber, wenn es möglich wäre, Bilder durch KI-Methoden zu generieren, ohne überhaupt einen Generator zu verwenden? Diese wirklich mögliche Idee wurde in einem Forschungspapier beschrieben, das auf der International Conference on Machine Learning (ICML 2025) im Sommer in Vancouver, British Columbia, präsentiert wurde. Das Papier, das neue Techniken zur Manipulation und Generierung von Bildern vorstellt, wurde von Lukas Lao Beyer, einem Doktoranden am Massachusetts Institute of Technology (MIT)’s Labor für Information und Entscheidungssysteme (LIDS); Tianhong Li, einem Postdoc am MIT’s Computer Science and Artificial Intelligence Laboratory (CSAIL); Xinlei Chen von Facebook AI Research; Sertac Karaman, einem Professor für Luft- und Raumfahrttechnik und Direktor des LIDS am MIT; und Kaiming He, einem Associate Professor für Elektrotechnik und Informatik am MIT, verfasst. Diese gemeinsame Anstrengung hatte ihren Ursprung in einem Kursprojekt für ein Graduiertenseminar über tiefgende generative Modelle, das Lao Beyer im letzten Herbst besuchte. Im Laufe des Semesters wurde beiden, Lao Beyer und He, der Dozent, klar, dass dieses Forschungsprojekt echtes Potenzial hatte, das weit über die Grenzen einer typischen Hausaufgabe hinausging. Bald darauf wurden weitere Mitwirkende ins Projekt eingebunden. Der Ausgangspunkt für Lao Beyers Untersuchung war ein Artikel aus Juni 2024, verfasst von Forschern der Technischen Universität München und dem chinesischen Unternehmen ByteDance. In diesem Artikel wurde ein neues Verfahren zur Darstellung visueller Informationen vorgestellt, das als ein dimensionaler Tokenizer bekannt ist. Mit diesem Gerät, das auch eine Art neuronales Netz ist, kann ein 256x256-Pixel-Bild in eine Sequenz von nur 32 Zahlen, sogenannten Tokens, übersetzt werden. „Ich wollte verstehen, wie eine solch hohe Kompressionsrate erreicht werden konnte und was die Tokens selbst tatsächlich repräsentieren“, sagt Lao Beyer. Die vorherige Generation von Tokenizern würde normalerweise das gleiche Bild in ein Array von 16x16 Tokens aufteilen, wobei jeder Token Informationen in hochkomprimierter Form enthält, die einem bestimmten Teil des ursprünglichen Bildes entsprechen. Die neuen 1D-Tokenizer können ein Bild effizienter kodieren, indem sie viel weniger Tokens insgesamt verwenden, und diese Tokens sind in der Lage, Informationen über das gesamte Bild zu erfassen, nicht nur über ein einzelnes Quadrant. Jeder dieser Tokens ist eine 12-stellige Zahl, bestehend aus 1s und 0s, was insgesamt 212 (oder etwa 4.000) Möglichkeiten bietet. „Es ist, als ob es eine Vokabular von 4.000 Wörtern gibt, die eine abstrakte, versteckte Sprache bilden, die der Computer spricht“, erklärt He. „Es ist nicht wie eine menschliche Sprache, aber wir können trotzdem versuchen herauszufinden, was sie bedeutet.“ Lao Beyer ging einen recht direkten Weg, um zu verstehen, was ein bestimmter Token bewirkt. „Man kann ihn einfach herausnehmen, einen zufälligen Wert einsetzen und sehen, ob sich eine erkennbare Veränderung im Output zeigt“, sagt er. Durch das Ersetzen eines Tokens fand er heraus, dass sich die Bildqualität ändert, indem ein Low-Resolution-Bild in ein High-Resolution-Bild und umgekehrt transformiert wird. Ein anderer Token beeinflusste die Unschärfe im Hintergrund, während ein weiterer die Helligkeit veränderte. Er entdeckte auch einen Token, der mit der „Haltung“ zusammenhängt, was bedeutet, dass sich beispielsweise der Kopf eines Rotkehlchens von rechts nach links verschieben kann. „Dieses Ergebnis war bisher noch nie beobachtet, da niemand vorher erkennbare visuelle Änderungen durch die Manipulation von Tokens bemerkt hat“, sagt Lao Beyer. Diese Entdeckung eröffnete die Möglichkeit einer neuen Ansatzweise zur Bildbearbeitung. Und tatsächlich zeigte das MIT-Team, wie dieser Prozess gestreamlined und automatisiert werden kann, sodass Tokens nicht mehr von Hand, einer nach dem anderen, modifiziert werden müssen. Noch wichtiger war das Ergebnis, das das Team bei der Bildgenerierung erreichte. Ein System, das in der Lage ist, Bilder zu generieren, benötigt normalerweise einen Tokenizer, der visuelle Daten komprimiert und kodiert, sowie einen Generator, der diese kompakten Darstellungen kombiniert und anordnet, um neue Bilder zu schaffen. Die MIT-Forscher fanden jedoch einen Weg, Bilder ohne den Einsatz eines Generators zu erstellen. Ihre neue Methode verwendet einen 1D-Tokenizer und einen sogenannten Detokenizer (auch bekannt als Decoder), der ein Bild aus einer Reihe von Tokens rekonstruieren kann. Mit der Unterstützung eines herkömmlichen neuronalen Netzes namens CLIP — das zwar keine Bilder generieren kann, aber messen kann, wie gut ein bestimmtes Bild einer Textanweisung entspricht — konnten sie beispielsweise ein Bild eines Frettchens in ein Tigerbild umwandeln. Zudem konnten sie Bilder von scratch erstellen — beginnend mit zufällig zugewiesenen Tokens, die dann iterativ angepasst wurden, sodass das rekonstruierte Bild immer besser der gewünschten Textanweisung entsprach. Das Team zeigte außerdem, dass sie mit dieser gleichen Konfiguration — einem Tokenizer und Detokenizer, aber ohne Generator — auch „Inpainting“ durchführen konnten, also Teile von Bildern auffüllen, die somehow ausgelassen worden waren. Der Verzicht auf den Generator bei bestimmten Aufgaben könnte zu erheblichen Reduktionen der Rechenkosten führen, da Generatoren, wie erwähnt, normalerweise eine intensive Trainingsphase erfordern. Was an der Arbeit des Teams besonders bemerkenswert ist, erklärt He, „ist, dass wir nichts Neues erfunden haben. Wir haben weder den 1D-Tokenizer noch das CLIP-Modell erfunden. Aber wir haben herausgefunden, dass neue Fähigkeiten auftreten, wenn man alle diese Stücke zusammenbringt.“ „Diese Arbeit redefiniert die Rolle von Tokenizern“, kommentiert Saining Xie, ein Informatiker an der New York University. „Sie zeigt, dass Bildtokenizer — Werkzeuge, die normalerweise nur zur Kompression von Bildern verwendet werden — viel mehr tun können. Die Tatsache, dass ein einfacher (aber hochkomprimierter) 1D-Tokenizer Aufgaben wie Inpainting oder textgesteuerte Editierung bewältigen kann, ohne ein vollständiges generatives Modell trainieren zu müssen, ist ziemlich überraschend.“ Zhuang Liu von der Princeton University stimmt zu und meint, dass die Arbeit des MIT-Teams „zeigt, dass wir Bilder auf eine viel einfachere Weise generieren und manipulieren können als bisher angenommen. Grundsätzlich demonstriert sie, dass die Bildgenerierung ein Nebenprodukt eines sehr effektiven Bildkompressors sein kann, was die Kosten für die Generierung von Bildern potenziell um ein Vielfaches reduzieren könnte.“ Karaman schlägt vor, dass es viele Anwendungen außerhalb des Bereichs der Computer-Vision geben könnte. „Beispielsweise könnten wir die Aktionen von Robotern oder autonomen Fahrzeugen auf die gleiche Weise tokenisieren, was den Einfluss dieser Arbeit rapid erweitern könnte.“ Lao Beyer denkt in ähnlichen Bahnen und hebt hervor, dass die extreme Kompression, die 1D-Tokenizer ermöglichen, „einige unglaubliche Dinge“ erlaubt. Zum Beispiel könnten in seinem Forschungsbereich, der autonomen Fahrzeuge, die Tokens verschiedene Fahrtrouten darstellen. Xie ist ebenfalls fasziniert von den potenziellen Anwendungen dieser innovativen Ideen. „Es gibt einige wirklich coole Anwendungsfälle, die dies freischalten könnte“, sagt er.

Related Links