Apple präsentiert neue AI-Modelle für bessere Bildgenerierung.
Apple forscht an Bildgenerierung mit vergessener KI-Technik - 9to5Mac Heute fallen die meisten generativen Bildmodelle in zwei Hauptkategorien: Diffusionsmodelle, wie Stable Diffusion, und autoregressive Modelle, wie OpenAI’s GPT-4o. Doch Apple hat kürzlich zwei Forschungspapiere veröffentlicht, die einen dritten, vergessenen Ansatz ins Gespräch bringen: Normalizing Flows. Mit der Ergänzung von Transformer-Techniken könnten sie leistungsfähiger sein, als bisher angenommen. Zunächst: Was sind Normalizing Flows? Normalizing Flows (NFs) sind eine Art KI-Modell, das durch das Lernen, wie man realweltliche Daten (wie Bilder) in strukturierte Rauschen transformiert, und dann diesen Prozess umkehrt, neue Stichproben erzeugt. Der große Vorteil liegt darin, dass sie die exakte Wahrscheinlichkeit jedes generierten Bildes berechnen können, eine Eigenschaft, die Diffusionsmodelle nicht bieten. Dies macht Flows besonders attraktiv für Aufgaben, bei denen das Verständnis der Wahrscheinlichkeit eines Ergebnisses von großer Bedeutung ist. Frühere Flussbasierte Modelle hatten jedoch Nachteile, da sie oft unscharfe oder weniger detaillierte und vielfältige Bilder erzeugten im Vergleich zu Diffusions- und Transformer-basierten Systemen. Studie #1: TarFlow Im Papier „Normalizing Flows sind fähige Generative Modelle“ stellt Apple ein neues Modell namens TarFlow vor, das für Transformer AutoRegressive Flow steht. TarFlow ersetzt die früher manuell gestalteten Schichten in Flussmodellen durch Transformer-Blöcke. Es teilt Bilder in kleine Patchs auf und erzeugt diese in Blöcken, wobei jeder Block auf Grundlage aller vorherigen Blöcke vorhergesagt wird. Diese Methode, als autoregressiv bezeichnet, gleicht dem zugrunde liegenden Prinzip, das OpenAI für die Bildgenerierung verwendet. Während OpenAI diskrete Symbole, ähnlich wie Textzeichen, generiert, erzeugt Apple’s TarFlow direkt Pixelwerte, ohne das Bild zunächst in eine feste Vokabularliste von Tokens zu komprimieren. Dies ermöglicht es Apple, die Qualität und Flexibilität zu erhalten, die oft durch die Kompression in Tokens verloren gehen. Trotzdem gab es Einschränkungen, insbesondere bei der Skalierung auf größere, hochaufgelöste Bilder. Hier setzt die zweite Studie an. Studie #2: STARFlow Im Papier „STARFlow: Skalierung von latenten Normalizing Flows für hochaufgelöste Bildsynthese“ baut Apple direkt auf TarFlow auf und präsentiert STARFlow (Scalable Transformer AutoRegressive Flow) mit wichtigen Verbesserungen. Die größte Änderung: STARFlow generiert Bilder nicht mehr direkt im Pixelraum. Stattdessen arbeitet es auf einer komprimierten Version des Bildes, die dann von einem Decoder in den vollen Auflösungsgrad aufsampled wird. Dieser Übergang zum sogenannten latenten Raum bedeutet, dass STARFlow sich nicht um die Vorhersage von Millionen von Pixeln kümmern muss. Es kann sich zunächst auf die breitere Bildstruktur konzentrieren und die feineren Texturendetails dem Decoder überlassen. Apple hat auch die Textverarbeitung des Modells überarbeitet. Anstatt einen separaten Textencoder zu bauen, kann STARFlow bestehende Sprachmodelle (wie Google’s kleines Sprachmodell Gemma, das theoretisch auf Geräten laufen könnte) nutzen, um Sprachverstehen zu gewährleisten, wenn der Benutzer das Modell auffordert, ein Bild zu erzeugen. Dies hält die bildgenerierenden Teile des Modells auf die Feinabstimmung visueller Details konzentriert. Vergleich zwischen STARFlow und OpenAI’s 4o Bildgenerator Während Apple Flows neu denkt, hat OpenAI kürzlich mit seinem GPT-4o-Modell ebenfalls den Schritt über Diffusionsmodelle hinaus gemacht. Ihr Ansatz ist jedoch grundlegend anders. GPT-4o behandelt Bilder als Sequenzen diskreter Tokens, ähnlich wie Wörter in einem Satz. Wenn man ChatGPT auffordert, ein Bild zu generieren, vorhersagt das Modell Token für Token, das Bild Stück für Stück aufbauend. Dies bietet OpenAI enorme Flexibilität: Das gleiche Modell kann Text, Bilder und Audio innerhalb eines einheitlichen Tokenstroms erzeugen. Der Nachteil? Token für Token zu generieren kann langsam sein, insbesondere bei großen oder hochaufgelösten Bildern. Zudem ist es extrem rechenintensiv. Da GPT-4o vollständig in der Cloud läuft, ist OpenAI weniger von Latenz oder Energieverbrauch eingeschränkt. Zusammenfassend lässt sich sagen, dass sowohl Apple als auch OpenAI ihre Forschung über Diffusionsmodelle hinaus ausdehnen. Allerdings richtet OpenAI seine Bemühungen auf seine Datencenter, während Apple seine Technologie auf mobile Endgeräte abstimmt. Branchenkenner bewerten Apples Ansatz als vielversprechend, da er potenziell effizienter und besser geeignet für die Ausführung auf Endgeräten sein könnte. Dies könnte die Verbreitung von KI-generierten Bildern in der mobilen Technologie erheblich fördern. Apple hat sich in der Vergangenheit durch kontinuierliche Innovation in der KI-Bildgenerierung ausgezeichnet, und diese neuen Entwicklungen verstärken dieses Image weiter.