HyperAIHyperAI

Command Palette

Search for a command to run...

Google DeepMind entwickelt Methode zur Rettung nutzbarer AI-Daten

Ein drohender Mangel an Trainingsdaten für KI-Modelle könnte die Entwicklung künftiger Systeme bremsen – doch Google DeepMind hat mit einer neuen Methode namens Generative Data Refinement (GDR) eine mögliche Lösung vorgestellt. Die Technik nutzt vortrainierte generative Modelle, um unbrauchbare, schädliche oder sensible Daten aus dem Web zu „reinigen“, sodass sie für das Training von KI genutzt werden können. Dabei werden beispielsweise Sozialversicherungsnummern oder veraltete Informationen wie „der neue CEO ist…“ automatisch ersetzt oder entfernt, während der übrige, nützliche Teil der Daten erhalten bleibt. Dieser Ansatz könnte helfen, große Mengen an bisher verworfenen Texten und Code-Dateien nutzbar zu machen, die ansonsten aufgrund von persönlichen Daten oder Fehlinformationen aussortiert werden. Die Idee wurde von Minqi Jiang und Kollegen von Google DeepMind entwickelt, wobei Jiang mittlerweile bei Meta arbeitet. Er kritisiert, dass viele KI-Labore ganze Dokumente wegschmeißen, nur weil ein einzelner Satz oder ein Token unpassend ist – ein Verlust an wertvollen Daten. GDR soll dies verhindern, indem es nur die schädlichen Teile bearbeitet, nicht das gesamte Dokument verwirft. In einer Proof-of-Concept-Studie wurden über eine Million Codezeilen analysiert: menschliche Experten annotierten die Daten, und das Ergebnis wurde mit dem von GDR erzeugten verglichen. Laut Jiang „übertrifft“ GDR bestehende Lösungen deutlich und liefert qualitativ bessere Daten als synthetische Daten, die von KI selbst generiert werden – ein Ansatz, der bekanntermaßen zu „Model Collapse“ führen kann, bei dem Modelle immer mehr Fehlinformationen reproduzieren. Ob Google GDR bereits für seine Gemini-Modelle nutzt, blieb unklar, da ein Sprecher von DeepMind keine Stellungnahme abgab. Die Studie wurde vor mehr als einem Jahr verfasst und erst kürzlich veröffentlicht, ohne Peer-Review, was in der Tech-Branche jedoch üblich ist. Die Forscher sehen Potenzial auch für andere Datenformate wie Video und Audio, obwohl diese bereits in großer Menge vorhanden sind – vor allem Videos, die ständig in riesigen Mengen entstehen. GDR könnte daher nicht nur Text, sondern auch komplexe multimodale Daten in Zukunft nutzbar machen. Einige Experten sehen in GDR eine vielversprechende Innovation, die die KI-Entwicklung voranbringen könnte, wenn die Datenqualität gewahrt bleibt. Andere warnen jedoch vor ethischen Risiken: Selbst wenn sensible Daten entfernt werden, könnte die Erzeugung von „gereinigten“ Daten durch KI die Verbreitung von Fehlinformationen oder die Wiederherstellung verdeckter Identitäten fördern. Zudem bleibt unklar, wie gut GDR mit komplexen, mehrschichtigen Datenschutzbestimmungen wie der DSGVO umgeht. Insgesamt könnte GDR eine Schlüsseltechnologie werden, um die begrenzte Menge menschlicher Textdaten zu verlängern – besonders kritisch, da laut einer 2022er-Studie die gesamte menschliche Textproduktion bis 2032 erschöpft sein könnte. Die Methode könnte somit entscheidend für die Zukunft von KI-Modellen sein, sofern sie ethisch und sicher umgesetzt wird.

Verwandte Links