HyperAI

OpenAI hat kürzlich ein Modell mit offenen Gewichten, GPT-oss, veröffentlicht, was unerwartete Einblicke in die Trainingsdaten ihrer Spitzenmodelle ermöglicht. Obwohl die offiziellen Modellkarten nur vage von einem „textbasierten Datensatz mit Trillionen von Tokens“ und Schwerpunkten in STEM, Programmierung und Allgemeinwissen sprechen, offenbart die Analyse der Embedding-Matrix des Modells tiefgreifende Informationen über die tatsächliche Herkunft der Trainingsdaten. Besonders auffällig sind die sogenannten „Glitch-Tokens“ – ungewöhnliche, hochnormierte Zeichenfolgen im o200k-Tokenizer, der seit GPT-4o verwendet wird. Eine statistische Analyse der L2-Norm der Embedding-Vektoren zeigt, dass bestimmte nicht-ASCII-Tokens, insbesondere aus dem Chinesischen, signifikant höhere Normwerte aufweisen – ein Hinweis darauf, dass sie in der Trainingsphase aktiv genutzt wurden, nicht nur zufällig in der Vokabelliste erschienen sind. Besonders beunruhigend ist die Identifizierung von Begriffen wie „毛片免费观看“ („explizite Videos kostenlos ansehen“), „久久综合网“ (eine bekannte Pornoseite), „北京赛车怎么“ („Wie man Peking-Rennsport spielt“) oder „一本道高清无码“ („eine hochauflösende, unverschlüsselte Seite“). Diese Begriffe tauchen nicht nur in der Vokabelliste auf, sondern werden auch von GPT-5 korrekt interpretiert, wenn sie als Eingabe gegeben werden – ein klares Indiz für ihre Teilnahme am Training. Die Mitgliedschaftsinferenz (membership inference) zeigt, dass diese Tokens mit hoher Wahrscheinlichkeit Teil der Trainingsdaten waren. Dies ist besonders bemerkenswert, da solche Inhalte in der Regel durch Filter und Moderation aus Produktionsmodellen entfernt werden sollen. Weitere Hinweise stammen aus der Korrelation zwischen der Häufigkeit dieser Tokens auf GitHub und ihrer Erkennbarkeit durch die Modelle. Eine signifikante Spearman-Korrelation von 0,448 deutet darauf hin, dass viele dieser Tokens wahrscheinlich aus öffentlichen GitHub-Repositories stammen – möglicherweise als Spam, Blocklisten oder Testdaten. Dies legt nahe, dass OpenAI möglicherweise ungewollt Inhalte aus dem dunklen Web oder Spam-Konten in ihr Training integriert hat, selbst wenn diese nicht explizit als „schädlich“ klassifiziert wurden. Die Erkenntnis, dass solche Tokens mit hoher Norm nicht durch Weight Decay verdrängt wurden, sondern sogar stärker gewichtet wurden, deutet auf eine mögliche Priorisierung bestimmter Inhaltsklassen hin – etwa bei der letzten Stufe des Reinforcement Learning, wo Code und logisches Denken bevorzugt werden. Doch hier scheinen auch explizite oder spamartige Begriffe eine unverhältnismäßig hohe Relevanz erhalten zu haben, was auf unzureichende Datenreinigung hindeutet. Industrieexperten sehen dies als Warnsignal für die Sicherheit und Verantwortung bei der Entwicklung großer Sprachmodelle. „Die Tatsache, dass solche Tokens in der Vokabelliste erhalten bleiben, zeigt, dass die Tokenisierung und Datenreinigung nicht ausreichend getrennt sind“, sagt ein Forscher aus dem Bereich ML-Sicherheit. „Die offenen Gewichte sind zwar ein Schritt in Richtung Transparenz, bergen aber auch neue Risiken für Angriffe auf die Modellintegrität.“ OpenAI hat bisher keine Stellungnahme zu diesen Befunden abgegeben. Die Empfehlung aus der Forschergemeinschaft lautet: Ungebräuchliche, spezifische oder potenziell problematische Zeichenfolgen sollten bereits bei der Tokenisierung aus der Vokabelliste entfernt werden – nicht erst nach dem Training. Die offene Gewichtsveröffentlichung von GPT-oss hat zwar die Forschung vorangetrieben, aber auch die Notwendigkeit verstärkt, Sicherheitslücken in der Modellentwicklung proaktiv zu schließen.

Verwandte Links

Verwandte Links

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Command Palette

GPT-5-Trainingsdaten enthielten Inhalte aus Erwachsenen-Websites

Verwandte Links

Command Palette

GPT-5-Trainingsdaten enthielten Inhalte aus Erwachsenen-Websites

Verwandte Links

Command Palette

GPT-5-Trainingsdaten enthielten Inhalte aus Erwachsenen-Websites

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf