Command Palette
Search for a command to run...
GPT-4o Systemkarte
GPT-4o Systemkarte
Zusammenfassung
GPT-4o ist ein autoregressives Omni-Modell, das beliebige Kombinationen aus Text, Audio, Bild und Video als Eingabe akzeptiert und beliebige Kombinationen aus Text, Audio und Bild als Ausgabe generiert. Es wurde end-to-end über Text, Vision und Audio trainiert, was bedeutet, dass alle Eingaben und Ausgaben von demselben neuronalen Netzwerk verarbeitet werden. GPT-4o kann auf Audioeingaben bereits innerhalb von nur 232 Millisekunden reagieren, im Durchschnitt bei 320 Millisekunden – vergleichbar mit der Reaktionszeit von Menschen in Gesprächen. Die Leistung von GPT-4o im Bereich Text auf Englisch und Code entspricht der von GPT-4 Turbo, während es bei Texten in nicht-englischen Sprachen erhebliche Verbesserungen zeigt. Gleichzeitig ist es deutlich schneller und 50 % kostengünstiger im API-Modus. GPT-4o übertrifft bestehende Modelle insbesondere in der Verarbeitung von Vision und Audio. In Übereinstimmung mit unserem Engagement für die sichere Entwicklung von KI und unseren freiwilligen Zusagen gegenüber der Weißen Haus-Initiative veröffentlichen wir die GPT-4o-Systemkarte, die unsere Evaluierungen im Rahmen des Preparedness Frameworks enthält. In dieser Systemkarte geben wir einen detaillierten Einblick in die Fähigkeiten, Grenzen und Sicherheitsbewertungen von GPT-4o in mehreren Kategorien, wobei der Schwerpunkt auf der Sprache-zu-Sprache-Interaktion liegt, gleichzeitig aber auch Text- und Bildfähigkeiten sowie die von uns implementierten Maßnahmen zur Sicherheit und Ausrichtung des Modells bewertet werden. Zudem enthalten wir Bewertungen durch Dritte hinsichtlich gefährlicher Fähigkeiten sowie eine Diskussion möglicher gesellschaftlicher Auswirkungen der Text- und Visionfähigkeiten von GPT-4o.