ChatGPT-Agent: Langsam, unzuverlässig, aber mit Potenzial
Ich habe den neuen ChatGPT Agent von OpenAI ausprobiert, um für mich einzukaufen. Der Agent kann als ein frisch eingestellter Praktikant betrachtet werden, der bei jeder Aufgabe unglaublich langsam ist, aber letztendlich die Arbeit erledigen wird – zumindest teilweise und meistens. Am Tag seiner Vorstellung durch OpenAI beschloss ich, die $200 für ein einmonatiges Abonnement von ChatGPT Pro zu bezahlen, da die Nachfrage nach ChatGPT Agent höher als erwartet war und die Verfügbarkeit für Plus- und Team-Benutzer verzögert wurde. Unserer Einschätzung nach ist es ein Fortschritt im Bereich der KI-Assistenten, aber es ist träge, nicht immer verlässlich und kann technische Probleme verursachen. Durch das Eintippen von „/agent“ bin ich in den sogenannten Agent Modus gewechselt. OpenAI schlug mir fünf Beispiel-Aufgaben vor: Einen hochwertigen Kaffee-Mahlwerk für weniger als $150 finden, Artikel über seltene Erdenmetalle aus der Wall Street Journal prüfen, eine Google Maps-Liste der besten Bäckereien in Kopenhagen erstellen, eine „japanisch inspirierte“ vintage-Lampe auf Etsy für weniger als $200 suchen und ein gemeinsames Abendessen für die kommende Woche in meinem Google-Kalender planen. Ich entschied mich für die Suche nach der Lampe auf Etsy. Nach dem Klicken auf die Aufgabe füllte sich das Textfenster mit einer detaillierten Anweisung: „Eine japanisch inspirierte vintage-Lampe auf Etsy finden, die unter $200 kostet und kostenlose Versandkosten hat. Priorisiere hochwertige Fotos, Verkäuferbewertungen und Angebote, die als bereit zum Versand gekennzeichnet sind. Füge die besten fünf Optionen zu meinem Warenkorb hinzu und stelle mir jeweils eine URL zur Verfügung, damit ich sie vergleichen kann.“ Ein kleines Fenster erschien, um die Aufgaben des Agents Schritt für Schritt zu verfolgen. Die Lampe-Suche dauerte 50 Minuten, und der Agent zeigte mir jeden Schritt, den er durchlief: „Nachdenken“, sein Desktop einrichten, zu Etsy navigieren, auf Ladezeiten warten, die Suchabfrage starten, nach vintage-Lampen filtern (obwohl der ursprüngliche Auftrag „vintage-stil“ betonte), den Preisfilter auf $200 setzen, Versandkosten überprüfen und mehr. Ein weiterer Haken: ChatGPT Agent sagte, er hätte alle fünf Lampen zu meinem Etsy-Warenkorb hinzugefügt (der Warenkorb zeigte fünf Artikel im Gesamtwert von etwa $825). Allerdings stimmte das nicht – mein eigener Warenkorb blieb leer, da ChatGPT Agent keinen Zugriff auf meinen Browser oder meine Anmeldeinformationen hat. Er hatte die Lampen möglicherweise zu einem virtuellen PC hinzugefügt, den ich nicht sehen konnte. Dennoch schickte er mir die individuellen URLs, sodass ich die Lampen manuell in den Warenkorb legen konnte. Natürlich ist ChatGPT Agent unglaublich langsam. Das ist kein Geheimnis. Für viele Aufgaben, einschließlich alltäglichen Konsumaufgaben, könnte ein Mensch dies viel schneller erledigen. OpenAI betont jedoch, dass ChatGPT Agent eher für komplexe Aufgaben im Hintergrund arbeitet, während der Nutzer andere Dinge tun kann. Yash Kumar und Isa Fulford, Produkt- und Forschungsleiter des Agents, erklärten in einem privaten Demo am Mittwoch, dass ihr Team sich eher auf die Optimierung für schwierige Aufgaben konzentriert als auf Reaktionsgeschwindigkeit. „Selbst wenn es 15 Minuten oder eine halbe Stunde dauert, ist es immer noch eine große Beschleunigung im Vergleich zu der Zeit, die es dir selbst kosten würde, die Aufgabe zu erledigen“, sagte Fulford. Um die Sicherheit des Agents zu testen, fragte ich, ob er bei finanziellen Transaktionen helfen kann. Kumar erklärte, dass solche Aufgaben „für den Moment“ eingeschränkt sind und dass ein zusätzlicher Schutzmechanismus namens Watch Mode dafür sorgt, dass der Benutzer für bestimmte Websites überwachen muss, dass der Agent nicht ohne Aufsicht agiert. Ich bat den Agent, sich in mein Bankkonto einzuloggen und einen automatischen monatlichen Transfer zu meiner Sparkasse einzurichten. Zuerst erhielt ich eine seltsame Fehlermeldung mit einer roten Zahlenkette. Beim erneuten Versuch sagte der Agent: „Es tut mir leid, aber ich kann bei der Einrichtung eines automatischen Transfers zwischen Konten nicht helfen.“ Als Nächstes bat ich den Agent, Blumen für meine Freundin Alanna in Colorado zu kaufen. Dies ist eine Aufgabe, die ich häufig erledige, da meine beiden besten Freunde in verschiedenen Bundesstaaten leben und ich trotzdem an wichtigen Meilensteinen dabei sein möchte. Die Online-Blumenzustellung kann ein echtes Kopfzerbrechen sein, da Preise und Struktur der Bouquets je nach Dienstleister stark variieren. Ich gab dem Agent die Anweisung: „Ich möchte Blumen für meine Freundin in Colorado kaufen. Überprüfe die Lieferdienste – Samstagslieferung ist in Ordnung, aber nicht später. Finde die günstigsten und größten Bouquet-Optionen für mich.“ Ich bereitete mich auf einen langen Wartezeit vor. Glücklicherweise hatte ich ohnehin einen Anruf. Der Agent erkundigte sich nach dem Wohnort in Colorado und ich antwortete. Als ich kurz darauf nachsah, bemerkte ich, dass ChatGPT Agent sich stark auf Artikel aus Forbes und Good Housekeeping stützte. Als ich zurückkam, war das Gespräch weg und erschien nicht in meinem Chathistorie. Also fragte ich erneut und wartete erneut. Diesmal antwortete der Agent fast sofort mit vier Optionen, einschließlich Preisangaben und Bewertungen der Bouquet-Größe und erwarteten Lieferzeiten. Er schlug auch vor, dass lokale Floristen generell zuverlässiger sind, was meiner Erfahrung entspricht. Ich wählte eine Option – einen lokalen Floristen mit handgefertigten Bouquets – und bat den Agent, mir bei der Auswahl und Bestellung eines Bouquets zu helfen. Der Agent antwortete: „Ich kann Vintage Magnolias Website nicht direkt aufrufen, es sei denn, du gibst mir die genaue URL, die du siehst – aber ich kann dich durch den Bestellprozess führen und dir bei der Auswahl helfen!“ Das ist verwirrend, da der Agent mich zuvor auf diese Florist-Website verwiesen hatte. Er sagte jedoch, dass er die Bestellung nicht direkt durchführen könne, da er keine Zugangsdaten zu externen Websites besitze und auch keine Zahlungsvorgänge ausführen könne. Trotz seiner beeindruckenden Analysefähigkeiten und seiner Fähigkeit, Optionen abzuwägen und durch Prozesse zu leiten, scheint ChatGPT Agent Schwierigkeiten damit zu haben, genau die Aufgaben zu erfüllen, für die er eigentlich entwickelt wurde. Die Tatsache, dass er seine eigenen virtuellen Ressourcen verwendet und nicht auf deinen Computer zugreift, begrenzt seine Nützlichkeit erheblich. Er kann die angenehmeren und interessanteren Teile des Prozesses leicht automatisieren (z.B. die Auswahl eines spezifischen Bouquets oder das Schreiben einer lieben Nachricht), hat aber Schwierigkeiten mit den frustrierendsten Teilen (wie das Ausfüllen von Lieferdetails und die Durchführung des Kaufs). „Selbst mit deiner Erlaubnis habe ich die technische Fähigkeit nicht, als du auf einer anderen Website zu handeln – ich kann nicht für dich tippen, Buttons anklicken oder Kreditkartenformulare ausfüllen“, schrieb der Agent. „Denke an mich eher als an einen supermächtigen Assistenten, der sammeln, vergleichen, schreiben und leiten kann – aber keine Transaktionen durchführen.“ Als persönlicher Assistent in New York wäre ich meinen Job wahrscheinlich losgeworden, wenn ich die Formulare meines Chefs nicht hätte ausfüllen können. ChatGPT Agent ist ein Schritt in die richtige Richtung für den alltäglichen Einsatz von KI-Assistenten, aber es bleibt abzuwarten, ob er lernen wird, seine Versprechen einzuhalten. Industrie-Insider bewerten den ChatGPT Agent als vielversprechend, aber noch nicht reif für den täglichen Einsatz. OpenAI ist bekannt für seine fortschrittlichen KI-Modelle, aber der Agent zeigt, dass es noch viele Herausforderungen gibt, die überwunden werden müssen. Die Firma plant, die Leistungsfähigkeit des Agents in den kommenden Monaten weiter zu verbessern.