ChatGPT im Agentenmodus
25. Juli 2025
OpenAI hat mit der Einführung des Agentenmodus in ChatGPT ein Versprechen eingelöst: Intelligente Helfer, die für uns Aufgaben übernehmen, die über das Erstellen von Texten und Bildern hinausgehen. Aber wie funktioniert das eigentlich?
Der Agentenmodus erweitert ChatGPT um die Fähigkeit, konkrete Aktionen auszuführen. Technisch basiert das auf einer Kombination aus dem Sprachmodell (das Anfragen versteht und in natürlicher Sprache antwortet) und einer so genannten Execution Engine, also einer Ausführungsschicht, die Befehle aus der Sprache ableitet und dann automatisiert umsetzt. Der Agent kann damit eigenständig Tools bedienen, Daten abrufen oder Aufgaben in einer festgelegten Umgebung ausführen – und dabei sogar zwischen verschiedenen Apps und Webseiten navigieren.
Statt bloß zu antworten, kann ChatGPT im Agentenmodus also handeln. Er klickt sich durch Webseiten, bestellt Dinge, füllt Formulare aus oder organisiert Reisen – ganz wie ein menschlicher Assistent. Klingt beeindruckend. Aber funktioniert das auch so?
Was der neue ChatGPT Agentenmodus kann
Der neue Agent ist eine Kombination aus Sprachmodell und Automatisierung: Er kann nicht nur verstehen und formulieren, sondern auch Aktionen ausführen. Zum Beispiel:
- Informationen auf Websites suchen und extrahieren
- Zwischen verschiedenen Tools hin- und herwechseln (z. B. Kalender, Mail, Dokumente)
- Aufgaben wie das Zusammenfassen von E-Mails oder das Erstellen von To-dos übernehmen
Im Idealfall beschreiben wir, was wir benötigen – der Agent erledigt den Rest. Kein Klicken, kein Copy-Paste, kein ständiges Wechseln zwischen Tabs oder Apps.
Wo es (noch) hakt
In der Praxis zeigt sich, dass Agenten oft an banalen Dingen scheitern. Warum? Weil Webseiten für Menschen gebaut sind, nicht für Maschinen. Menschen sind fehlertolerant. Wenn ein Button nicht eindeutig beschriftet ist, wissen wir trotzdem, was gemeint ist. Wenn ein Formularfeld nicht sauber funktioniert, probieren wir es eben anders. Agenten hingegen brauchen klare Strukturen und Logik. Sie scheitern an Details, die wir unbewusst ausgleichen. Genau das macht viele der oft zitierten Anwendungsfälle – wie z. B. das Buchen einer Reise – heute noch unrealistisch.
Klar, die Idee, dass ein digitaler Assistent im Hintergrund die perfekte Bali-Reise organisiert, ist charmant. Aber wie oft im Jahr brauchen wir das wirklich? Und wie oft müssten wir uns stattdessen mit kryptischen Fehlermeldungen und abgebrochenen Sessions herumschlagen?
Wofür sich der Agentenmodus schon eignet
Statt auf die Hochglanz-Beispiele aus den Demos der Hersteller zu setzen, lohnt sich ein Blick auf den Alltag: Agenten können dort glänzen, wo Aufgaben strukturiert, wiederholbar oder - sagen wir es ehrlich - lästig sind. Zum Beispiel:
- Täglich identische Statusberichte aus verschiedenen Quellen zusammensuchen
- Formulare ausfüllen, bei denen sich nur ein paar Daten ändern
- Standardmails erstellen oder prüfen
- Daten über mehrere interne Tools hinweg konsolidieren
Kurz gesagt: Überall dort, wo wir Menschen eher stumpf klicken als kreativ denken, können Agenten wirklich helfen. Und genau hier lohnt sich auch die Mühe, sich mit ihren Eigenheiten und Grenzen auseinanderzusetzen – weil sie uns Zeit sparen und unliebsame Tätigkeiten abnehmen.