Neue Ära der KI-Assistenz mit handlungsfähigen Tools gestartet
Mit dem ChatGPT Agent beginnt eine neue Phase der KI-Nutzung, denn erstmals kann ChatGPT komplexe Aufgaben selbstständig und proaktiv erledigen, inklusive direkter Interaktion mit Websites und Anwendungen.
- Was der ChatGPT Agent kann
- Von Operator & Deep Research zum Agenten
- Werkzeuge und Arbeitsweise
- Anwendungsbeispiele im Alltag und Beruf
- Benchmark-Ergebnisse und Leistungsdaten
- Aktivierung und Nutzung
- Sicherheitsmaßnahmen und Datenschutz
- Verfügbarkeit und Kontingente
- Einschränkungen & laufende Entwicklung
Was der ChatGPT Agent kann
Der neue ChatGPT Agent erweitert ChatGPT um die Fähigkeit, eigenständig Aufgaben zu erledigen, von der Recherche bis zur konkreten Handlung. Dazu nutzt er einen virtuellen Computer und eine Auswahl spezialisierter Tools, um beispielsweise Termine im Kalender zu analysieren, Präsentationen zu erstellen, Wettbewerber zu vergleichen oder sogar Einkäufe zu planen und direkt zu tätigen.
Arbeiten wie das Recherchieren von News zu Kundenterminen, das Planen und Bestellen von Zutaten für ein japanisches Frühstück oder das Erstellen von editierbaren Präsentationen und Tabellen werden nun automatisiert von ChatGPT übernommen. Die KI kann Websites besuchen, Ergebnisse filtern, bei Bedarf zur sicheren Anmeldung auffordern, Code ausführen, Analysen durchführen und die Resultate in editierbaren Formaten bereitstellen.
Die Steuerung bleibt dabei stets beim Nutzenden: Vor jeder wichtigen Aktion wird eine Bestätigung eingeholt und Prozesse können jederzeit gestoppt oder übernommen werden.
Von Operator & Deep Research zum Agenten
Der ChatGPT Agent vereint die Stärken zweier bisher getrennter Systeme: Während Operator Websites bedienen und Aufgaben wie Klicken oder Tippen erledigen konnte, lag der Fokus von Deep Research auf Analyse und Informationsaufbereitung. Diese bislang getrennten Ansätze wurden nun in einem einzigen System zusammengeführt und durch weitere Tools ergänzt. Dadurch kann ChatGPT nun flexibel zwischen Recherche, Interaktion und Handlung wechseln, alles nahtlos in einer Konversation.
Werkzeuge und Arbeitsweise
Für die Umsetzung nutzt der Agent eine Reihe spezialisierter Komponenten:
- Visueller Browser – interagiert grafisch mit Websites, ähnlich wie ein Mensch.
- Textbasierter Browser – für effiziente, textorientierte Webabfragen.
- Terminal – ermöglicht komplexe Analysen und das Ausführen von Code.
- Direkter API-Zugriff – etwa für den Zugriff auf Kalender, E-Mails oder Drittanwendungen.
- ChatGPT Connectors – Schnittstellen zu Diensten wie Gmail oder Github, um relevante Informationen gezielt einzubeziehen (mehr zu Connectors).
Nutzende können sich selbst auf Websites einloggen und dem Agenten so weitergehenden Zugriff ermöglichen. Die KI entscheidet dann eigenständig, welches Werkzeug für den jeweiligen Schritt am sinnvollsten ist, etwa API-Zugriff für Kalenderdaten, textbasierte Analyse großer Datenmengen oder visuelle Interaktion mit komplexen Web-Oberflächen.
Sämtliche Aktionen laufen auf einer isolierten, virtuellen Umgebung, die den Kontext über verschiedene Tools hinweg sichert. So bleibt auch bei Unterbrechungen oder neuen Instruktionen stets der Arbeitsstand erhalten.
Anwendungsbeispiele im Alltag und Beruf
Die neuen Fähigkeiten heben die Alltagstauglichkeit von ChatGPT auf ein neues Level, sowohl privat als auch im Beruf. Hier einige typische Einsatzmöglichkeiten:
- Umwandlung von Screenshots oder Dashboards in editierbare Präsentationen
- Automatisches Umplanen und Buchen von Meetings
- Aktualisieren von Finanzdaten in Tabellen, ohne die Formatierung zu verlieren
- Planen und Buchen von Reisen oder Events
- Recherche nach Fachspezialisten und Terminbuchung
Die KI kann Aufgaben in Echtzeit erledigen, sich mit Apps verbinden, wiederkehrende Reports automatisch erstellen und Nutzende per App-Benachrichtigung informieren, sobald die Aufgabe abgeschlossen ist.
Benchmark-Ergebnisse und Leistungsdaten
Die Leistungsfähigkeit des ChatGPT Agenten wurde in verschiedenen Benchmarks und realitätsnahen Tests eindrucksvoll belegt:
- Auf dem anspruchsvollen Humanity’s Last Exam erreichte das Modell einen neuen Bestwert (SOTA) von 41,6 im pass@1-Score, mit bis zu 44,4 im Parallelbetrieb.
- Im FrontierMath-Benchmark, der Expertenaufgaben aus der Mathematik umfasst, erzielt der Agent mit Tool-Nutzung eine Genauigkeit von 27,4% und übertrifft damit frühere Modelle deutlich.
- In praxisnahen Benchmarks wie DSBench (Datenanalyse), SpreadsheetBench (Tabellenbearbeitung) und BrowseComp (Webrecherche) übertrifft der ChatGPT Agent sowohl andere KI-Lösungen als auch menschliche Vergleichswerte in zahlreichen Fällen. Beispielsweise erreicht der Agent beim Editieren von .xlsx-Tabellen in LibreOffice einen Score von 45,5%, während Copilot in Excel auf 20,0% kommt.
- Auch in komplexen Aufgaben aus dem Bereich Investmentbanking zeigt der Agent signifikant bessere Ergebnisse als vorherige Modelle.
- Im WebArena-Test für reale Webaufgaben schneidet der Agent ebenfalls besser ab als Vorgänger.
Alle Benchmarks und die Methodik sowie viele weitere Informationen und Videos werden im englischsprachigen Beitrag von OpenAI ausführlich dokumentiert.
Aktivierung und Nutzung
Die neuen Agenten-Funktionen lassen sich in ChatGPT für Pro-, Plus– und Team-Abonnenten direkt über das Dropdown-Menü „Tools“ im Composer aktivieren. Die Nutzung ist denkbar einfach: Aufgabe beschreiben, Agentenmodus wählen und ChatGPT startet mit sichtbarer Schritt-für-Schritt-Ausführung. Bei Bedarf kann die Kontrolle jederzeit übernommen werden.
Nach Authentifizierung können auch Connectors genutzt werden, um zum Beispiel das eigene E-Mail-Postfach zusammenfassen oder Kalendereinträge automatisch auswerten zu lassen. Wiederkehrende Aufgaben lassen sich direkt terminieren, etwa für wöchentliche Berichte.
Sicherheitsmassnahmen und Datenschutz
Mit dem erweiterten Handlungsspielraum gehen neue Risiken einher. Der ChatGPT Agent arbeitet direkt mit Nutzerdaten, etwa über Connectors oder nach Login auf Websites. Daher wurden die bestehenden Sicherheitsmechanismen aus der Operator-Vorschau umfassend erweitert:
- Explizite Nutzerbestätigung vor jeder Aktion mit Auswirkungen auf die reale Welt (z.B. Kaufabschlüsse).
- Aktive Überwachung („Watch Mode“), etwa beim Senden von E-Mails.
- Proaktive Risikoabwehr: Hochriskante Aktionen wie Banktransfers werden kategorisch abgelehnt.
- Schutz vor Prompt Injection: Das Modell ist darauf trainiert, Manipulationsversuche – etwa durch versteckte Anweisungen auf Webseiten – zu erkennen und abzuwehren.
- Datenschutz: Mit einem Klick lassen sich alle Browserdaten löschen und aktive Website-Sitzungen beenden. In „Takeover“-Sessions werden keine sensiblen Eingaben wie Passwörter gespeichert oder verarbeitet.
- Biologische und chemische Sicherheit: Der Agent wird als „High Biological and Chemical capabilities“ gemäß OpenAIs Preparedness Framework behandelt und verfügt über die bislang umfassendsten Sicherheitsmechanismen, einschließlich Dual-Use-Refusal-Training und ständiger Überwachung.
OpenAI arbeitet eng mit externen Expertinnen und Experten aus Forschung, Sicherheit und Biodefense zusammen, um die Schutzmassnahmen kontinuierlich zu verbessern. Ein Bug-Bounty-Programm wurde ebenfalls gestartet, um Schwachstellen schnellstmöglich zu beheben. Details zur Sicherheitsarchitektur finden sich in der OpenAI System Card.
Verfügbarkeit und Kontingente
Der Rollout startet ab sofort für Pro-, Plus- und Team-Abonnenten. Pro-Nutzende erhalten 400 Nachrichten pro Monat, andere Bezahlabos 40 Nachrichten monatlich, mit der Möglichkeit zusätzlicher Nutzung über Kreditpakete. Der Zugang für Unternehmen und Bildungseinrichtungen folgt in den kommenden Wochen. In der Europäischen Union und der Schweiz ist der Dienst aktuell noch nicht verfügbar, eine Einführung ist jedoch geplant.
Die Operator-Vorschau bleibt noch einige Wochen erreichbar, wird aber anschließend eingestellt. Die Deep-Research-Funktion ist weiterhin über das Dropdown im Composer auswählbar.
Einschränkungen & laufende Entwicklung
Der ChatGPT Agent befindet sich am Anfang seiner Entwicklung. Während bereits umfangreiche Aufgaben übernommen werden können, sind Fehler weiterhin möglich. Die Funktion zur Erstellung von Präsentationen ist aktuell noch in der Beta-Phase und kann im Einzelfall einfache Formatierungen aufweisen. Beim Export kann es gelegentlich zu Unterschieden zwischen Vorschau und exportierter Datei kommen. Das Bearbeiten hochgeladener Präsentationen ist derzeit noch nicht möglich, wird aber in kommenden Versionen erwartet.
OpenAI arbeitet kontinuierlich an Verbesserungen hinsichtlich Effizienz, Flexibilität und Bedienkomfort. Ziel ist es, die Balance zwischen Nutzerkontrolle und Automatisierung optimal auszubalancieren, um den ChatGPT Agenten möglichst sicher und gleichzeitig vielseitig einsetzbar zu machen.