GPT-5.4 Native Computer Control Tutorial: KI-Desktop-Automatisierung in nur 5 Minuten meistern (Vollständige API + Playwinner-Leitfaden)
GPT-5.4 Native Computer Control Tutorial
KI-Desktop-Automatisierung in 5 Minuten meistern — Vollständige API + Leitfaden für Theaterautoren
OpenAI hat gerade veröffentlicht GPT-5.4 — Einführung native Computernutzung Das verändert die Automatisierung grundlegend.
Zum ersten Mal kann eine universell einsetzbare KI sehen Sie Ihren Bildschirm, Dann Klicken, tippen, scrollen und ziehen Genau wie ein Mensch – keine Plugins erforderlich.
Im OSWorld-Benchmark erzielt es folgende Punktzahl: 75,0 %und übertrifft damit menschliche Experten.
Beispiel: Weisen Sie es an, Chrome zu öffnen, eine Rechnung zu suchen und darauf zu antworten – es wird tatsächlich Mach esDie
Was Sie lernen werden
- Computersteuerung in ChatGPT aktivieren
- Produktionsreife API + Dramaturgen-Setup
- Anwendungsbeispiele aus der Praxis + Sicherheitstipps
So funktioniert es (Die Schleife)
- Gib eine Aufgabe
- Screenshot analysieren
- Rückgabeaktionen
- Aktionen ausführen
- Wiederholen Sie den Vorgang, bis Sie fertig sind.

Schritt 1: Sofortdemo
- Gehen Sie zu chatgpt.com
- GPT-5.4 Denken auswählen
- Bitten Sie es, bei Google zu suchen.

Schritt 2: API-Einrichtung
Voraussetzungen
- API-Schlüssel
- Python 3.10+
- pip install openai playwright
- Playwright installiert Chromium
Vollständiger, funktionierender Code
from openai import OpenAI from playwright.sync_api import sync_playwright import base64 client = OpenAI( api_key="your-key", base_url="https://api.ai.cc/v1" ) def capture(page): return base64.b64encode(page.screenshot()).decode() with sync_playwright() as p: browser = p.chromium.launch(headless=False) page = browser.new_page() page.goto("https://example.com") response = client.responses.create( model="gpt-5.4", tools=[{"type": "computer"}], input="Search latest AI news" ) while True: call = next((x for x in response.output if x.type=="computer_call"), None) if not call: break for act in call.actions: if act.type=="click": page.mouse.click(act.x, act.y) elif act.type=="type": page.keyboard.type(act.text) response = client.responses.create( model="gpt-5.4", previous_response_id=response.id, tools=[{"type":"computer"}], input=[{ "type":"computer_call_output", "call_id":call.call_id, "output":{ "type":"computer_screenshot", "image_url":"data:image/png;base64,"+capture(page) } }] ) Anwendungsfälle
- Marketingautomatisierung
- Vertriebslead-Scraping
- Webtests
- Finanzberichterstattung
Sicherheitsregeln
- Verwenden Sie isolierte Umgebungen
- Für riskante Aktionen eine Bestätigung verlangen
- Monitornutzung
Preisgestaltung
- ChatGPT Plus: 20 $/Monat
- OpenAI API: Standardpreise
- ai.cc: Kostengünstigere Alternative
Häufig gestellte Fragen
Kann ich es ohne Programmierung verwenden? Ja, aber nur eingeschränkt.
Ist ai.cc dasselbe wie OpenAI? Kompatible API, günstiger.
Besser als Claude? Höherer Benchmark-Wert.
Kopieren Sie den Code, führen Sie ihn in wenigen Minuten aus und lassen Sie die KI die Arbeit erledigen.


Einloggen













