OpenAI ha annunciato GPT 5.4, nuova versione del suo modello di intelligenza artificiale pensata per fare un salto di qualità su tre fronti chiave: ragionamento, programmazione e lavoro professionale su fogli di calcolo, documenti e presentazioni. La novità più rilevante, però, è un’altra: GPT-5.4 è il primo modello dell’azienda con capacità native di “computer use”, cioè la possibilità di operare un computer per conto dell’utente e portare a termine attività attraversando applicazioni diverse.
- 🤖 GPT 5.4 e la svolta “agentica”: cosa cambia davvero
- 🧠 GPT-5.4 Thinking in ChatGPT: più controllo nelle richieste complesse
- 🖥️ Uso nativo del computer e visione: come GPT-5.4 interagisce con software e siti
- 📊 Benchmark e risultati: miglioramenti su lavoro d’ufficio, desktop e browser
- 🔎 Più ricerca multi-sorgente e maggiore accuratezza: “il modello più fattuale”
- 🚀 Disponibilità: ChatGPT, Codex e API (con Pro e Thinking)
- 💰 Prezzi e contesto: cosa sapere per l’uso in API e in Codex
- 🧩 Perché GPT-5.4 conta per aziende e sviluppatori
Il rilascio si inserisce nella corsa dell’industria verso un futuro “agentico”, in cui reti di agenti AI lavorano in background per completare compiti complessi online e all’interno dei software. In questo scenario, l’AI non si limita a rispondere a domande, ma esegue azioni: naviga, compila, clicca, scrive, coordina strumenti e API per arrivare a un risultato concreto.

🤖 GPT 5.4 e la svolta “agentica”: cosa cambia davvero
Il concetto di agenti autonomi è diventato centrale negli ultimi mesi: strumenti in grado di prendere il controllo del computer per svolgere task multi-step, come cercare informazioni, confrontare opzioni e completare procedure su siti e applicazioni. OpenAI ha già introdotto ChatGPT Agent, e GPT-5.4 rappresenta un passo ulteriore perché integra nativamente le capacità necessarie a trasformare istruzioni in azioni operative.
In pratica, GPT-5.4 è progettato per:
scrivere codice utile a controllare un computer (ad esempio tramite librerie come Playwright);
impartire comandi di tastiera e mouse in risposta a screenshot;
migliorare l’uso del browser e l’interazione con strumenti e API in modo più accurato ed efficiente.
Queste capacità sono fondamentali per costruire agenti che non si fermano alla generazione di testo, ma completano flussi di lavoro reali tra siti web e sistemi software.
🧠 GPT-5.4 Thinking in ChatGPT: più controllo nelle richieste complesse
Oltre al modello principale, OpenAI porta in ChatGPT la variante di ragionamento GPT-5.4 Thinking. L’obiettivo è gestire meglio le richieste articolate, offrendo un supporto più strutturato quando il compito richiede più passaggi.
All’interno di ChatGPT, GPT-5.4 Thinking può fornire uno schema del lavoro per le query più complesse e, soprattutto, consente all’utente di modificare o ritoccare la richiesta mentre la risposta è in corso. Secondo OpenAI, questo rende più semplice guidare il modello verso l’esito desiderato senza dover ricominciare da zero o aggiungere molti turni di conversazione.
La funzione è disponibile nella web app di ChatGPT e su Android, mentre su iOS è indicata come “in arrivo”.
🖥️ Uso nativo del computer e visione: come GPT-5.4 interagisce con software e siti
La caratteristica distintiva di GPT-5.4 è l’uso nativo del computer, un tassello che punta direttamente al mondo degli agenti. Il modello è pensato per essere performante su carichi di lavoro diversi: dall’automazione via codice fino all’interazione “visiva” tramite screenshot, con azioni di mouse e tastiera.
Un aspetto importante per gli sviluppatori è la “steerability” tramite messaggi di sviluppo: in altre parole, il comportamento del modello può essere orientato per adattarlo a casi d’uso specifici. Inoltre, OpenAI indica la possibilità di configurare il comportamento di sicurezza in base a diversi livelli di tolleranza al rischio, specificando policy di conferma personalizzate.
Questa combinazione (visione + azione + controllo via istruzioni) è ciò che rende GPT-5.4 particolarmente interessante per chi costruisce agenti capaci di completare task reali su desktop e web.
📊 Benchmark e risultati: miglioramenti su lavoro d’ufficio, desktop e browser
OpenAI posiziona GPT-5.4 come un modello più consistente e “rifinito” nei compiti che contano per i professionisti, inclusi fogli di calcolo, documenti e presentazioni. I miglioramenti vengono descritti anche attraverso benchmark specifici.

GDPval (lavoro di conoscenza su 44 occupazioni): GPT-5.4 raggiunge un nuovo stato dell’arte, eguagliando o superando professionisti del settore nell’83,0% dei confronti, rispetto al 70,9% di GPT-5.2.
OSWorld-Verified (navigazione desktop via screenshot e azioni di tastiera/mouse): GPT-5.4 ottiene un tasso di successo del 75,0%, contro il 47,3% di GPT-5.2, superando anche la performance umana indicata al 72,4%.
WebArena-Verified (uso del browser con interazione via DOM e screenshot): GPT-5.4 arriva al 67,3% di successo, rispetto al 65,4% di GPT-5.2.
Online-Mind2Web (uso del browser basato su osservazioni via screenshot): GPT-5.4 raggiunge il 92,8% di successo, migliorando rispetto alla modalità Agent di ChatGPT Atlas indicata al 70,9%.
Nel complesso, i numeri suggeriscono un progresso concreto nella capacità di portare a termine procedure, non solo di descriverle. È un passaggio cruciale per l’adozione di agenti AI in contesti produttivi.
🔎 Più ricerca multi-sorgente e maggiore accuratezza: “il modello più fattuale”
Un altro punto evidenziato riguarda la capacità di gestire domande che richiedono raccolta di informazioni da più fonti. OpenAI afferma che GPT-5.4 può cercare in modo più persistente su più round per individuare le fonti più rilevanti, in particolare nelle domande “ago nel pagliaio”, e sintetizzare il tutto in una risposta chiara e ben argomentata.
Sul fronte dell’affidabilità, l’azienda sostiene che GPT-5.4 sia il suo modello “più fattuale” finora, con singole affermazioni che risultano il 33% meno probabilmente false rispetto a GPT-5.2. È un dato importante per chi usa l’AI in ambito professionale, dove la qualità delle informazioni incide direttamente su decisioni e output.
🚀 Disponibilità: ChatGPT, Codex e API (con Pro e Thinking)
Il rollout di GPT-5.4 è in corso su più canali:
API: GPT-5.4 è disponibile come gpt-5.4. È disponibile anche gpt-5.4-pro per chi cerca “massime prestazioni” su task complessi.
Codex: GPT-5.4 arriva anche nello strumento di coding di OpenAI.
ChatGPT: la variante GPT-5.4 Thinking è disponibile per gli utenti Plus, Team e Pro, sostituendo GPT-5.2 Thinking.
GPT-5.2 Thinking resterà disponibile per tre mesi per gli utenti a pagamento nella sezione “Legacy Models”, poi verrà ritirato il 5 giugno 2026. Per i piani Enterprise ed Edu è prevista la possibilità di abilitare l’accesso anticipato tramite impostazioni amministrative. GPT-5.4 Pro è disponibile per i piani Pro ed Enterprise. Le finestre di contesto in ChatGPT per GPT-5.4 Thinking restano invariate rispetto a GPT-5.2 Thinking.
💰 Prezzi e contesto: cosa sapere per l’uso in API e in Codex
In API, GPT-5.4 ha un prezzo per token più alto rispetto a GPT-5.2, motivato dalle capacità migliorate. OpenAI sottolinea però una maggiore efficienza nell’uso dei token, che può ridurre il totale di token necessari in molti task. Sono disponibili opzioni Batch e Flex a metà della tariffa standard, mentre l’elaborazione Priority è indicata a un costo doppio rispetto allo standard.

In Codex, GPT-5.4 include supporto sperimentale per una finestra di contesto da 1 milione di token, configurabile tramite parametri specifici. Le richieste che superano la finestra standard da 272K token vengono conteggiate ai fini dei limiti di utilizzo a un tasso doppio.
🧩 Perché GPT-5.4 conta per aziende e sviluppatori
GPT-5.4 non è solo un aggiornamento incrementale: l’integrazione tra ragionamento, coding e capacità native di uso del computer spinge l’AI verso un ruolo più operativo. Per gli sviluppatori, significa poter costruire agenti più affidabili nel completare flussi end-to-end su desktop e web. Per le aziende, significa avvicinarsi a un’AI capace di supportare (e in alcuni casi automatizzare) attività di knowledge work, dalla gestione di documenti e fogli di calcolo fino a procedure che richiedono navigazione e interazione con più strumenti.
Il messaggio è chiaro: l’era dei chatbot sta lasciando spazio a sistemi che agiscono. GPT-5.4 è uno dei segnali più netti di questa transizione.
Fonte OpenAi

