OpenAI ha rilasciato GPT-5.4 mini e GPT-5.4 nano, e già si vede in giro il solito coro di “sono versioni ridotte, meno potenti”. Sbagliato. Questi due modelli non esistono per chi vuole risparmiare qualche euro usando qualcosa di inferiore. Esistono perché usare il modello più grande per tutto è, in moltissimi casi, la scelta peggiore che puoi fare.
Vale la pena capire il perché.
Il problema che nessuno ti spiega
Quando costruisci un sistema basato su agenti AI, il collo di bottiglia non è quasi mai la qualità del modello principale. Il problema vero è quanto costa e quanto è lento il lavoro sporco: leggere file, cercare nel codice, classificare documenti, interpretare screenshot, fare routing tra task diversi.
Se usi GPT-5.4 per tutto questo, i costi esplodono e la latenza diventa un problema concreto di prodotto. L’utente aspetta, la risposta arriva tardi, e hai speso tre volte quello che avresti dovuto.
GPT-5.4 mini e nano sono la risposta a questo problema specifico. Non sono un piano B, sono parte intenzionale di un’architettura ben progettata.
I numeri che contano davvero
Su SWE-Bench Pro, il benchmark più rappresentativo per chi lavora su tool di coding assistito, GPT-5.4 mini ottiene il 53,40%. GPT-5.4 ottiene il 57,73%. Una differenza di circa 4 punti percentuali, a fronte di una velocità oltre il doppio e un costo significativamente inferiore.

Su OSWorld-Verified, il benchmark per l’automazione di interfacce reali, il salto è ancora più evidente. GPT-5.4 mini arriva al 70,60% contro il 42% di GPT-5 mini, la generazione precedente. Quasi 30 punti di distanza. Per chi sviluppa agenti che devono navigare browser, compilare form e interpretare screenshot, questo non è un numero accademico. Determina se il prodotto funziona o no in produzione.
GPT-5.4 nano, il più piccolo ed economico della famiglia, raggiunge l’82,83% su GPQA Diamond (ragionamento scientifico) e il 52,39% su SWE-Bench Pro. Un risultato sorprendente per un modello che costa $0,20 per milione di token in input.
Come cambia l’architettura quando usi questi modelli
L’approccio classico era semplice: scegli il modello migliore e usalo ovunque. Oggi quel ragionamento non regge più, né economicamente né tecnicamente.
Un sistema ben progettato nel 2026 assomiglia a qualcosa di simile a questo:
Il modello principale, GPT-5.4, si occupa di pianificazione, ragionamento complesso e output finale. GPT-5.4 mini gestisce il livello di esecuzione: navigazione del codebase, analisi di file, chiamate agli strumenti. GPT-5.4 nano presidia il preprocessing: classificazione, estrazione dati, routing tra task.
OpenAI stessa usa questa logica in Codex, dove GPT-5.4 mini consuma solo il 30% della quota del modello principale. In pratica, puoi gestire tre volte il volume di task di coding allo stesso costo. Per team che usano Codex intensivamente, l’impatto operativo è immediato.
Il confronto con Claude che vale la pena citare
Nel documento di lancio, Hebbia, uno dei partner beta, scrive esplicitamente di aver testato GPT-5.4 mini e di averlo visto eguagliare o superare Claude Haiku 4.5 in diversi task, con costi inferiori. È un confronto diretto con il modello compatto di Anthropic, e vale la pena prenderlo sul serio anche se viene da chi ha un interesse a promuovere il prodotto.
Il segmento dei modelli “piccoli ma capaci” è diventato esplicitamente competitivo. Claude Haiku, Gemini Flash, GPT-5.4 mini si contendono lo stesso spazio. Per chi sviluppa, questo è un bene. La competizione spinge i prezzi verso il basso e la qualità verso l’alto.
Pricing e disponibilità
GPT-5.4 mini è disponibile da oggi nell’API, in Codex e su ChatGPT. Supporta testo, immagini, tool use, function calling, ricerca web e computer use, con una finestra di contesto da 400k token. Il prezzo è $0,75 per milione di token in input e $4,50 per milione in output.
GPT-5.4 nano è disponibile solo via API, senza accesso da ChatGPT. Costa $0,20 per milione di token in input e $1,25 in output. È il modello più economico della famiglia.
Quando NON usarli
Chiarezza su questo punto vale quanto sapere quando usarli.
GPT-5.4 mini non è la scelta giusta se il task richiede ragionamento multi-step su problemi genuinamente nuovi, o se stai lavorando su codebase molto grandi con dipendenze complesse. GPT-5.4 nano mostra debolezze significative sui task con contesto lungo, e su Toolathlon (tool use complesso) scende al 35,49%.
Il modello giusto non è quello più grande. È quello calibrato sul problema specifico che stai risolvendo. Questa frase sembra banale finché non vedi la bolletta di un sistema costruito male.
Leggi anche: Crisi Ram DDR5

