AI
Google e OpenAI hanno partecipato alle Olimpiadi Internazionali di Matematica

Google DeepMind ha partecipato ufficialmente all’International Mathematical Olympiad (IMO) 2025, conseguendo un punteggio da medaglia d’oro: 5 problemi risolti su 6, pari a 35 punti — prestazione certificata dall’organizzazione stessa. Il modello “Gemini Deep Think” ha lavorato solo in linguaggio naturale e ha rispettato il tempo limite di 4 ore e mezza previsto per i concorrenti umani.
OpenAI sorprende con una prestazione “non ufficiale”
Simultaneamente, OpenAI ha testato lo stesso set di problemi con un modello sperimentale, rilasciando i risultati “gold‑level” (35 punti) prima della certificazione: una mossa fulminea che ha acceso il confronto tra i due colossi. Sam Altman, CEO di OpenAI, ha descritto l’impresa come il raggiungimento di un obiettivo che, all’epoca della fondazione di OpenAI, sembrava lontano.
Solo l’11 % dei concorrenti umani ce l’ha fatta
Quest’anno, solo circa il 10–11 % dei concorrenti umani ha ottenuto la medaglia d’oro — 67 su circa 630 partecipanti. Il fatto che due modelli AI possano eguagliare questo livello pone un tema cruciale: i computer stanno davvero raggiungendo capacità di ragionamento comparabili a quelle dei migliori studenti?
Superare i limiti: linguaggio naturale, prove rigorose, ma dubbi sul confronto
Entrambi i modelli hanno espresso le soluzioni come “proof” in linguaggio naturale, coerenti con gli standard IMO. Tuttavia, la comunità solleva dubbi: Terence Tao ed altri esperti osservano che il test potrebbe non riflettere pienamente le condizioni ufficiali, per esempio non prevedendo pressione da esame o formulazioni “rieco‑modulate” dei problemi. Alcuni sospettano che parte del merito derivi da tecniche di ingegneria del prompt e non da pensiero matematico genuino.
Perché è importante
- Ricerca avanzata: il breakthrough dimostra capacità sempre più raffinate nei modelli di ragionamento.
- Benchmarking: la mancanza di standard unificati rende difficili le comparazioni oggettive, alimentando aperture verso nuovi metodi valutativi AxiosReutersarxiv.org.
- Verso nuove applicazioni: se trasferibile ad altri settori — fisica, teoremi avanzati — l’impatto scientifico potrebbe essere rivoluzionario ReutersAxios.
Prospettive future
OpenAI annuncia un rilascio pubblico “fra molti mesi”. Google, dopo aver atteso il via libera dei giudici IMO, aprirà l’accesso “trusted tester” prima della diffusione commerciale su Google AI Ultra. Nel frattempo, si intensificano gli sforzi per ampliare i benchmark (es. OlymMATH) e valutare la solidità delle prove formali, non solo la correttezza dell’output