L’intelligenza artificiale compie nuovi progressi nella matematica avanzata, ma non riesce ancora a superare gli esseri umani. Lo dimostra il più rigoroso test matematico mai realizzato per valutare le capacità dei modelli di IA, nel quale nessuno dei sistemi partecipanti è riuscito a risolvere correttamente tutti i problemi proposti. E‘ quanto riporta l’Ansa in un articolo.
La prova, denominata “First Proof”, ha sottoposto quattro diversi sistemi a dieci quesiti di livello ricerca, inediti e mai pubblicati in precedenza, per evitare che le risposte potessero essere ricavate dai dati utilizzati durante l’addestramento. Le soluzioni sono state valutate da matematici specialisti dei rispettivi settori.
Il miglior risultato è stato ottenuto dal modello sviluppato dal Politecnico Federale di Zurigo (ETH Zurich), che ha risolto correttamente sei problemi su dieci. Al secondo posto si è classificato il sistema realizzato dall’Università della California di Los Angeles (UCLA), seguito da ChatGPT 5.5 Pro di OpenAI. Ultimo il modello sviluppato dall’Università di Princeton, basato principalmente su Gemini di Google.
Secondo gli organizzatori, il test rappresenta il primo benchmark a soddisfare contemporaneamente tre condizioni considerate essenziali: problemi di livello ricerca, quesiti completamente nuovi e valutazione formale da parte di matematici umani. L’obiettivo è misurare quanto l’intelligenza artificiale possa diventare utile nella ricerca matematica, dalla verifica delle dimostrazioni all’assistenza nello sviluppo di nuove idee.
I risultati arrivano in una fase di rapido avanzamento delle capacità matematiche dei sistemi di IA. Negli ultimi mesi diversi modelli hanno mostrato prestazioni sempre più elevate nella risoluzione di problemi complessi, ma il nuovo test evidenzia come esista ancora un divario rispetto ai migliori esperti umani quando si tratta di affrontare questioni matematiche originali e di frontiera.












