Diverse I.A. sono state testate con le prove degli Esami di Maturità di quest’anno, e hanno fallito tutte miseramente
Forse le I.A. potranno tornare utili a scuola per fare i compiti – pur di non farsi scoprire – ma per gli Esami di Maturità è diverso, almeno per ora. L’ha dimostrato il professor Domenico Brunetto, del Dipartimento di Matematica del Politecnico di Milano, il quale ha sottoposto la seconda prova, quella di matematica, a quattro diversi modelli di I.A..
“Ti carico delle immagini con i testi di alcuni problemi matematici. Risolvili”: questo il prompt sbrigativo – che simula quello che avrebbe potuto fare uno studente in cerca di aiuto, magari durante una scappata al bagno – presentato a ChatGPT, Gemini, DeepSeek e Claude, quattro dei chatbot I.A. più noti e utilizzati.
I risultati, riportati da InfoData, sono deludenti. Gemini, il modello di Google, ha semplicemente e banalmente risposto: “Come modello linguistico, non posso ‘vedere’ o elaborare direttamente il contenuto delle immagini. Per poterti aiutare a risolvere i problemi, ti chiedo gentilmente di trascrivere il testo di ciascun problema in formato testuale“.
“ChatGPT ha fatto molto male sui problemi, nel senso che non ha considerato il secondo, cosa che ci può stare visto che all’esame se ne deve svolgere solo uno, ma anche il primo non lo ha affrontato completamente. Ha anche commesso un errore semantico, scambiando f con meno uno con f alla meno uno, che è l’inverso di una funzione, un’entità matematica riconosciuta”.
“Probabilmente questo è dovuto al fatto che è partito da un’immagine. Su una scala da 1 a 10, sicuramente 1” dice Brunetto, assegnando un voto alla performance del noto chatbot. Sui quesiti, cioè la seconda parte della prova, “Ha gestito meglio quelli più procedurali, mentre male su quelli concettuali. Anche in questo caso, siamo sotto la sufficienza: il voto è 4“.
“Claude parla di derivate laterali, che è un termine che non ho mai sentito, immagino possa essere una traduzione sbagliata. In italiano, ma anche in inglese, si parla di derivata destra e sinistra”. Quindi non bene neanche qui. Meglio solo DeepSeek: “Intanto devo dire che ho trovato una sintesi estrema nelle sue risposte, che mi ha ricordato gli elaborati dei miei studenti cinesi, molto corretti ma sempre molto sintetici e puntuali”, sostiene Brunetto.
Ma: “DeepSeek propone di affrontare il secondo [problema] utilizzando i prodotti scalari“, qualcosa che “Tutti i liceali affrontano in fisica, non tutti in matematica”. Il problema richiede di verificare che un triangolo sia rettangolo, cosa per la quale basterebbe il teorema di Pitagora. “Vedendo il ricorso ai prodotti scalari, qualche dubbio mi sarebbe venuto” dice Brunetto: il ricorso a una soluzione inutilmente complicata tradirebbe l’uso della I.A..
Il giudizio finale del professore è lapidario: “Non mi aspettavo un risultato così catastrofico“, anche se gli esperti obietterebbero subito che con prompt migliori, un “addestramento” adeguato, più tempo e anche altre specificazioni – del tipo ‘risolvilo come lo farebbe uno studente di quinta liceo’ si sarebbero potuti avere dalle I.A. dei risultati migliori. Bè, sarà per il prossimo anno.
Fonte: Il Sole 24 Ore
Continuate a seguirci su LaScimmiaPensa e iscrivetevi al nostro canale WhatsApp