AI

Il governo australiano esegue un test sull’intelligenza artificiale

Published

10 mesi ago

Settembre 6, 2024

Un recente test condotto dal governo australiano ha rivelato che l’intelligenza artificiale (IA) è significativamente meno efficace rispetto agli esseri umani nel riassumere documenti, e potrebbe addirittura generare lavoro aggiuntivo anziché ridurlo. L’esperimento è stato commissionato dall‘Australian Securities and Investments Commission (ASIC), l’autorità di regolamentazione dei mercati finanziari. Questo ha evidenziato i limiti delle attuali tecnologie di IA generativa, sollevando importanti questioni sul suo utilizzo nel settore pubblico.

All’inizio di quest’anno, Amazon ha condotto un test per ASIC utilizzando modelli di IA generativa. Il test si è focalizzato sull’analisi di cinque documenti presentati nell’ambito di un’inchiesta parlamentare riguardante le società di revisione e consulenza. L’obiettivo era valutare la capacità dell’intelligenza artificiale di riassumere le informazioni all’interno di un testo. In particolare doveva concentrarsi sui riferimenti a ASIC, le raccomandazioni e i richiami a normative aggiuntive. Tra i modelli testati, il più promettente si è rivelato Llama2-70B, un modello open source sviluppato da Meta.

Parallelamente, anche dieci dipendenti di ASIC, con differenti livelli di esperienza, sono stati incaricati di riassumere gli stessi documenti utilizzando criteri simili a quelli applicati all’IA. Una commissione di revisori, all’oscuro del fatto che alcuni dei riassunti fossero generati da una macchina, ha valutato le sintesi prodotte da entrambi i gruppi. La valutazione è avvenuta sulla base di coerenza, lunghezza, riferimenti a ASIC, richiami normativi e identificazione delle raccomandazioni.

I risultati del test: l’intelligenza umana è superiore

I risultati del test sono stati schiaccianti: i revisori hanno preferito i riassunti realizzati dagli esseri umani in ogni categoria e per ogni documento. Su una scala interna, i riassunti umani hanno ottenuto un punteggio dell’81%, mentre l’intelligenza artificiale si è fermata al 47%. In particolare, l’IA ha faticato nell’identificare correttamente i riferimenti ai documenti di ASIC, un compito notoriamente complesso per questo tipo di tecnologia.

I revisori hanno evidenziato diversi problemi nei riassunti generati dall’IA. Spesso mancavano enfasi, sfumature e contesto; a volte veniva riportata informazione errata o venivano ignorati elementi rilevanti. In alcuni casi, l’IA si è concentrata su aspetti secondari o ha introdotto dettagli irrilevanti. Di fatto, tre dei cinque revisori hanno sospettato che i riassunti che stavano esaminando fossero stati creati da una macchina. Il feedback generale ha indicato che i riassunti dell’IA potrebbero essere controproducenti, poiché richiedono ulteriori controlli e verifiche rispetto ai documenti originali, che spesso risultano essere più concisi e accurati.

Limitazioni per l’intelligenza artificiale

Il rapporto sul test ha anche riconosciuto alcune limitazioni. Il modello di IA utilizzato, Llama2-70B, è già stato superato da versioni più avanzate che potrebbero migliorare la capacità di sintesi. Inoltre, Amazon ha affinato le prestazioni del modello migliorando i prompt e gli input, suggerendo che ulteriori sviluppi potrebbero incrementare le capacità dell’IA in questo campo. Nonostante questi miglioramenti potenziali, il test ha dimostrato che la capacità umana di analizzare criticamente le informazioni resta incomparabile.

Il rapporto ha concluso che l’intelligenza artificiale dovrebbe essere utilizzata come strumento di supporto per migliorare, e non sostituire, il lavoro umano. L’idea che l’IA possa un giorno compiere questa operazione con successo non viene esclusa, ma per il momento l’intervento umano resta insostituibile e incomparabile.

Il dibattito sull’utilizzo dell’IA nel settore pubblico

Il test ha sollevato anche un dibattito sull’uso dell’IA nel settore pubblico. Il senatore dei Verdi, David Shoebridge, ha commentato che non è sorprendente che gli esseri umani siano superiori all’IA in questo tipo di compito. Tuttavia, ha sottolineato che l’uso dell’IA in tali contesti deve essere trasparente e finalizzato a supportare il giudizio umano, piuttosto che agire come una soluzione autonoma.

“Non significa che l’IA non possa mai avere un ruolo nella valutazione delle sottomissioni, ma se c’è, deve essere trasparente e di supporto al lavoro umano”, ha dichiarato Shoebridge. Ha anche aggiunto che è positivo vedere il governo impegnarsi in prove riflessive sull’uso dell’IA. Ha aggiunto che sarebbe preferibile una divulgazione proattiva dei risultati anziché doverli richiedere attraverso audizioni parlamentari.

L’esperimento condotto in Australia conferma che, nonostante i progressi tecnologici, l’intelligenza artificiale ha ancora molta strada da fare prima di poter competere con l’intelletto umano in compiti complessi come la sintesi di documenti. Sebbene ci sia un ottimismo riguardo ai miglioramenti futuri, per ora l’IA deve essere considerata un valido strumento di supporto, ma non una sostituzione al lavoro degli esseri umani.