Il mese scorso, GOV.UK ha pubblicato in sordina i risultati della sperimentazione condotta sul proprio assistente di programmazione basato sull'intelligenza artificiale. Nessun clamore. Nessuna conferenza stampa ministeriale. Solo dati concreti che dimostrano come oltre 1.000 sviluppatori distribuiti in 50 dipartimenti abbiano risparmiato quasi un'ora al giorno grazie all'uso di strumenti basati sull'intelligenza artificiale.
Dopo aver scritto della fiasco di Microsoft Copilot, costato 54.000 sterline e che ha portato a un aumento della produttività «minimo», questa volta la situazione mi è sembrata un po’ diversa. Lo stesso governo che ha fallito nell’implementazione di un sistema di IA in un settore ne ha contemporaneamente realizzato un altro con successo.
Ma allora, cosa hanno fatto di diverso?
La fase di prova dell'AI Coding Assistant (AICA) si è svolta da novembre 2024 a febbraio 2025. A differenza dell'approccio indiscriminato di Copilot, questa iniziativa era mirata: sono state offerte 2.500 licenze a sviluppatori che si occupano effettivamente di programmazione per lavoro. I risultati sono stati notevoli.
Il risparmio di tempo è stato in media di 56 minuti al giorno lavorativo. Ciò significa un risparmio di 28 giorni lavorativi all'anno per ogni sviluppatore. Non 2,2 ore alla settimana come in altre prove, ma quasi un'ora ogni singolo giorno.
Ma soprattutto, gli indicatori di soddisfazione raccontavano una storia diversa:
- Il 72% ha affermato che gli strumenti offrivano un buon rapporto qualità-prezzo per la propria organizzazione
- Il 58% non vorrebbe tornare a lavorare senza l'aiuto dell'intelligenza artificiale
- Il 65% ha portato a termine i compiti più rapidamente, il 56% ha risolto i problemi in modo più efficiente
Basti pensare alla fase di prova generale di Copilot, in cui solo il 30% degli utenti lo utilizzava quotidianamente e la maggior parte non riusciva a capire quando l'IA inventasse delle cose.
Cosa hanno azzeccato: i fondamenti
Hanno scelto le persone giuste. Invece di selezionare a caso dei funzionari pubblici e sperare per il meglio, hanno puntato sugli sviluppatori, ovvero persone che conoscevano già la revisione del codice, il debug e il controllo qualità. Questi utenti possedevano le competenze necessarie per valutare in modo critico i risultati dell'IA.
Hanno scelto gli strumenti giusti. GitHub, Copilot e Google Gemini Code Assist non sono perfetti, ma sono stati progettati appositamente per le attività di programmazione. Questi strumenti erano perfettamente adatti allo scopo, a differenza dei chatbot generici a cui viene chiesto di rivoluzionare ogni cosa.
Hanno misurato ciò che contava davvero. Anziché limitarsi a vaghe promesse di produttività, hanno monitorato indicatori specifici: il tempo risparmiato nella creazione, nell'analisi e nella revisione del codice. I dati dimostrano che gli sviluppatori hanno risparmiato 24 minuti al giorno solo nella fase di codifica e analisi.
Hanno mantenuto elevati standard di qualità. Solo il 15,8% del codice suggerito dall'IA è stato accettato senza modifiche. Ciò dimostra che gli sviluppatori hanno svolto il proprio lavoro in modo corretto, revisionando e migliorando i risultati forniti dall'IA anziché accettarli ciecamente.
L'elemento umano preservato
Una delle differenze più evidenti di questo progetto è che non ha cercato di sostituire gli sviluppatori. L'obiettivo era invece quello di potenziare le loro competenze già acquisite.
Il 39% degli utenti che ha dichiarato di aver utilizzato codice suggerito dall'IA continuava comunque a prendere decisioni consapevoli su cosa accettare, modificare o rifiutare. L'IA è diventata un sofisticato sistema di completamento automatico, non un sostituto del programmatore.
Come affermano gli esperti della Gen AI Academy:
«Le migliori implementazioni dell'intelligenza artificiale non eliminano il giudizio umano, ma forniscono alle persone una base di partenza migliore su cui lavorare.» Erik Schwartz
«La maggior parte dei successi che ho osservato nelle aziende che hanno intrapreso questo percorso deriva dal fatto di partire dagli utenti, dalle loro difficoltà o dalle loro lacune, e di aiutarli, attraverso la formazione e l’assistenza, a integrare gli strumenti giusti. Con regole di base e obiettivi chiari, possono dare il proprio contributo e misurare i risultati raggiunti» Hugo MC Pinto
Questo progetto ha avuto successo proprio perché ha saputo preservare quell'elemento umano che rende possibile uno sviluppo software di qualità: il pensiero critico, il controllo della qualità e la comprensione del contesto.
Perché è importante anche al di là dell'ambito governativo
Il progetto pilota di codifica offre un modello per un'implementazione efficace dell'IA in qualsiasi contesto:
Inizia con utenti esperti. Non aspettarti che l'intelligenza artificiale trasformi magicamente le persone inesperte in esperte. Affidala a chi conosce già il settore e sa valutare i risultati.
Adatta gli strumenti alle attività. Smetti di cercare di usare l'IA generica per tutto. Gli strumenti specializzati funzionano meglio per i lavori specializzati.
Misurate risultati concreti. L'espressione «aumento della produttività» non ha alcun significato. «24 minuti risparmiati nella creazione del codice» è invece un dato concreto.
Mettiti in conto un controllo umano. Se l'85% dei risultati generati dall'IA richiede una revisione, non si tratta di un bug: funziona proprio come previsto.
La scomoda verità sul successo dell'intelligenza artificiale
L'esperimento del governo sulla programmazione ha avuto successo proprio perché era banale. Nessuna grande promessa di trasformazione. Nessuna pretesa di sostituire interi dipartimenti. Solo una domanda semplice: l'intelligenza artificiale può aiutare gli sviluppatori a scrivere codice più velocemente?
La risposta era sì, a condizione che vi fossero un'adeguata implementazione, una formazione adeguata e aspettative realistiche.
La maggior parte delle organizzazioni fallisce nell'uso dell'IA perché cerca di risolvere il problema sbagliato. Vogliono che l'IA risolva le loro disfunzioni, elimini la necessità di formazione o trasformi la loro cultura. Il progetto pilota del governo sulla programmazione ha funzionato perché aveva un obiettivo semplice: rendere gli sviluppatori di qualità leggermente più efficienti.
E adesso?
I risultati della sperimentazione non influenzano gli appalti futuri: a quanto pare, tale decisione spetta ad altri organi governativi. Tuttavia, il successo ottenuto offre un modello che altri dipartimenti (e organizzazioni) dovrebbero esaminare attentamente.
Il contrasto tra questo esperimento e il fallimento di Copilot risiede nell'implementazione, nella selezione degli utenti e nell'avere aspettative realistiche e verificabili su ciò che l'intelligenza artificiale è effettivamente in grado di fare.
Quando ho scritto della sperimentazione di Copilot, diverse persone mi hanno chiesto se, secondo me, l’intelligenza artificiale nel settore pubblico fosse destinata a fallire. Questa sperimentazione nel campo della programmazione suggerisce che non è così, ma il successo richiede un lavoro svolto a regola d’arte, piuttosto che sperare che la tecnologia da sola risolva i problemi organizzativi.
Il governo ha adottato il giusto approccio nei confronti dell'intelligenza artificiale, considerandola uno strumento sofisticato che richiede utenti competenti, e non una sorta di magia in grado di trasformare chiunque in un esperto. È una lezione che vale la pena tenere a mente per chiunque si occupi di implementare l'intelligenza artificiale, sia a Whitehall che nella propria startup locale.
Helena McAleer è cofondatrice di thegenAIacademy.com . Mette in contatto le organizzazioni che implementano l'IA con esperti del mondo reale che sanno come ottenere risultati nel modo giusto – e sì, usa ancora il trattino lungo!