Non ci si può fidare dell’IA: l’inchiesta di Google che distrugge la sua credibilità

19 Dicembre 2025

L’affidabilità dell’intelligenza artificiale continua a essere un tema caldo nel dibattito tecnologico e scientifico.

Recentemente, è emerso un report di Google che mette in luce le limitazioni di precisione degli attuali chatbot basati su IA, sottolineando come circa un terzo delle risposte fornite possano risultare errate, nonostante la loro apparente sicurezza espositiva.

La ricerca, basata sulla FACTS Benchmark Suite, un sistema di valutazione sviluppato dal team di Google in collaborazione con Kaggle, ha testato l’accuratezza fattuale di diverse intelligenze artificiali su quattro scenari reali di utilizzo. Questi includono la conoscenza parametrica (informazioni apprese durante l’addestramento), capacità di ricerca web, aderenza a documenti forniti (grounding), e la comprensione multimodale di grafici e immagini.

I risultati evidenziano che anche i modelli più avanzati non superano la soglia del 70% di precisione: il modello più performante, Gemini 3 Pro, ha raggiunto il 69%, mentre altre IA come quelle sviluppate da OpenAI, Anthropic e xAI si attestano su valori inferiori. La performance nelle attività multimodali è risultata la più critica, spesso sotto il 50%. In pratica, gli utenti dovrebbero considerare con cautela le risposte generate da questi sistemi, consapevoli che un errore su tre è tutt’altro che raro.

Questo quadro sottolinea la necessità di un uso consapevole e critico degli strumenti di intelligenza artificiale, specie in contesti dove l’accuratezza è fondamentale.

Google Gemini: una panoramica sul modello e il contesto

Il modello Gemini 3 Pro, che guida la classifica di accuratezza secondo la FACTS Benchmark Suite, rappresenta l’ultima evoluzione dei modelli di linguaggio sviluppati da Google. Questi modelli, noti come LLM (Large Language Models), sono progettati per comprendere e generare testo con un’ampia base di dati, migliorandosi grazie al feedback degli utenti.

Dal 2023 Google ha intensificato gli investimenti nel campo dell’IA con il lancio di Bard, il chatbot proprietario basato su LaMDA, e successivamente con la serie Gemini, che punta a integrare capacità multimodali avanzate per migliorare l’interazione uomo-macchina.

Nonostante i progressi, tuttavia, la recente inchiesta mette in evidenza come le grandi ambizioni tecnologiche debbano fare i conti con limiti sostanziali, soprattutto in termini di affidabilità e precisione dei dati forniti.

Il confronto con altri modelli IA: OpenAI, Anthropic e xAI (www.aerobus.bo.it)

Secondo la stessa indagine, altri modelli linguistici di grandi dimensioni come GPT-5 di OpenAI e Gemini 2.5 Pro di Google si collocano intorno al 62% di accuratezza, mentre modelli come Claude 4.5 Opus e Grok raggiungono punteggi inferiori, rispettivamente intorno al 51% e 54%. Questo dato indica una certa uniformità nelle difficoltà tecniche incontrate dai principali sviluppatori.

La sfida è particolarmente complessa nei compiti multimodali, dove l’interpretazione simultanea di testo, immagini e dati visivi mette a dura prova gli algoritmi. Le prestazioni sotto il 50% in queste aree suggeriscono che la comprensione contestuale e la capacità di integrare diverse fonti di informazione rimangono ambiti da migliorare.

L’importanza del contesto di utilizzo e i rischi dell’overconfidence

Un aspetto rilevante emerso dallo studio è che gli chatbot AI spesso forniscono risposte con tono assertivo anche quando sono errate, fenomeno noto come “allucinazione” nei sistemi di intelligenza artificiale. Questo può indurre gli utenti a una falsa percezione di affidabilità, con potenziali conseguenze negative soprattutto in ambiti delicati come la medicina, il diritto o l’educazione.

Gli esperti suggeriscono quindi di adottare sempre un approccio critico e di affiancare le risposte dei chatbot a fonti verificabili, evitando di considerare l’IA come una fonte definitiva di verità.

Il crescente impiego di chatbot e assistenti virtuali nei servizi al pubblico, nell’assistenza clienti e nella produzione di contenuti rende cruciale la questione della loro attendibilità. Google, come principale player del settore, ha mostrato una trasparenza significativa nel pubblicare risultati che mettono in discussione le proprie tecnologie, un passo importante per stimolare un dialogo aperto su limiti e potenzialità dell’IA.

Parallelamente, figure come Mauro Biglino, noto per le sue controversie nell’ambito dell’interpretazione di testi antichi e della divulgazione di teorie alternative, rappresentano un esempio di come l’informazione e la conoscenza siano sempre soggette a interpretazioni multiple e alla necessità di verifica rigorosa, analogamente a quanto accade nel campo delle intelligenze artificiali.

Non ci si può fidare dell’IA: l’inchiesta di Google che distrugge la sua credibilità

Google Gemini: una panoramica sul modello e il contesto

L’importanza del contesto di utilizzo e i rischi dell’overconfidence

Articoli recenti

È l’errore più comune che si commette quando si cuoce la pasta: lo spiega uno chef

Ve le ricordate? Tutto sulle star di Fantastico: che fine hanno fatto le soubrette più amate della TV italiana

Non tutti i formaggi fanno ingrassare: questo aiuta a perdere peso, secondo gli esperti

Non sai dire di ‘no’? Ecco che tipo di persona sei

Usa trucco ‘del cucchiaino’ per vetri splendenti senza aloni: restano puliti per mesi

Mediaset punta su Samira Lui: due programmi in vista per la showgirl

Attenzione, la pensione di invalidità non è eterna: tutti i casi in cui puoi perderla

Per dimagrire non devi rinunciare a salsiccia e pancetta, basta questo trucco per renderle light