Attribution Hallucination: When AI Cites Wrong Sources

Luca Reverberi

May 25, 2026

Attribution Hallucination and Compliance Risks for Italian SMEs in Regulated Sectors — SHM Studio Analysis

The paradox of the right answer with the wrong source
Come funziona l'attribution hallucination: architettura del problema
I settori PMI più esposti al rischio compliance
CiteVQA: il primo benchmark dedicato all'attribuzione
Trade-off operativi per le PMI: efficienza vs. affidabilità delle fonti
What vendors don't say in their marketing materials
Operational Measures: What to Evaluate Before Integrating AI into Document Contexts
Reading SHM Studio: A Still Underestimated Systemic Risk

I principali modelli di intelligenza artificiale — GPT, Gemini e altri — commettono un errore sottile ma pericoloso. Forniscono risposte corrette, ma le attribuiscono a passaggi documentali che non le supportano affatto. I ricercatori della Peking University hanno battezzato questo fenomeno attribution hallucination. Furthermore, they developed the CiteVQA benchmark to systematically measure it for the first time.

Per le PMI italiane che operano in settori regolati — diritto, sanità, finanza, farmaceutica — il rischio non è teorico. Pertanto, affidarsi ciecamente agli output AI in contesti dove la tracciabilità delle fonti è un obbligo normativo può generare conseguenze legali e reputazionali concrete. Tuttavia, il problema non riguarda solo la qualità della risposta: riguarda la catena di responsabilità. Di conseguenza, un documento prodotto con supporto AI che cita erroneamente una norma o un referto può invalidare l’intero processo decisionale.

We of SHM Studio monitoriamo con attenzione l’evoluzione di questi rischi. In particolare, lavoriamo con le PMI per integrare strumenti AI in modo consapevole, definendo flussi di verifica umana che riducano l’esposizione a errori di attribuzione. Infine, questo articolo analizza la natura tecnica del fenomeno, i settori più esposti e le misure operative che ogni azienda dovrebbe valutare oggi.

The paradox of the right answer with the wrong source

Immaginate un modello AI che analizza un contratto di cinquanta pagine. Restituisce una sintesi accurata delle clausole principali. Tuttavia, le citazioni che accompagnano quella sintesi rimandano a paragrafi che non contengono affatto le informazioni indicate. La risposta è corretta. La fonte è sbagliata. Questo è il cuore dell’attribution hallucination.

Il fenomeno è stato documentato sistematicamente per la prima volta dai ricercatori della Peking University, che hanno pubblicato i risultati del benchmark CiteVQA. Pertanto, per la prima volta esiste uno strumento di misurazione dedicato specificamente alla qualità dell’attribuzione — non solo alla correttezza della risposta. Il Original report on The Decoder offers a detailed overview of the preliminary results.

Dunque, il problema non è la competenza del modello nel ragionare. È la sua incapacità di ancorare correttamente le proprie conclusioni alle evidenze testuali. Per le PMI che usano AI in contesti documentali, questa distinzione è critica.

Come funziona l’attribution hallucination: architettura del problema

I Large Language Model generano testo in modo probabilistico. Quindi, quando producono una citazione, non eseguono una ricerca testuale puntuale come farebbe un motore di indicizzazione. Al contrario, generano la citazione più plausible in base al contesto. Questo processo può produrre riferimenti coerenti con il tono del documento, ma inesatti nella localizzazione.

In particolare, il problema si manifesta in tre modalità principali:

Incorrect paragraph citation: il modello indica una sezione del documento che tratta un tema simile, ma non contiene l’affermazione specifica.
Fictional quote: The model generates a reference that does not exist in the original document.
Partially correct quote: la fonte è quella giusta, ma il modello parafrasa in modo distorto il contenuto reale.

Secondo le ricerche più recenti in ambito NLP, questo comportamento è trasversale ai modelli più diffusi. Inoltre, MIT Technology Review ha già documentato come le allucinazioni nei sistemi RAG (Retrieval-Augmented Generation) siano più difficili da rilevare proprio perché il modello sembra citare fonti reali.

I settori PMI più esposti al rischio compliance

Non tutte le PMI corrono lo stesso rischio. Tuttavia, alcune categorie di aziende sono strutturalmente più vulnerabili all’attribution hallucination. In particolare, quelle in cui la tracciabilità delle fonti ha valore normativo o contrattuale.

Law firms and labor consultants usano sempre più spesso strumenti AI per analizzare contratti, sentenze e normative. Di conseguenza, una citazione errata di un articolo del Codice Civile o di una sentenza della Cassazione può compromettere un parere professionale. Il rischio non è solo di immagine: può configurarsi come responsabilità professionale.

Healthcare facilities and medical practices che adottano AI per la revisione di referti o letteratura clinica si espongono a rischi ancora più gravi. Infatti, un’attribuzione errata in un contesto diagnostico può influenzare decisioni terapeutiche. Pertanto, il framework regolatorio europeo — in particolare il AI Act dell’Unione Europea — classifica questi sistemi come ad alto rischio.

Pharmaceutical and chemical companies che usano AI per la redazione di schede tecniche o documentazione regolatoria devono garantire l’accuratezza delle fonti citate. Altresì, le PMI del settore finanziario che producono report con supporto AI rischiano violazioni MiFID II se le fonti citate non corrispondono alle evidenze reali.

CiteVQA: il primo benchmark dedicato all’attribuzione

Il benchmark sviluppato dalla Peking University colma un vuoto metodologico importante. Fino ad ora, la valutazione dei modelli AI si concentrava sulla correttezza della risposta finale. Tuttavia, CiteVQA introduce una dimensione aggiuntiva: la qualità dell’attribuzione testuale.

Il dataset è costruito su domande che richiedono al modello di identificare il passaggio specifico di un documento che supporta la propria risposta. Quindi, il sistema viene valutato non solo su cosa risponde, ma su dove dice di aver trovato quella risposta. I risultati preliminari mostrano che anche i modelli più performanti commettono errori di attribuzione in una percentuale significativa dei casi.

Questo approccio è coerente con quanto Gartner has identified come una delle priorità per la governance AI nel 2026: la capacità di auditare non solo l’output, ma il processo di ragionamento e le sue fondamenta documentali. In sintesi, CiteVQA rappresenta un passo verso una valutazione più matura dei sistemi AI in contesti professionali.

Trade-off operativi per le PMI: efficienza vs. affidabilità delle fonti

L’adozione di strumenti AI per l’analisi documentale porta vantaggi reali in termini di velocità e scalabilità. Tuttavia, l’attribution hallucination introduce un trade-off che ogni PMI deve valutare consapevolmente prima di integrare questi strumenti nei propri flussi di lavoro critici.

Da un lato, rinunciare all’AI per la gestione documentale significa perdere un vantaggio competitivo reale. Dall’altro, adottarla senza presidi di verifica espone l’azienda a rischi legali e reputazionali difficili da quantificare ex ante. Pertanto, la soluzione non è binaria: non si tratta di usare o non usare l’AI.

Si tratta di progettare flussi di lavoro in cui l’AI accelera il processo e il professionista umano verifica le attribuzioni critiche. Inoltre, è fondamentale scegliere strumenti che supportino la trasparenza delle fonti — ad esempio, sistemi RAG con chunk retrieval verificabile — piuttosto che modelli che generano citazioni in modo opaco.

The companies that work with us on AI integration strategies ricevono sempre una mappatura preliminare dei rischi specifici del proprio settore. Questo passaggio è spesso sottovalutato, ma risulta determinante per evitare problemi downstream.

What vendors don't say in their marketing materials

I provider di strumenti AI enterprise tendono a comunicare le performance dei propri modelli in termini di accuracy complessiva. Tuttavia, raramente distinguono tra correttezza della risposta e correttezza dell’attribuzione. Questa distinzione è invece cruciale per i settori regolati.

Inoltre, molti strumenti AI per la document analysis non espongono all’utente finale il meccanismo di recupero delle fonti. Di conseguenza, il professionista vede la risposta e la citazione, ma non può verificare facilmente se il modello ha effettivamente estratto quella informazione da quel passaggio specifico.

Per questo motivo, nelle valutazioni di tool AI che conduciamo nell’ambito dei nostri digital marketing services e consulenza tecnologica, includiamo sempre una fase di stress test sull’attribuzione delle fonti. È un passaggio che raramente viene proposto dai vendor, ma che fa la differenza in contesti professionali ad alta responsabilità.

Operational Measures: What to Evaluate Before Integrating AI into Document Contexts

Per le PMI che stanno valutando o hanno già adottato strumenti AI per l’analisi di documenti, esistono alcune misure concrete da considerare. Prima di tutto, è necessario mappare i processi in cui l’attribuzione delle fonti ha rilevanza normativa o contrattuale.

In seguito, è opportuno verificare se lo strumento adottato supporta la tracciabilità del retrieval — ovvero se è possibile risalire al chunk testuale specifico da cui il modello ha estratto l’informazione. Inoltre, andrebbero definiti protocolli di revisione umana per tutti gli output AI che includono citazioni a documenti normativi, contrattuali o clinici.

Infine, è consigliabile aggiornare le policy interne sull’uso dell’AI per includere esplicitamente il rischio di attribution hallucination. Questo non è solo un presidio tecnico: è una misura di governance che può fare la differenza in caso di audit o contenzioso. Le aziende interessate a strutturare questi percorsi possono approfondire le opzioni disponibili nella nostra sezione AI services or contact us directly from the page contacts.

Reading SHM Studio: A Still Underestimated Systemic Risk

L’attribution hallucination non è un bug destinato a essere risolto nella prossima release. È una caratteristica strutturale dei modelli linguistici attuali, legata al modo in cui generano testo. Pertanto, non scomparirà con un aggiornamento. Richiede invece un approccio progettuale consapevole.

We of SHM Studio riteniamo che il 2026 sia l’anno in cui le PMI italiane debbano passare da una fase di sperimentazione entusiasta a una fase di integrazione matura. Questo significa non solo adottare strumenti AI, ma comprenderne i limiti specifici e progettare i flussi di lavoro di conseguenza. Inoltre, significa formare i team interni a riconoscere i segnali di un’attribuzione potenzialmente errata.

The implications for SEO content production, For LinkedIn campaign e per qualsiasi attività che preveda la generazione di testi con supporto AI sono dirette. Ogni contenuto che cita dati, ricerche o normative dovrebbe essere sottoposto a verifica delle fonti prima della pubblicazione. Questo vale per i SEO texts, for the materials of Google Ads and for any document produced with the support of generative models.

Infine, chi vuole approfondire il tema dell’integrazione AI responsabile può esplorare le risorse disponibili nel nostro blog to request a consultation through the page contacts. Il punto di partenza, in ogni caso, è riconoscere che l’AI è uno strumento potente — ma non infallibile nella gestione delle evidenze.

News Categories

Discover other articles that explore similar topics in depth, selected to give you a more complete and stimulating view. Each piece of content is carefully chosen to enrich your experience.