È possibile evitare le Allucinazioni dell’Intelligenza Artificiale Generativa ?

Autore

Mauro Defilippi, Consulente, co-fondatore TOPForGrowth

email: maurodef@infinito.it

Introduzione

È noto che i modelli di Intelligenza Artificiale Generativa di grandi dimensioni, denominati Foundation Model, addestrati su grandi volumi di dati, presentano il problema della generazione casuale di contenuti che si allontanano dalla realtà fattuale o includono informazioni non vere prodotte dal modello.

Questo problema, chiamato Allucinazione del Modello, esiste in tutti i Foundation Model che trattano testi, immagini, video e audio e rappresenta un ostacolo critico all’adozione dell’intelligenza artificiale nelle applicazioni aziendali e in applicazioni dove l’errore non può essere tollerato.

La letteratura al riguardo è ampia; in questo articolo esaminiamo le principali cause delle allucinazioni per i Modelli Linguistici di grandi dimensioni (LLM), le soluzioni proposte per mitigare il fenomeno e le ricerche scientifiche più recenti che promettono di eliminare il problema.

Le cause delle allucinazioni

L’allucinazione può derivare da vari fattori:

Relativamente ai modelli linguistici di grandi dimensioni (LLM), anche il meccanismo di Attenzione, un componente chiave degli LLM basati sulle architetture denominate Trasformatori, può contribuire all’allucinazione, verosimilmente perché l’Attenzione tra le parti del testo perde efficacia all’aumentare della lunghezza della sequenza.

Le soluzioni per limitare le allucinazioni

Gli approcci per ridurre il più possibile il fenomeno delle allucinazioni sono essenzialmente di 2 tipologie :

  1. Mitigazione delle allucinazioni utilizzando fonti esterne
  2. Mitigazione delle allucinazioni utilizzando tecniche di prompting:

La tecnica RAG

La Retrieval Augmented Generation (RAG) è la tecnica più adottata per ridurre l’insorgere delle allucinazioni. Questa tecnica migliora l’accuratezza degli LLM recuperando informazioni da fonti esterne di interesse e forzando, tramite prompting opportuno, l’LLM ad utilizzare solo queste fonti per le risposte. Una trattazione estesa della RAG, che presenta numerose varianti, non è nello scopo di questo articolo; la proposta originale è riportata in (1), un’ampia retrospettiva è riportata in (2).

Però, nonostante i progressi nei sistemi RAG, (sono stati generati oltre 5000 articoli sulla RAG dalla sua introduzione nel 2021) gli attuali LLM di grandi dimensioni non riescono a raggiungere un’accuratezza superiore all’80% nella generazione di output fedeli e corretti nei fatti, nonostante siano forniti con un contesto pertinente e accurato (3).

Anche se i modelli LLM più recenti con “finestre di contesto” lunghe[1]  possono migliorare l’accuratezza del sistema RAG, l’accuratezza non aumenta uniformemente con l’aumento della lunghezza della finestra, anzi tende a diminuire dopo una certa dimensione del contesto (3).

I moderni LLM che supportano lunghezze di contesto sempre maggiori (da 128.000 a 2 milioni di token) e possono quindi elaborare testi molto lunghi, presentano comunque 2 limitazioni :

I Grafi di conoscenza

Poiché la tecnica RAG si basa su una pre “classificazione” delle fonti esterne di interesse, l’utilizzo di “grafi di conoscenza” (Knowledge graph) nel contesto RAG per operare la classificazione delle fonti può migliorare significativamente la prevenzione delle allucinazioni.  Questi grafi rappresentano in modo strutturato entità (persone, luoghi e concetti) e le relazioni tra di esse, creando una rete di informazioni collegate. Questa tecnica consente ai modelli di comprendere in che modo i fatti sono correlati, fornendo un contesto cruciale che aiuta a prevenire le allucinazioni (6).

Le tecniche di prompting

Anche una “attivazione” errata del modello, cioè un prompt[2] non adeguato può essere causa di allucinazioni.

Numerose tecniche di prompting sono state proposte per ridurre le allucinazioni dei modelli linguistici; tra le principali:

Oltre al prompting molti framework sono stati proposti per mitigare le allucinazioni negli LLM.  Tra questi un framework, noto come Chat Protect (CP) (10) , per ridurre le allucinazioni basate su risposte contraddittorie.

Esaminando diverse strategie di prompting e framework volti a ridurre le allucinazioni nei modelli linguistici, si è evidenziato che la migliore strategia di mitigazione dipende dal tipo di problema (11). Il modo più efficace per ridurre le allucinazioni per problemi matematici è quello di impiegare una strategia Self-Consistency, che prevede l’assunzione di un voto di maggioranza su un numero di risposte campionate. Inoltre, è stato dimostrato che la strategia Chat Protect, che filtra la risposta ogni volta che due o più campioni si contraddicono a vicenda, ha raggiunto un buon compromesso tra il numero di domande a cui si è risposto e il numero di risposte allucinate.

È possibile eliminare le allucinazioni?

Secondo molti studiosi la convinzione che se si invia a un LLM dati fattuali e pertinenti al 100%, si otterranno risultati fattuali al 100%, non è realistica.

Approcci matematici al problema, dove l’LLM è trattato come un sistema probabilistico che predice il token successivo data una sequenza in ingresso, dimostrano che, in linea teorica, un LLM inevitabilmente è  portato ad avere allucinazioni (12) (13).

In tutto questo va considerato che al momento non si conosce ancora il reale funzionamento dei modelli linguistici, non esistendo una teoria che spieghi come i modelli organizzano e utilizzano le informazioni che imparano.

Su questo argomento è interessante lo studio di Anthropic (14) che cerca di comprendere il comportamento del modello Claude 3; lo studio è molto ampio e indirizzato ad aspetti di sicurezza del modello linguistico. Gli autori hanno trovato il modo di estrarre milioni di Funzionalità dai modelli linguistici già rilasciati e notato che queste funzionalità sono generalmente interpretabili e monosemantiche e che molte sono rilevanti per la classificazione e il comportamento del modello.

Esempi di Funzionalità sono nomi di personaggi famosi, paesi, città e parametri nei codici software. Molte funzionalità sono multilingue (rispondono allo stesso concetto in tutte le lingue) e multimodali (rispondono allo stesso concetto sia nel testo che nelle immagini), oltre a comprendere istanze astratte e concrete della stessa idea.

Le Frasi nominali ed eliminazione delle allucinazioni

A partire dal concetto di Funzionalità che influenzano il comportamento del modello linguistico, uno studio molto recente (15) annuncia di aver trovato il modo di eliminare completamente le allucinazioni partendo dalla scoperta che gli LLM si auto-organizzano attorno a “frasi nominali” durante l’apprendimento; in altre parole l’LLM userebbe i nomi nelle frasi come punto di riferimento per organizzare la comprensione del contesto.

La spiegazione che questo studio fornisce delle allucinazioni è che le errate associazioni sostantivo-frase che producono l’allucinazione possono verificarsi quando nella risposta sono coinvolti sostantivi che hanno una rappresentazione interna al LLM molto simile (cioè sono vettori multidimensionali vicini); per cui, durante la generazione di una frase l’LLM, che esegue calcoli sui vettori con cui sono rappresentate le parole del testo,  può confondere i 2 sostantivi e produrre risultati errati.

La soluzione proposta è quella di pre-processare i prompt riscrivendoli per dividere i riferimenti in collisione tra sostantivi e frasi in richieste separate e autonome prive di conflitti tra sostantivi e frasi; questa procedura, che aumenta i tempi di risposta del LLM, secondo gli autori eliminerebbe le allucinazioni.

Lo studio, molto entusiasta (volto a promuovere la soluzione anche per fini commerciali), fornisce spiegazioni empiriche della teoria sui cui si basa, che ritengo debba essere ulteriormente validata, però rappresenta un interessante spunto per comprendere meglio i modelli linguistici.

Conclusione

Il problema dell’insorgere delle allucinazioni nei modelli linguistici e più in generale nelle soluzioni di intelligenza artificiale generativa, rappresenta un limite importante per l’applicazione di queste tecnologie in contesti in cui l’affidabilità della risposta è cruciale.

Al momento tecniche come RAG nelle sue forme più evolute, controllo attento dei prompt di attivazione del modello e verifica della correttezza dei passi di generazione delle risposte, sono le metodologie più efficaci per ridurre l’insorgere delle allucinazioni.

L’attività scientifica in corso per cercare di mitigare o risolvere questo problema è ovviamente influenzata dalla capacità di capire come realmente questi modelli utilizzano i dati su cui vengono addestrati, per cui la ricerca nel settore della interpretabilità del funzionamento dei modelli Intelligenza Artificiale Generativa contribuirà anche ridurre o eliminare del tutto il fenomeno delle allucinazioni.

Riferimenti

  1. Patrick Lewisy, Ethan Perez,Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler,Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. 2021. arXiv:2005.11401v4.
  2. Yunfan Gaoa, Yun Xiongb, Xinyu Gaob, Kangxiang Jiab, Jinliu Panb, Yuxi Bic, Yi Daia, Jiawei Suna, Meng. Retrieval-Augmented Generation for Large Language Models: A Survey. 2024. arXiv:2312.10997v5.
  3. Long Context RAG Performance of LLMs. Databricks. [Online] 8 12, 2024. https://www.databricks.com/blog/long-context-rag-performance-llms.
  4. Nelson F. Liu1, Kevin Lin,John Hewitt,Ashwin Paranjape,Michele Bevilacqua, Fabio Petroni, Percy Liang1. Lost in the Middle: How Language Models Use Long Contexts. 2023. arXiv:2307.03172v3.
  5. Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Yang Zhang, Boris Ginsburg. RULER What’s the Real Context Size of Your Long Context Lanmguage Model. 2024. arXiv:2404.06654v3.
  6. Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt. From Local to Global: A Graph RAG Approach to Query-Focused Summarization. 2024. arXiv:2404.16130v1.
  7. J. Wei, X. Wang, D. Schuurmans, M. Bosma, B. Ichter, F. Xia, E. Chi, Q. Le, and D. Zhou. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. 2023. arXiv:2201.11903.
  8. X. Wang, J. Wei, D. Schuurmans, Q. Le, E. Chi, S. Narang, A. Chowdhery, and D. Zhou. Self-Consistency Improves Chain of Thought Reasoning in Language Models. 2023. arXiv:2203.11171.
  9. S. Yao, D. Yu, J. Zhao, I. Shafran, T. L. Griffiths, Y. Cao, and K. Narasimhan. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. 2023. arXiv:2305.10601.
  10. Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation. N. Mündler, J. He, S. Jenko, and M. Vechev. 2024. The Twelfth International Conference on Learning Representations.
  11. Liam Barkley, Brink van der Merwe. Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models. 2024. arXiv:2410.19385v1.
  12. Kankanhalli, Ziwei Xu Sanjay Jain Mohan. Hallucination is Inevitable: An Innate Limitation of Large Language Models. 2024. arXiv:2401.11817v1.
  13. Adam Tauman Kalai, Santosh S. Vempala. Calibrated Language Models Must Hallucinate. 2024. arXiv:2311.14648v3.
  14. Adly Templeton, Tom Conerly et. al. Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. [Online] 2024. https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html.
  15. Michael C.Wood, Adam A. Forbes. 100% Hallucination Elimination Using Acurai. 2024. arXiv:2412.05223v1.

[1] La “finestra di contesto” è la quantità di testo che un modello di intelligenza artificiale è in grado di elaborare e ricordare in un dato momento. È misurata in token, dove 1 token equivale all’incirca a 0,75 parole nella lingua inglese

[2] Un “prompt” è una richiesta testuale fornita a un sistema di intelligenza artificiale al fine di ottenere una risposta adeguata.