La perdita di contesto nei modelli LLM

by Bruno Tessaro, posted on April 23, 2025

Quando utilizziamo sistemi di intelligenza artificiale per rispondere a domande complesse, spesso ci imbattiamo in un problema chiamato "perdita di contesto". Immaginate di raccontare una storia lunga e dettagliata, ma a metà del racconto dimenticate alcuni particolari cruciali: qualcosa di simile accade ai modelli linguistici quando devono gestire grandi quantità di informazioni. Nei sistemi RAG (Retrieval-Augmented Generation), che combinano ricerca esterna e generazione di testo, questa sfida è particolarmente rilevante. Esistono però tecniche innovative per mitigare il problema, rendendo le risposte più coerenti e precise.

Il cuore del problema risiede nella difficoltà di tenere traccia di tutte le informazioni rilevanti durante il processo di generazione. Pensate a un assistente virtuale che deve rispondere a una domanda basandosi su un manuale tecnico di centinaia di pagine: se non riesce a ricordare il contesto corretto, rischia di produrre risposte inaccurate o contraddittorie. Questo fenomeno si acuisce quando i documenti sono lunghi o strutturati in modo complesso.

Una soluzione fondamentale è la suddivisione strategica del testo in segmenti (chunking). Prendiamo un articolo giornalistico: invece di analizzarlo tutto insieme, lo dividiamo in paragrafi tematici. Ad esempio, un testo su un nuovo farmaco potrebbe essere segmentato in "ricerca clinica", "effetti collaterali" e "approvazioni normative". Questo approccio permette al sistema di processare ogni parte mantenendo il focus sul contesto specifico. Tuttavia, la semplice divisione in blocchi di dimensione fissa può portare a perdere collegamenti importanti tra le sezioni, come il rapporto causa-effetto tra dati presentati in paragrafi diversi.

Qui entra in gioco l'Ottimizzazione della Finestra Contestuale, una tecnica che regola dinamicamente la quantità di informazioni considerate. Immaginate una lente d'ingrandimento. Per una domanda sulle caratteristiche tecniche di uno smartphone, il sistema potrebbe concentrarsi su 6-8 paragrafi chiave estratti dal manuale, evitando di sovraccaricarsi con dettagli irrilevanti. Un esperimento condotto su modelli avanzati ha dimostrato che utilizzare il 40-70% della capacità massima della "memoria" del sistema produce i migliori risultati, bilanciando completezza e precisione.

Il Prompt Engineering gioca un ruolo cruciale nel guidare il modello a usare efficacemente il contesto disponibile. Prendiamo una domanda come "Quali sono i rischi dell'uso prolungato dello smartphone?". Un prompt ottimizzato potrebbe essere: "Considerando i documenti tecnici forniti sui dispositivi mobili, elenca tre rischi principali per la salute correlati all'uso prolungato, citando le pagine rilevanti". Questo approccio forza il sistema ad ancorarsi saldamente alle fonti, riducendo il rischio di divagazioni. Tecniche avanzate come la catena del ragionamento spingono il modello a esplicitare i passaggi logici, rendendo più trasparente l'uso del contesto.

Il Contextual Retrieval rappresenta un salto qualitativo nell'elaborazione del contesto. Antropic ha sviluppato questo metodo dove ogni segmento di testo viene arricchito con informazioni esplicative prima dell'analisi. Per esempio, un estratto secco come "Il fatturato è aumentato del 3%" diventa "Dal rapporto trimestrale di ACME: rispetto ai 314 milioni del trimestre precedente, il fatturato è aumentato del 3%". Questo contesto aggiuntivo, generato automaticamente da modelli come Claude, migliora l'accuratezza nella ricerca delle informazioni.

Le strategie ibride di chunking combinano diversi approcci per adattarsi alla complessità dei documenti. In un contratto legale, si potrebbe usare una divisione semantica basata sulle sezioni principali per i capitoli cruciali, affiancata a una suddivisione in paragrafi di lunghezza fissa per le clausole standard. Questo dualismo permette di mantenere sia la struttura logica che l'efficienza computazionale.

I modelli di memorizzazione gerarchica introducono una struttura ad albero per organizzare le informazioni. In una lunga conversazione tra medico e paziente, i nodi superiori dell'albero potrebbero riassumere le diagnosi precedenti, mentre quelli inferiori conservano dettagli specifici sui sintomi. Durante una nuova consultazione, il sistema "percorre" l'albero selezionando solo i nodi rilevanti, evitando di sovraccaricare la memoria con dati non pertinenti.

Il Selective Retrieval con Reranking completa il quadro agendo come un filtro intelligente. Dopo una prima selezione di documenti potenzialmente rilevanti, un modello specializzato rivaluta ogni risultato. Per una ricerca su "terapia innovativa per il diabete", il sistema potrebbe prima trovare 50 articoli, poi usare un secondo modello per selezionare i 5 più pertinenti, scartando quelli obsoleti o fuori contesto. Tecniche come il cross-encoding permettono di valutare simultaneamente query e documento, migliorando la precisione rispetto ai metodi tradizionali.

Queste tecniche, combinate strategicamente, stanno rivoluzionando l'affidabilità dei sistemi di intelligenza artificiale nella gestione di informazioni complesse. La sfida futura risiederà nell'ottimizzare ulteriormente questi metodi, bilanciando precisione, velocità e costi computazionali.

Bruno Tessaro Insights

La perdita di contesto nei modelli LLM

Tags