Bruno Tessaro Insights

image

Per anni l’evoluzione dell’intelligenza artificiale generativa è sembrata seguire una sola legge: più grande è il modello, migliori sono le sue capacità. L’intera industria ha costruito la propria strategia attorno a questo obiettivo, investendo quantità sempre maggiori di risorse nella realizzazione di sistemi caratterizzati da un numero crescente di parametri. La progressione è stata impressionante. GPT-2, presentato da OpenAI nel 2019, disponeva di 1,5 miliardi di parametri. Solo un anno dopo GPT-3 portò la soglia a 175 miliardi, dimostrando che la semplice crescita dimensionale poteva tradursi in un salto qualitativo significativo. Negli anni successivi la corsa è proseguita senza rallentare: i principali laboratori di ricerca hanno sviluppato architetture con centinaia di miliardi di parametri e, nel caso dei più recenti modelli Mixture of Experts, con capacità complessive che superano il trilione.

I risultati sono sotto gli occhi di tutti. I moderni Large Language Models sono in grado di scrivere codice complesso, analizzare documenti estesi, sostenere conversazioni articolate e affrontare compiti di ragionamento che fino a pochi anni fa sembravano fuori portata. Tuttavia, questo progresso ha avuto un prezzo elevato.
L’aumento delle dimensioni comporta infatti una crescita quasi proporzionale delle risorse necessarie per addestrare e utilizzare i modelli. GPU specializzate, enormi quantità di memoria, consumi energetici significativi e infrastrutture distribuite sono diventati requisiti indispensabili.
L’addestramento di un grande modello richiede migliaia di acceleratori che operano per settimane o mesi, mentre l’inferenza su larga scala continua a generare costi elevati in termini economici ed energetici. Il risultato è che lo sviluppo dei sistemi più avanzati è rimasto concentrato nelle mani di poche aziende dotate delle risorse finanziarie e infrastrutturali necessarie.

Parallelamente però, è emersa una tendenza destinata a ridefinire gli equilibri del settore. Invece di inseguire esclusivamente modelli sempre più grandi, una parte crescente della ricerca si è concentrata sull’efficienza. L’obiettivo non è più soltanto aumentare la capacità computazionale disponibile, ma sfruttarla nel modo più intelligente possibile.
In questo contesto si inserisce la diffusione dei modelli open-weight, ovvero sistemi i cui pesi vengono distribuiti pubblicamente e possono essere eseguiti direttamente su infrastrutture controllate dall’utilizzatore.
La differenza rispetto ai servizi cloud tradizionali è sostanziale. Aziende, enti pubblici e professionisti possono eseguire modelli avanzati all’interno dei propri sistemi senza trasferire dati sensibili verso piattaforme esterne. Questo approccio migliora il controllo sulle informazioni, semplifica gli aspetti legati alla conformità normativa e riduce la dipendenza dai grandi fornitori di servizi AI.
Anche sul piano economico i vantaggi sono significativi. Molte organizzazioni hanno riportato riduzioni drastiche dei costi operativi trasferendo parte dei propri workflow verso modelli open-weight ottimizzati.
A ciò si aggiunge una minore pressione sulle infrastrutture cloud e una conseguente riduzione del consumo energetico associato all’inferenza.
Questa trasformazione è stata resa possibile da una serie di innovazioni che hanno progressivamente dimostrato come sia possibile ridurre le dimensioni effettive di un modello senza comprometterne in modo sostanziale le prestazioni.

Distillazione: trasferire la conoscenza invece della complessità
Una delle tecniche più influenti è la distillazione. Il processo consiste nell’utilizzare un modello di grandi dimensioni come insegnante per addestrarne uno più piccolo.
Il modello studente non apprende soltanto dai dati originali, ma impara a replicare il comportamento del sistema più avanzato. In questo modo riesce a conservare una parte significativa delle capacità del modello sorgente pur richiedendo molte meno risorse computazionali.
La distillazione è oggi alla base di numerosi modelli moderni progettati per l’esecuzione locale e rappresenta uno degli strumenti più efficaci per democratizzare l’accesso all’intelligenza artificiale avanzata.

Quantizzazione: ridurre la precisione per aumentare l’efficienza
La seconda grande rivoluzione è stata la quantizzazione.
I modelli neurali memorizzano i propri pesi attraverso rappresentazioni numeriche ad alta precisione che occupano enormi quantità di memoria. La quantizzazione riduce questa precisione, passando ad esempio da rappresentazioni a 16 bit a formati da 8, 4 o persino 2 bit.
La conseguenza è una drastica diminuzione della memoria necessaria e della quantità di dati che devono essere trasferiti durante l’inferenza. Se eseguita correttamente, la perdita di qualità risulta spesso trascurabile rispetto ai benefici ottenuti in termini di velocità ed efficienza.
La quasi totalità delle moderne implementazioni locali di LLM si basa su tecniche di quantizzazione sempre più sofisticate.

imatrix: comprendere quali parti del modello sono davvero importanti
La ricerca ha però dimostrato che non tutti i parametri hanno la stessa importanza.
Da questa osservazione nasce imatrix, abbreviazione di importance matrix.
Questa metodologia utilizza dataset di calibrazione estremamente eterogenei, comprendenti conversazioni, generazione di codice, compiti di ragionamento, tool calling e contenuti enciclopedici, per identificare quali componenti del modello siano più sensibili alla riduzione di precisione.
L’obiettivo è allocare le risorse in modo selettivo, preservando la qualità dove conta davvero e comprimendo maggiormente le aree meno critiche. Questo approccio rappresenta uno dei fondamenti delle tecniche di quantizzazione più avanzate sviluppate negli ultimi anni.

Mixture of Experts: quando un modello da 35 miliardi di parametri ne usa soltanto 3
Un ulteriore salto di efficienza è arrivato con le architetture Mixture of Experts, comunemente note come MoE.
A differenza dei modelli densi tradizionali, che attivano l’intera rete neurale per ogni token generato, i sistemi MoE utilizzano un meccanismo di instradamento che seleziona soltanto gli esperti più adatti al compito richiesto.
Il risultato è sorprendente. Qwen3.6-35B-A3B, ad esempio, possiede circa 35 miliardi di parametri complessivi ma ne attiva soltanto 3 miliardi durante l’elaborazione di ciascun token. In pratica il modello conserva la capacità rappresentativa di una rete molto grande, ma richiede una quantità di calcolo comparabile a quella di sistemi significativamente più piccoli.
Questo meccanismo permette di ottenere un equilibrio particolarmente interessante tra qualità e sostenibilità, riducendo sia i consumi energetici sia le richieste hardware necessarie per l’esecuzione.

APEX: la quantizzazione intelligente che ridefinisce l’inferenza locale
Se le architetture MoE hanno reso possibile una nuova generazione di modelli efficienti, APEX rappresenta uno dei tentativi più avanzati di sfruttarne appieno il potenziale.
APEX, acronimo di Adaptive Precision for Expert Models, nasce da un’idea semplice ma potente: non tutti i tensori meritano lo stesso livello di precisione.
Le tecniche di quantizzazione tradizionali applicano generalmente una compressione uniforme all’intero modello. APEX adotta invece un approccio differenziato. Gli expert raramente attivati ricevono una precisione inferiore, mentre i componenti sempre coinvolti nell’inferenza mantengono una rappresentazione più accurata. Lo stesso principio viene applicato ai layer della rete, con maggiore attenzione alle sezioni più sensibili e una compressione più aggressiva nelle aree caratterizzate da maggiore ridondanza.
I risultati ottenuti sono particolarmente interessanti. Nel caso di Qwen3.6-35B-A3B, la variante APEX I-Balanced riduce l’occupazione del modello a circa 24 GB rispetto ai circa 35 GB richiesti da una quantizzazione Q8_0 tradizionale. Nonostante la significativa riduzione delle dimensioni, la perplexity rimane praticamente invariata, passando da 6,720 a 6,727, mentre il benchmark HellaSwag mantiene un punteggio vicino all’83%.
Ancora più sorprendente è il comportamento della divergenza massima rispetto al modello originale. La variante APEX registra un valore di 4,53 contro il 9,72 della quantizzazione uniforme Q8_0, suggerendo che una distribuzione intelligente della precisione possa preservare il comportamento del modello meglio di approcci apparentemente più conservativi.
Le versioni più aggressive spingono ulteriormente il concetto. APEX I-Compact riduce l’occupazione a circa 17 GB mantenendo prestazioni molto vicine alla configurazione di riferimento, mentre APEX I-Mini porta il modello a circa 14 GB. In pratica, un sistema con una capacità complessiva di 35 miliardi di parametri può essere eseguito su hardware consumer che fino a poco tempo fa sarebbe stato considerato insufficiente per gestire modelli di questa categoria.

La combinazione di architetture MoE, quantizzazione adattiva e tecniche di ottimizzazione sempre più sofisticate sta trasformando profondamente il panorama dell’intelligenza artificiale locale. Modelli che un tempo richiedevano server dedicati e acceleratori professionali possono oggi funzionare su workstation personali, mini-PC ad alte prestazioni e nuove generazioni di APU.

Per oltre un decennio il progresso dell’AI è stato misurato principalmente attraverso la crescita del numero di parametri. Oggi però, l’innovazione non consiste più soltanto nell’aggiungere parametri, ma nel progettare sistemi capaci di utilizzare ogni parametro nel modo più intelligente possibile.
La prossima fase dell’intelligenza artificiale potrebbe quindi non essere caratterizzata da modelli infinitamente più grandi, bensì da modelli radicalmente più efficienti, accessibili e sostenibili. Una trasformazione che promette di riportare una parte significativa della potenza dell’AI dai grandi datacenter alle infrastrutture locali, rendendola disponibile a un numero sempre maggiore di organizzazioni e individui.

Tags