I risultati sono sotto gli occhi di tutti. I moderni Large Language Models
sono in grado di scrivere codice complesso, analizzare documenti estesi,
sostenere conversazioni articolate e affrontare compiti di ragionamento che
fino a pochi anni fa sembravano fuori portata. Tuttavia, questo progresso ha
avuto un prezzo elevato.
L’aumento delle dimensioni comporta infatti una crescita quasi proporzionale
delle risorse necessarie per addestrare e utilizzare i modelli. GPU
specializzate, enormi quantità di memoria, consumi energetici significativi
e infrastrutture distribuite sono diventati requisiti indispensabili.
L’addestramento di un grande modello richiede migliaia di acceleratori che
operano per settimane o mesi, mentre l’inferenza su larga scala continua a
generare costi elevati in termini economici ed energetici. Il risultato è
che lo sviluppo dei sistemi più avanzati è rimasto concentrato nelle mani di
poche aziende dotate delle risorse finanziarie e infrastrutturali
necessarie.
Parallelamente però, è emersa una tendenza destinata a ridefinire gli
equilibri del settore. Invece di inseguire esclusivamente modelli sempre più
grandi, una parte crescente della ricerca si è concentrata sull’efficienza.
L’obiettivo non è più soltanto aumentare la capacità computazionale
disponibile, ma sfruttarla nel modo più intelligente possibile.
In questo contesto si inserisce la diffusione dei modelli open-weight,
ovvero sistemi i cui pesi vengono distribuiti pubblicamente e possono essere
eseguiti direttamente su infrastrutture controllate dall’utilizzatore.
La differenza rispetto ai servizi cloud tradizionali è sostanziale. Aziende,
enti pubblici e professionisti possono eseguire modelli avanzati all’interno
dei propri sistemi senza trasferire dati sensibili verso piattaforme
esterne. Questo approccio migliora il controllo sulle informazioni,
semplifica gli aspetti legati alla conformità normativa e riduce la
dipendenza dai grandi fornitori di servizi AI.
Anche sul piano economico i vantaggi sono significativi. Molte
organizzazioni hanno riportato riduzioni drastiche dei costi operativi
trasferendo parte dei propri workflow verso modelli open-weight
ottimizzati.
A ciò si aggiunge una minore pressione sulle infrastrutture cloud e una
conseguente riduzione del consumo energetico associato all’inferenza.
Questa trasformazione è stata resa possibile da una serie di innovazioni che
hanno progressivamente dimostrato come sia possibile ridurre le dimensioni
effettive di un modello senza comprometterne in modo sostanziale le
prestazioni.
Distillazione: trasferire la conoscenza invece della complessità
Una delle tecniche più influenti è la distillazione. Il processo consiste
nell’utilizzare un modello di grandi dimensioni come insegnante per
addestrarne uno più piccolo.
Il modello studente non apprende soltanto dai dati originali, ma impara a
replicare il comportamento del sistema più avanzato. In questo modo riesce a
conservare una parte significativa delle capacità del modello sorgente pur
richiedendo molte meno risorse computazionali.
La distillazione è oggi alla base di numerosi modelli moderni progettati per
l’esecuzione locale e rappresenta uno degli strumenti più efficaci per
democratizzare l’accesso all’intelligenza artificiale avanzata.
Quantizzazione: ridurre la precisione per aumentare l’efficienza
La seconda grande rivoluzione è stata la quantizzazione.
I modelli neurali memorizzano i propri pesi attraverso rappresentazioni
numeriche ad alta precisione che occupano enormi quantità di memoria. La
quantizzazione riduce questa precisione, passando ad esempio da
rappresentazioni a 16 bit a formati da 8, 4 o persino 2 bit.
La conseguenza è una drastica diminuzione della memoria necessaria e della
quantità di dati che devono essere trasferiti durante l’inferenza. Se
eseguita correttamente, la perdita di qualità risulta spesso trascurabile
rispetto ai benefici ottenuti in termini di velocità ed efficienza.
La quasi totalità delle moderne implementazioni locali di LLM si basa su
tecniche di quantizzazione sempre più sofisticate.
imatrix: comprendere quali parti del modello sono davvero
importanti
La ricerca ha però dimostrato che non tutti i parametri hanno la stessa
importanza.
Da questa osservazione nasce imatrix, abbreviazione di importance
matrix.
Questa metodologia utilizza dataset di calibrazione estremamente eterogenei,
comprendenti conversazioni, generazione di codice, compiti di ragionamento,
tool calling e contenuti enciclopedici, per identificare quali componenti
del modello siano più sensibili alla riduzione di precisione.
L’obiettivo è allocare le risorse in modo selettivo, preservando la qualità
dove conta davvero e comprimendo maggiormente le aree meno critiche. Questo
approccio rappresenta uno dei fondamenti delle tecniche di quantizzazione
più avanzate sviluppate negli ultimi anni.
Mixture of Experts: quando un modello da 35 miliardi di parametri ne usa
soltanto 3
Un ulteriore salto di efficienza è arrivato con le architetture Mixture of
Experts, comunemente note come MoE.
A differenza dei modelli densi tradizionali, che attivano l’intera rete
neurale per ogni token generato, i sistemi MoE utilizzano un meccanismo di
instradamento che seleziona soltanto gli esperti più adatti al compito
richiesto.
Il risultato è sorprendente. Qwen3.6-35B-A3B, ad esempio, possiede circa 35
miliardi di parametri complessivi ma ne attiva soltanto 3 miliardi durante
l’elaborazione di ciascun token. In pratica il modello conserva la capacità
rappresentativa di una rete molto grande, ma richiede una quantità di
calcolo comparabile a quella di sistemi significativamente più piccoli.
Questo meccanismo permette di ottenere un equilibrio particolarmente
interessante tra qualità e sostenibilità, riducendo sia i consumi energetici
sia le richieste hardware necessarie per l’esecuzione.
APEX: la quantizzazione intelligente che ridefinisce l’inferenza
locale
Se le architetture MoE hanno reso possibile una nuova generazione di modelli
efficienti, APEX rappresenta uno dei tentativi più avanzati di sfruttarne
appieno il potenziale.
APEX, acronimo di Adaptive Precision for Expert Models, nasce da un’idea
semplice ma potente: non tutti i tensori meritano lo stesso livello di
precisione.
Le tecniche di quantizzazione tradizionali applicano generalmente una
compressione uniforme all’intero modello. APEX adotta invece un approccio
differenziato. Gli expert raramente attivati ricevono una precisione
inferiore, mentre i componenti sempre coinvolti nell’inferenza mantengono
una rappresentazione più accurata. Lo stesso principio viene applicato ai
layer della rete, con maggiore attenzione alle sezioni più sensibili e una
compressione più aggressiva nelle aree caratterizzate da maggiore
ridondanza.
I risultati ottenuti sono particolarmente interessanti. Nel caso di
Qwen3.6-35B-A3B, la variante APEX I-Balanced riduce l’occupazione del
modello a circa 24 GB rispetto ai circa 35 GB richiesti da una
quantizzazione Q8_0 tradizionale. Nonostante la significativa riduzione
delle dimensioni, la perplexity rimane praticamente invariata, passando da
6,720 a 6,727, mentre il benchmark HellaSwag mantiene un punteggio vicino
all’83%.
Ancora più sorprendente è il comportamento della divergenza massima rispetto
al modello originale. La variante APEX registra un valore di 4,53 contro il
9,72 della quantizzazione uniforme Q8_0, suggerendo che una distribuzione
intelligente della precisione possa preservare il comportamento del modello
meglio di approcci apparentemente più conservativi.
Le versioni più aggressive spingono ulteriormente il concetto. APEX
I-Compact riduce l’occupazione a circa 17 GB mantenendo prestazioni molto
vicine alla configurazione di riferimento, mentre APEX I-Mini porta il
modello a circa 14 GB. In pratica, un sistema con una capacità complessiva
di 35 miliardi di parametri può essere eseguito su hardware consumer che
fino a poco tempo fa sarebbe stato considerato insufficiente per gestire
modelli di questa categoria.
La combinazione di architetture MoE, quantizzazione adattiva e tecniche di ottimizzazione sempre più sofisticate sta trasformando profondamente il panorama dell’intelligenza artificiale locale. Modelli che un tempo richiedevano server dedicati e acceleratori professionali possono oggi funzionare su workstation personali, mini-PC ad alte prestazioni e nuove generazioni di APU.
Per oltre un decennio il progresso dell’AI è stato misurato principalmente
attraverso la crescita del numero di parametri. Oggi però, l’innovazione non
consiste più soltanto nell’aggiungere parametri, ma nel progettare sistemi
capaci di utilizzare ogni parametro nel modo più intelligente possibile.
La prossima fase dell’intelligenza artificiale potrebbe quindi non essere
caratterizzata da modelli infinitamente più grandi, bensì da modelli
radicalmente più efficienti, accessibili e sostenibili. Una trasformazione
che promette di riportare una parte significativa della potenza dell’AI dai
grandi datacenter alle infrastrutture locali, rendendola disponibile a un
numero sempre maggiore di organizzazioni e individui.