Dall’ossessione per la scala all’era dell’efficienza

by Bruno Tessaro, posted on June 15, 2026

IT EN

Per anni l’evoluzione dell’intelligenza artificiale generativa è sembrata seguire una sola legge: più grande è il modello, migliori sono le sue capacità. L’intera industria ha costruito la propria strategia attorno a questo obiettivo, investendo quantità sempre maggiori di risorse nella realizzazione di sistemi caratterizzati da un numero crescente di parametri. La progressione è stata impressionante. GPT-2, presentato da OpenAI nel 2019, disponeva di 1,5 miliardi di parametri. Solo un anno dopo GPT-3 portò la soglia a 175 miliardi, dimostrando che la semplice crescita dimensionale poteva tradursi in un salto qualitativo significativo. Negli anni successivi la corsa è proseguita senza rallentare: i principali laboratori di ricerca hanno sviluppato architetture con centinaia di miliardi di parametri e, nel caso dei più recenti modelli Mixture of Experts, con capacità complessive che superano il trilione.

I risultati sono sotto gli occhi di tutti. I moderni Large Language Models sono in grado di scrivere codice complesso, analizzare documenti estesi, sostenere conversazioni articolate e affrontare compiti di ragionamento che fino a pochi anni fa sembravano fuori portata. Tuttavia, questo progresso ha avuto un prezzo elevato.
L’aumento delle dimensioni comporta infatti una crescita quasi proporzionale delle risorse necessarie per addestrare e utilizzare i modelli. GPU specializzate, enormi quantità di memoria, consumi energetici significativi e infrastrutture distribuite sono diventati requisiti indispensabili.
L’addestramento di un grande modello richiede migliaia di acceleratori che operano per settimane o mesi, mentre l’inferenza su larga scala continua a generare costi elevati in termini economici ed energetici. Il risultato è che lo sviluppo dei sistemi più avanzati è rimasto concentrato nelle mani di poche aziende dotate delle risorse finanziarie e infrastrutturali necessarie.

Parallelamente però, è emersa una tendenza destinata a ridefinire gli equilibri del settore. Invece di inseguire esclusivamente modelli sempre più grandi, una parte crescente della ricerca si è concentrata sull’efficienza. L’obiettivo non è più soltanto aumentare la capacità computazionale disponibile, ma sfruttarla nel modo più intelligente possibile.
In questo contesto si inserisce la diffusione dei modelli open-weight, ovvero sistemi i cui pesi vengono distribuiti pubblicamente e possono essere eseguiti direttamente su infrastrutture controllate dall’utilizzatore.
La differenza rispetto ai servizi cloud tradizionali è sostanziale. Aziende, enti pubblici e professionisti possono eseguire modelli avanzati all’interno dei propri sistemi senza trasferire dati sensibili verso piattaforme esterne. Questo approccio migliora il controllo sulle informazioni, semplifica gli aspetti legati alla conformità normativa e riduce la dipendenza dai grandi fornitori di servizi AI.
Anche sul piano economico i vantaggi sono significativi. Molte organizzazioni hanno riportato riduzioni drastiche dei costi operativi trasferendo parte dei propri workflow verso modelli open-weight ottimizzati.
A ciò si aggiunge una minore pressione sulle infrastrutture cloud e una conseguente riduzione del consumo energetico associato all’inferenza.
Questa trasformazione è stata resa possibile da una serie di innovazioni che hanno progressivamente dimostrato come sia possibile ridurre le dimensioni effettive di un modello senza comprometterne in modo sostanziale le prestazioni.

Distillazione: trasferire la conoscenza invece della complessità
Una delle tecniche più influenti è la distillazione. Il processo consiste nell’utilizzare un modello di grandi dimensioni come insegnante per addestrarne uno più piccolo.
Il modello studente non apprende soltanto dai dati originali, ma impara a replicare il comportamento del sistema più avanzato. In questo modo riesce a conservare una parte significativa delle capacità del modello sorgente pur richiedendo molte meno risorse computazionali.
La distillazione è oggi alla base di numerosi modelli moderni progettati per l’esecuzione locale e rappresenta uno degli strumenti più efficaci per democratizzare l’accesso all’intelligenza artificiale avanzata.

Quantizzazione: ridurre la precisione per aumentare l’efficienza
La seconda grande rivoluzione è stata la quantizzazione.
I modelli neurali memorizzano i propri pesi attraverso rappresentazioni numeriche ad alta precisione che occupano enormi quantità di memoria. La quantizzazione riduce questa precisione, passando ad esempio da rappresentazioni a 16 bit a formati da 8, 4 o persino 2 bit.
La conseguenza è una drastica diminuzione della memoria necessaria e della quantità di dati che devono essere trasferiti durante l’inferenza. Se eseguita correttamente, la perdita di qualità risulta spesso trascurabile rispetto ai benefici ottenuti in termini di velocità ed efficienza.
La quasi totalità delle moderne implementazioni locali di LLM si basa su tecniche di quantizzazione sempre più sofisticate.

imatrix: comprendere quali parti del modello sono davvero importanti
La ricerca ha però dimostrato che non tutti i parametri hanno la stessa importanza.
Da questa osservazione nasce imatrix, abbreviazione di importance matrix.
Questa metodologia utilizza dataset di calibrazione estremamente eterogenei, comprendenti conversazioni, generazione di codice, compiti di ragionamento, tool calling e contenuti enciclopedici, per identificare quali componenti del modello siano più sensibili alla riduzione di precisione.
L’obiettivo è allocare le risorse in modo selettivo, preservando la qualità dove conta davvero e comprimendo maggiormente le aree meno critiche. Questo approccio rappresenta uno dei fondamenti delle tecniche di quantizzazione più avanzate sviluppate negli ultimi anni.

Mixture of Experts: quando un modello da 35 miliardi di parametri ne usa soltanto 3
Un ulteriore salto di efficienza è arrivato con le architetture Mixture of Experts, comunemente note come MoE.
A differenza dei modelli densi tradizionali, che attivano l’intera rete neurale per ogni token generato, i sistemi MoE utilizzano un meccanismo di instradamento che seleziona soltanto gli esperti più adatti al compito richiesto.
Il risultato è sorprendente. Qwen3.6-35B-A3B, ad esempio, possiede circa 35 miliardi di parametri complessivi ma ne attiva soltanto 3 miliardi durante l’elaborazione di ciascun token. In pratica il modello conserva la capacità rappresentativa di una rete molto grande, ma richiede una quantità di calcolo comparabile a quella di sistemi significativamente più piccoli.
Questo meccanismo permette di ottenere un equilibrio particolarmente interessante tra qualità e sostenibilità, riducendo sia i consumi energetici sia le richieste hardware necessarie per l’esecuzione.

APEX: la quantizzazione intelligente che ridefinisce l’inferenza locale
Se le architetture MoE hanno reso possibile una nuova generazione di modelli efficienti, APEX rappresenta uno dei tentativi più avanzati di sfruttarne appieno il potenziale.
APEX, acronimo di Adaptive Precision for Expert Models, nasce da un’idea semplice ma potente: non tutti i tensori meritano lo stesso livello di precisione.
Le tecniche di quantizzazione tradizionali applicano generalmente una compressione uniforme all’intero modello. APEX adotta invece un approccio differenziato. Gli expert raramente attivati ricevono una precisione inferiore, mentre i componenti sempre coinvolti nell’inferenza mantengono una rappresentazione più accurata. Lo stesso principio viene applicato ai layer della rete, con maggiore attenzione alle sezioni più sensibili e una compressione più aggressiva nelle aree caratterizzate da maggiore ridondanza.
I risultati ottenuti sono particolarmente interessanti. Nel caso di Qwen3.6-35B-A3B, la variante APEX I-Balanced riduce l’occupazione del modello a circa 24 GB rispetto ai circa 35 GB richiesti da una quantizzazione Q8_0 tradizionale. Nonostante la significativa riduzione delle dimensioni, la perplexity rimane praticamente invariata, passando da 6,720 a 6,727, mentre il benchmark HellaSwag mantiene un punteggio vicino all’83%.
Ancora più sorprendente è il comportamento della divergenza massima rispetto al modello originale. La variante APEX registra un valore di 4,53 contro il 9,72 della quantizzazione uniforme Q8_0, suggerendo che una distribuzione intelligente della precisione possa preservare il comportamento del modello meglio di approcci apparentemente più conservativi.
Le versioni più aggressive spingono ulteriormente il concetto. APEX I-Compact riduce l’occupazione a circa 17 GB mantenendo prestazioni molto vicine alla configurazione di riferimento, mentre APEX I-Mini porta il modello a circa 14 GB. In pratica, un sistema con una capacità complessiva di 35 miliardi di parametri può essere eseguito su hardware consumer che fino a poco tempo fa sarebbe stato considerato insufficiente per gestire modelli di questa categoria.

La combinazione di architetture MoE, quantizzazione adattiva e tecniche di ottimizzazione sempre più sofisticate sta trasformando profondamente il panorama dell’intelligenza artificiale locale. Modelli che un tempo richiedevano server dedicati e acceleratori professionali possono oggi funzionare su workstation personali, mini-PC ad alte prestazioni e nuove generazioni di APU.

Per oltre un decennio il progresso dell’AI è stato misurato principalmente attraverso la crescita del numero di parametri. Oggi però, l’innovazione non consiste più soltanto nell’aggiungere parametri, ma nel progettare sistemi capaci di utilizzare ogni parametro nel modo più intelligente possibile.
La prossima fase dell’intelligenza artificiale potrebbe quindi non essere caratterizzata da modelli infinitamente più grandi, bensì da modelli radicalmente più efficienti, accessibili e sostenibili. Una trasformazione che promette di riportare una parte significativa della potenza dell’AI dai grandi datacenter alle infrastrutture locali, rendendola disponibile a un numero sempre maggiore di organizzazioni e individui.

For years, the evolution of generative artificial intelligence appeared to follow a single rule: the larger the model, the greater its capabilities. The entire industry built its strategy around this assumption, investing ever-increasing amounts of resources into developing systems characterized by a growing number of parameters.
The progression has been remarkable. GPT-2, introduced by OpenAI in 2019, contained 1.5 billion parameters. Just one year later, GPT-3 raised the bar to 175 billion, demonstrating that simply increasing model size could produce a significant qualitative leap. In the years that followed, the race continued unabated: leading research laboratories developed architectures with hundreds of billions of parameters and, in the case of the latest Mixture of Experts models, total capacities exceeding one trillion parameters.

The results are evident. Modern Large Language Models can write complex code, analyze lengthy documents, engage in sophisticated conversations, and tackle reasoning tasks that only a few years ago seemed beyond reach.
However, this progress has come at a substantial cost.
Increasing model size inevitably leads to a nearly proportional increase in the resources required for both training and deployment. Specialized GPUs, massive memory capacities, significant energy consumption, and distributed infrastructures have become essential requirements. Training a large model requires thousands of accelerators operating continuously for weeks or even months, while large-scale inference continues to generate considerable financial and energy costs. As a result, the development of the most advanced systems has remained concentrated in the hands of a small number of organizations possessing the necessary financial and infrastructural resources.

At the same time, however, a trend has emerged that is poised to redefine the industry's balance of power. Rather than pursuing ever-larger models exclusively, an increasing share of research has focused on efficiency. The goal is no longer simply to maximize available computational capacity, but to utilize it as intelligently as possible.
Within this context, open-weight models have gained prominence—systems whose weights are publicly distributed and can be executed directly on infrastructure controlled by the user.
The difference compared to traditional cloud services is substantial. Companies, public institutions, and professionals can run advanced models within their own environments without transferring sensitive data to external platforms. This approach enhances control over information, simplifies regulatory compliance, and reduces dependence on major AI service providers.
The economic advantages are equally significant. Many organizations have reported dramatic reductions in operating costs by migrating portions of their workflows to optimized open-weight models. This shift also reduces pressure on cloud infrastructures and lowers the energy consumption associated with inference.
This transformation has been enabled by a series of innovations that have progressively demonstrated how a model's effective size can be reduced without substantially compromising performance.

Distillation: Transferring Knowledge Rather Than Complexity
One of the most influential techniques is distillation. The process involves using a large model as a teacher to train a smaller one.
The student model does not learn solely from the original training data; it also learns to replicate the behavior of the more advanced system. As a result, it can retain a significant portion of the source model's capabilities while requiring far fewer computational resources.
Today, distillation forms the foundation of numerous modern models designed for local execution and represents one of the most effective tools for democratizing access to advanced artificial intelligence.

Quantization: Reducing Precision to Increase Efficiency
The second major revolution has been quantization.
Neural models store their weights using high-precision numerical representations that consume enormous amounts of memory. Quantization reduces this precision, moving for example from 16-bit representations to 8-bit, 4-bit, or even 2-bit formats.
The result is a dramatic reduction in both memory requirements and the volume of data that must be transferred during inference. When implemented correctly, the resulting loss in quality is often negligible compared to the gains in speed and efficiency.
Virtually all modern local LLM implementations rely on increasingly sophisticated quantization techniques.

imatrix: Understanding Which Parts of a Model Truly Matter
Research has shown that not all parameters contribute equally to a model's performance.
This observation led to the development of imatrix, short for *importance matrix*. This methodology uses highly diverse calibration datasets—including conversations, code generation tasks, reasoning challenges, tool calling, and encyclopedic content—to identify which components of a model are most sensitive to reductions in numerical precision.
The objective is to allocate resources selectively, preserving quality where it matters most while applying stronger compression to less critical areas. This approach has become one of the foundations of the most advanced quantization techniques developed in recent years.

Mixture of Experts: When a 35-Billion-Parameter Model Uses Only 3 Billion
Another major leap in efficiency came with Mixture of Experts (MoE) architectures.
Unlike traditional dense models, which activate the entire neural network for every generated token, MoE systems employ a routing mechanism that activates only the experts best suited to the task at hand.
The result is remarkable. Qwen3.6-35B-A3B, for example, contains approximately 35 billion total parameters but activates only about 3 billion during the processing of each token. In practice, the model retains the representational capacity of a very large network while requiring computational resources comparable to those of significantly smaller systems.
This mechanism creates an especially attractive balance between quality and sustainability, reducing both energy consumption and the hardware requirements necessary for deployment.

APEX: Intelligent Quantization Redefining Local Inference
If MoE architectures have enabled a new generation of efficient models, APEX represents one of the most advanced attempts to fully exploit their potential.
APEX, short for *Adaptive Precision for Expert Models*, is built on a simple yet powerful idea: not all tensors deserve the same level of precision.
Traditional quantization techniques generally apply uniform compression across the entire model. APEX instead adopts a differentiated approach. Experts that are rarely activated receive lower precision, while components consistently involved in inference retain more accurate representations. The same principle is applied across network layers, with greater attention devoted to the most sensitive sections and more aggressive compression applied to areas characterized by higher redundancy.
The results are particularly compelling. In the case of Qwen3.6-35B-A3B, the APEX I-Balanced variant reduces the model footprint to approximately 24 GB compared to roughly 35 GB required by a traditional Q8_0 quantization. Despite this significant reduction in size, perplexity remains virtually unchanged, increasing only from 6.720 to 6.727, while the HellaSwag benchmark score remains close to 83%.
Even more surprising is the model's maximum divergence from the original baseline. The APEX variant records a value of 4.53 compared to 9.72 for uniform Q8_0 quantization, suggesting that an intelligent distribution of precision can preserve model behavior more effectively than approaches that appear more conservative on paper.
More aggressive variants push the concept even further. APEX I-Compact reduces memory usage to approximately 17 GB while maintaining performance very close to the reference configuration, whereas APEX I-Mini brings the model footprint down to around 14 GB. In practical terms, a system with a total capacity of 35 billion parameters can now run on consumer-grade hardware that, until recently, would have been considered inadequate for models of this class.

The combination of MoE architectures, adaptive quantization, and increasingly sophisticated optimization techniques is fundamentally reshaping the landscape of local artificial intelligence. Models that once required dedicated servers and professional accelerators can now run on personal workstations, high-performance mini PCs, and next-generation APUs.

For more than a decade, progress in AI was measured primarily by the growth in parameter counts. Today, however, innovation is no longer simply about adding more parameters; it is about designing systems capable of using every parameter as intelligently as possible.
The next phase of artificial intelligence may therefore be defined not by infinitely larger models, but by models that are radically more efficient, accessible, and sustainable. Such a transformation promises to bring a significant portion of AI's computational power back from large data centers to local infrastructures, making advanced AI available to a far broader range of organizations and individuals.

Bruno Tessaro Insights