Bruno Tessaro Insights

image

Intelligenza Artificiale Sostenibile

by Bruno Tessaro, posted on June 16, 2026

L'intelligenza artificiale generativa rappresenta una delle trasformazioni tecnologiche più rilevanti dell'inizio del XXI secolo. La diffusione di sistemi come ChatGPT ha portato al centro dell'attenzione pubblica strumenti capaci di comprendere il linguaggio naturale, generare testi coerenti, assistere nella scrittura di codice, sintetizzare informazioni e supportare attività cognitive che fino a pochi anni fa sembravano esclusivamente umane. Nel giro di pochi mesi, l'AI generativa è passata dall'essere un argomento per specialisti a una tecnologia utilizzata quotidianamente da milioni di persone.
Alla base di questa rivoluzione si trovano i Large Language Models (LLM), reti neurali addestrate su enormi quantità di dati testuali. Il loro sviluppo ha richiesto investimenti senza precedenti in infrastrutture computazionali, energia e capacità di elaborazione. Per molti anni il progresso del settore è stato guidato da una convinzione apparentemente semplice: aumentando il numero di parametri, la quantità di dati e la potenza di calcolo, le prestazioni dei modelli sarebbero migliorate in modo costante. Questa strategia ha effettivamente prodotto risultati straordinari, ma ha anche evidenziato limiti economici, energetici e operativi sempre più evidenti.

L'addestramento dei modelli più avanzati richiede oggi grandi cluster di GPU, consumi energetici significativi e costi accessibili soltanto a poche organizzazioni globali. Parallelamente, aziende, istituzioni e centri di ricerca hanno iniziato a interrogarsi sulla sostenibilità di questo paradigma. È davvero necessario costruire modelli sempre più grandi? Esistono alternative capaci di offrire prestazioni elevate con risorse molto inferiori?
La risposta ha iniziato a delinearsi attraverso nuove strategie di progettazione. La qualità dei dati è diventata importante quanto la loro quantità. Tecniche come la quantizzazione, il pruning, il fine-tuning efficiente e il Retrieval-Augmented Generation hanno dimostrato che è possibile ottenere risultati competitivi senza aumentare indefinitamente le dimensioni dei modelli. Allo stesso tempo, la crescita dell'ecosistema open source ha reso accessibili tecnologie che fino a poco tempo fa erano riservate ai grandi laboratori industriali.

Questa evoluzione ha riportato in primo piano il concetto di autonomia tecnologica. La possibilità di eseguire modelli localmente, all'interno di aziende o infrastrutture controllate direttamente dagli utenti, offre vantaggi in termini di privacy, sicurezza e indipendenza dal cloud. In questo contesto il rapporto tra software e hardware assume un'importanza crescente. L'efficienza non dipende soltanto dagli algoritmi, ma anche dalla capacità di progettare architetture computazionali specializzate.
Tra le tecnologie che stanno attirando interesse figurano gli FPGA, dispositivi elettronici riconfigurabili che consentono di implementare acceleratori dedicati per specifici carichi di lavoro. La loro flessibilità li rende particolarmente interessanti per l'inferenza locale di modelli linguistici ottimizzati, aprendo la strada a una nuova generazione di sistemi di AI sostenibili e ad alta efficienza energetica.

Dalle reti neurali al Transformer
Per comprendere la nascita dei moderni modelli linguistici è necessario ripercorrere brevemente l'evoluzione delle reti neurali artificiali. Le prime idee risalgono agli anni Cinquanta, quando il perceptron di Frank Rosenblatt cercò di simulare in forma semplificata il funzionamento dei neuroni biologici. Nonostante l'entusiasmo iniziale, i limiti computazionali dell'epoca e alcune difficoltà teoriche rallentarono per decenni lo sviluppo del settore.
La situazione cambiò progressivamente a partire dagli anni Novanta e soprattutto nel primo decennio del Duemila, grazie all'aumento della potenza di calcolo, alla disponibilità di grandi quantità di dati e alla diffusione delle GPU come acceleratori per il deep learning. Le reti neurali profonde iniziarono a ottenere risultati sempre migliori in ambiti come la visione artificiale, il riconoscimento vocale e l'elaborazione del linguaggio naturale.
Uno dei problemi più complessi riguardava la gestione delle sequenze. A differenza delle immagini, il linguaggio è caratterizzato da una struttura temporale nella quale ogni parola dipende dal contesto precedente. Per affrontare questa sfida furono sviluppate le Recurrent Neural Networks (RNN), progettate per elaborare informazioni in modo sequenziale mantenendo una forma di memoria interna.
Le RNN rappresentarono un importante passo avanti, ma soffrivano di limiti significativi. Durante l'addestramento era difficile conservare informazioni provenienti da sequenze molto lunghe, un problema noto come vanishing gradient. Per mitigare queste difficoltà furono introdotte architetture più sofisticate come le Long Short-Term Memory (LSTM) e successivamente le Gated Recurrent Units (GRU). Questi modelli migliorarono la capacità di apprendere dipendenze a lungo termine e dominarono per anni il panorama dell'elaborazione del linguaggio naturale.
Nonostante i progressi, le architetture ricorrenti presentavano ancora un limite fondamentale: la natura sequenziale del calcolo. Ogni elemento della frase doveva essere elaborato dopo il precedente, riducendo la possibilità di sfruttare pienamente il parallelismo offerto dall'hardware moderno.
La svolta arrivò grazie al concetto di attenzione. Nel 2014 Dzmitry Bahdanau e collaboratori introdussero un meccanismo che permetteva ai modelli di concentrarsi dinamicamente sulle parti più rilevanti di una sequenza durante la traduzione automatica. L'idea si rivelò estremamente potente e aprì la strada a una nuova generazione di architetture.
Nel 2017 un gruppo di ricercatori di Google pubblicò il celebre articolo "Attention Is All You Need". Il lavoro propose un'architettura completamente nuova, denominata Transformer, che eliminava del tutto la ricorrenza e si basava esclusivamente sul meccanismo di self-attention. Invece di elaborare le parole una alla volta, il Transformer poteva analizzare simultaneamente l'intera sequenza, identificando le relazioni tra i vari elementi del testo.
La self-attention consente a ogni token di valutare l'importanza relativa degli altri token presenti nella sequenza. Questo approccio permette di catturare dipendenze linguistiche molto lunghe e di sfruttare efficacemente il parallelismo delle GPU. Il risultato fu un miglioramento significativo sia delle prestazioni sia della velocità di addestramento.

L'architettura Transformer è composta da blocchi fondamentali che includono meccanismi di attenzione multi-head, reti feed-forward e connessioni residue. Grazie a questa struttura, il modello può apprendere rappresentazioni linguistiche molto ricche e generalizzabili.
L'impatto scientifico fu immediato. Nel giro di pochi anni il Transformer divenne l'architettura dominante in quasi tutti i campi dell'intelligenza artificiale generativa. Traduzione automatica, generazione di testo, visione artificiale e persino biologia computazionale iniziarono a utilizzare varianti derivate da questa idea.
La vera importanza del Transformer non risiede soltanto nelle sue prestazioni, ma nella sua scalabilità. Per la prima volta era possibile addestrare modelli di dimensioni enormemente superiori rispetto al passato, sfruttando grandi cluster distribuiti. Questa caratteristica avrebbe dato origine alla successiva generazione di Large Language Models e trasformato profondamente l'intero settore dell'intelligenza artificiale.

L’ascesa dei Large Language Models
L'evoluzione dei Large Language Models è strettamente legata alla diffusione dell'architettura Transformer. Una volta dimostrata l'efficacia della self-attention, i ricercatori iniziarono a esplorare la possibilità di addestrare modelli sempre più grandi su enormi quantità di testo raccolto dal Web, da libri digitalizzati e da altre fonti documentali.
Nel 2018 OpenAI presentò GPT-1, un modello relativamente piccolo secondo gli standard attuali, ma innovativo per il modo in cui utilizzava il pretraining generativo. L'idea era semplice e potente: addestrare il modello a prevedere il token successivo all'interno di grandi corpus testuali e successivamente adattarlo a compiti specifici tramite fine-tuning. Questo approccio dimostrò che una rappresentazione linguistica generale poteva essere riutilizzata con successo in molte applicazioni diverse.
L'anno successivo arrivò GPT-2, che attirò grande attenzione per la qualità dei testi generati. Per la prima volta un modello linguistico mostrava capacità narrative e argomentative sufficientemente convincenti da suscitare discussioni sui possibili rischi di abuso. Sebbene le sue dimensioni fossero modeste rispetto agli standard attuali, GPT-2 evidenziò il potenziale dei modelli generativi su larga scala.
Il vero punto di svolta fu GPT-3, pubblicato nel 2020. Con 175 miliardi di parametri, il modello dimostrò che l'aumento delle dimensioni poteva produrre capacità emergenti inattese. GPT-3 riusciva a eseguire compiti per i quali non era stato addestrato esplicitamente, sfruttando pochi esempi forniti direttamente nel prompt. Questo fenomeno contribuì a rafforzare la convinzione che la crescita delle dimensioni rappresentasse il principale motore del progresso.
Parallelamente, OpenAI introdusse InstructGPT, un'evoluzione progettata per seguire meglio le istruzioni degli utenti. Il sistema utilizzava il Reinforcement Learning from Human Feedback (RLHF), una tecnica che integra valutazioni umane nel processo di ottimizzazione. L'obiettivo era rendere le risposte più utili, sicure e coerenti con le aspettative degli utenti.
Questa linea di ricerca culminò nel lancio di ChatGPT alla fine del 2022. Più che una semplice innovazione tecnica, ChatGPT rappresentò una svolta culturale. Per la prima volta milioni di persone poterono interagire direttamente con un modello linguistico avanzato attraverso un'interfaccia semplice e intuitiva. L'adozione rapidissima del servizio dimostrò che l'AI generativa era pronta per un utilizzo di massa.

Nel frattempo il panorama si stava ampliando. Meta pubblicò la famiglia LLaMA, dimostrando che modelli relativamente compatti potevano raggiungere prestazioni sorprendenti. Il rilascio dei pesi favorì una straordinaria crescita dell'ecosistema open source, accelerando la ricerca indipendente e lo sviluppo di applicazioni locali.
Successivamente emersero modelli come Mistral e Mixtral, caratterizzati da architetture efficienti e da un ottimo rapporto tra prestazioni e costo computazionale. Microsoft sviluppò la famiglia Phi, focalizzata sull'utilizzo di dati accuratamente selezionati piuttosto che sulla semplice crescita dimensionale. Google introdusse Gemma, mentre IBM rese disponibili i modelli Granite, orientati agli utilizzi aziendali e alla trasparenza del processo di sviluppo.
Questa evoluzione ha modificato profondamente il dibattito sugli LLM. Se nei primi anni la strategia dominante consisteva nell'aumentare continuamente le dimensioni dei modelli, oggi l'attenzione si sta spostando verso l'efficienza, la qualità dei dati, la specializzazione e la sostenibilità. I modelli più piccoli non vengono più considerati una semplice alternativa economica, ma una possibile direzione evolutiva dell'intero settore.
La storia degli LLM dimostra che il progresso dell'intelligenza artificiale non è il risultato di una singola innovazione. Comprendere questa evoluzione è essenziale per analizzare le sfide che il settore dovrà affrontare negli anni a venire, a partire da quella più urgente: il costo energetico della crescita degli LLM.

I limiti della crescita e la sfida energetica
Il successo dei Large Language Models è stato accompagnato da una convinzione che per alcuni anni ha guidato gran parte della ricerca nel settore: aumentando le dimensioni dei modelli, la quantità di dati utilizzati per l'addestramento e la potenza di calcolo disponibile, le prestazioni sarebbero migliorate in modo prevedibile. Questa idea è stata formalizzata nelle cosiddette scaling laws, studi che hanno analizzato il rapporto tra dimensione dei modelli e capacità di apprendimento.
Le ricerche condotte da OpenAI e successivamente da DeepMind hanno mostrato che l'aumento dei parametri produce effettivamente miglioramenti significativi in numerosi compiti linguistici. Per diversi anni questa evidenza ha spinto laboratori e aziende a costruire modelli sempre più grandi, dando origine a una competizione che ha portato alla nascita di sistemi con centinaia di miliardi di parametri.
Tuttavia, la crescita dimensionale ha rapidamente evidenziato un problema fondamentale: il costo. Addestrare un LLM richiede enormi quantità di energia, hardware specializzato e tempo di calcolo. I moderni cluster utilizzati per il training possono comprendere migliaia di GPU collegate tra loro da reti ad altissima velocità. Il consumo energetico di queste infrastrutture è paragonabile a quello di piccole comunità urbane e richiede sistemi di raffreddamento sempre più sofisticati.
Un contributo importante al dibattito arrivò nel 2022 con il modello Chinchilla sviluppato da DeepMind. I ricercatori dimostrarono che molti modelli erano stati addestrati utilizzando una quantità insufficiente di dati rispetto al numero di parametri. In altre parole, non era sempre conveniente aumentare le dimensioni della rete; in molti casi risultava più efficace utilizzare dataset più grandi e meglio bilanciati. Questo risultato contribuì a mettere in discussione l'idea che il progresso dipendesse esclusivamente dalla crescita dimensionale.

Parallelamente è emerso il concetto di Green AI, introdotto per promuovere una valutazione più ampia dei sistemi di intelligenza artificiale. Secondo questa prospettiva, l'accuratezza non dovrebbe essere l'unico criterio di giudizio. È necessario considerare anche il consumo energetico, i costi computazionali, la replicabilità degli esperimenti e l'impatto ambientale complessivo delle tecnologie sviluppate.
Il tema non riguarda soltanto l'addestramento. Anche l'inferenza, cioè l'utilizzo quotidiano dei modelli da parte degli utenti, richiede risorse significative. Ogni richiesta inviata a un chatbot attiva processi computazionali distribuiti all'interno di grandi datacenter. Con centinaia di milioni di utenti e miliardi di richieste giornaliere, il consumo energetico complessivo può diventare estremamente rilevante.
A questi aspetti si aggiungono ulteriori fattori. I datacenter richiedono sistemi di raffreddamento, infrastrutture di rete, apparati di alimentazione e continui aggiornamenti hardware. Inoltre, la produzione delle componenti elettroniche comporta l'utilizzo di materiali critici e processi industriali ad alta intensità energetica. L'impatto ambientale dell'intelligenza artificiale deve quindi essere valutato considerando l'intero ciclo di vita delle infrastrutture coinvolte.
Le implicazioni economiche sono altrettanto importanti. Soltanto poche organizzazioni dispongono delle risorse necessarie per addestrare modelli di frontiera. Questa concentrazione rischia di ridurre la diversità dell'ecosistema tecnologico e di aumentare la dipendenza da un numero limitato di fornitori. Per molte aziende e istituzioni, l'accesso alle tecnologie più avanzate avviene esclusivamente attraverso servizi cloud gestiti da grandi operatori internazionali.
Di fronte a queste sfide, il settore sta progressivamente cambiando prospettiva. Sempre più ricercatori ritengono che il futuro dell'AI non dipenderà soltanto dalla costruzione di modelli più grandi, ma dalla capacità di migliorare l'efficienza complessiva dei sistemi. L'obiettivo è ottenere prestazioni elevate riducendo il numero di parametri, il consumo energetico e il costo operativo.
La questione della sostenibilità non rappresenta quindi un ostacolo al progresso dell'intelligenza artificiale. Al contrario, potrebbe diventare il principale motore della sua prossima fase evolutiva. L'efficienza sta emergendo come una nuova metrica di innovazione, destinata ad affiancare e in alcuni casi a sostituire la semplice crescita della potenza computazionale.

La via dell’efficienza e dei modelli compatti
La crescente attenzione verso i costi energetici e computazionali degli LLM ha favorito la nascita di una nuova filosofia progettuale. Invece di inseguire esclusivamente la crescita delle dimensioni, molti gruppi di ricerca hanno iniziato a concentrarsi sulla qualità dei dati, sull'efficienza delle architetture e sull'ottimizzazione dell'addestramento.
Da questo approccio sono nati i cosiddetti Small Language Models (SLM), modelli più compatti progettati per operare con risorse limitate. L'obiettivo non è sostituire completamente i grandi modelli generalisti, ma offrire soluzioni più accessibili e sostenibili per specifici contesti applicativi.
Uno degli aspetti che ha contribuito maggiormente a questa evoluzione riguarda la qualità dei dataset. Per molti anni l'attenzione si è concentrata sulla raccolta di quantità sempre maggiori di testo proveniente dal Web. Con il tempo è emerso che la selezione accurata delle informazioni può produrre benefici comparabili o superiori all'aumento indiscriminato dei dati.
Dataset come Common Crawl, The Pile, RefinedWeb e FineWeb hanno introdotto procedure sempre più sofisticate di filtraggio, deduplicazione e controllo della qualità. Lo scopo è eliminare contenuti ridondanti, errori, spam e informazioni poco affidabili, migliorando l'efficacia dell'addestramento.

Un'altra tendenza significativa riguarda l'utilizzo di dati sintetici. Grazie agli stessi modelli linguistici è possibile generare nuovi esempi di addestramento, ampliare dataset esistenti e creare materiale specializzato per compiti specifici. Sebbene questa strategia richieda attenzione per evitare fenomeni di degrado della qualità, rappresenta uno strumento sempre più importante per la costruzione di modelli efficienti.
Un caso particolarmente interessante è rappresentato dalla famiglia Phi sviluppata da Microsoft. Questi modelli hanno dimostrato che dataset accuratamente selezionati e procedure di addestramento ottimizzate possono consentire a modelli relativamente piccoli di ottenere risultati competitivi rispetto a sistemi molto più grandi.

L'efficienza non riguarda soltanto l'addestramento iniziale. Tecniche di fine-tuning come LoRA (Low-Rank Adaptation) permettono di adattare modelli preaddestrati a nuovi compiti modificando soltanto una piccola parte dei parametri. Questo approccio riduce drasticamente i costi di personalizzazione e rende accessibile l'uso degli LLM anche a organizzazioni prive di grandi infrastrutture.
Successivamente sono emerse varianti ancora più efficienti, come QLoRA, che combinano fine-tuning e quantizzazione per ridurre ulteriormente il consumo di memoria. Queste tecniche consentono di lavorare con modelli avanzati utilizzando hardware relativamente economico.

Anche i metodi di allineamento stanno evolvendo rapidamente. Il Reinforcement Learning from Human Feedback ha svolto un ruolo fondamentale nello sviluppo dei chatbot moderni, ma richiede processi complessi e costosi. Approcci più recenti, come Direct Preference Optimization (DPO), cercano di ottenere risultati simili attraverso procedure più semplici e meno onerose dal punto di vista computazionale.
L'insieme di queste innovazioni suggerisce una conclusione importante. Le prestazioni di un modello non dipendono esclusivamente dal numero di parametri. La qualità dei dati, l'efficienza dell'architettura e le strategie di addestramento possono influenzare in modo determinante il risultato finale.
Questa consapevolezza sta contribuendo a ridefinire le priorità della ricerca. In questo nuovo contesto, modelli più piccoli e intelligenti potrebbero rappresentare una delle direzioni più promettenti per il futuro dell'intelligenza artificiale.

La conoscenza esterna e il paradigma RAG
Uno dei limiti fondamentali dei modelli linguistici riguarda la natura della loro memoria. Le informazioni apprese durante l'addestramento vengono incorporate nei parametri della rete neurale e non possono essere aggiornate facilmente senza eseguire nuove procedure di training. Questo rende difficile mantenere un modello costantemente allineato a dati recenti o specializzati.
Per affrontare questo problema è nata la Retrieval-Augmented Generation (RAG), una tecnica che combina modelli linguistici e sistemi di recupero delle informazioni. L'idea è semplice: invece di affidarsi esclusivamente alla conoscenza memorizzata nei parametri, il modello può consultare documenti esterni al momento della generazione della risposta.
Alla base di questo approccio si trovano gli embedding, rappresentazioni numeriche che trasformano parole, frasi o documenti in vettori matematici. Grazie a queste rappresentazioni è possibile confrontare semanticamente contenuti differenti e identificare quelli più pertinenti rispetto a una determinata richiesta.
I documenti vengono generalmente archiviati all'interno di database vettoriali come FAISS, Milvus o Qdrant. Quando un utente formula una domanda, il sistema ricerca i contenuti più rilevanti e li fornisce al modello come contesto aggiuntivo. In questo modo la risposta può basarsi su informazioni aggiornate senza modificare i parametri della rete neurale.
Un elemento cruciale del processo è il retrieval, ovvero la capacità di recuperare rapidamente i documenti più utili. La qualità di questa fase influisce direttamente sull'accuratezza delle risposte generate. Per migliorare ulteriormente i risultati vengono spesso utilizzati sistemi di reranking che rivalutano i documenti recuperati e ne selezionano una versione ottimizzata.

Dal punto di vista della sostenibilità, il RAG offre vantaggi particolarmente interessanti. Un modello relativamente piccolo può accedere a enormi basi documentali senza dover incorporare tutta la conoscenza nei propri parametri. Questo consente di ridurre le dimensioni della rete e il costo computazionale mantenendo elevata la qualità delle risposte.
La tecnica è oggi ampiamente utilizzata in contesti aziendali, dove l'accesso a documentazione interna aggiornata rappresenta un requisito fondamentale. Invece di addestrare continuamente nuovi modelli, le organizzazioni possono aggiornare semplicemente le basi documentali consultate dal sistema.
Questa integrazione rappresenta uno dei principali strumenti per costruire sistemi efficienti, aggiornabili e sostenibili.

Compressione, quantizzazione e architetture sparse
Con l'aumento delle dimensioni degli LLM, la compressione è diventata una delle aree di ricerca più importanti dell'intelligenza artificiale moderna. L'obiettivo è ridurre il costo computazionale senza compromettere in modo significativo le prestazioni del modello.
Una delle tecniche più diffuse è la quantizzazione. Normalmente i parametri di una rete neurale vengono rappresentati utilizzando numeri in virgola mobile ad alta precisione. La quantizzazione riduce il numero di bit necessari per memorizzare tali valori, consentendo di diminuire il consumo di memoria e accelerare l'inferenza. Formati come INT8, INT4 e più recentemente FP8 sono diventati strumenti fondamentali per l'esecuzione efficiente degli LLM.
Un approccio complementare è il pruning, che consiste nell'eliminazione dei pesi considerati meno rilevanti. Molte reti neurali contengono infatti una quantità significativa di parametri che contribuiscono in misura limitata al risultato finale. Rimuovendo questi elementi è possibile ridurre dimensioni e consumi mantenendo prestazioni comparabili.
La ricerca ha inoltre esplorato nuovi concetti. Nei modelli sparsi non tutti i parametri vengono utilizzati contemporaneamente durante il processo di inferenza. Questo consente di diminuire il numero effettivo di operazioni necessarie per generare una risposta, migliorando l'efficienza complessiva.
Tra le architetture più interessanti emerse negli ultimi anni figurano le Mixture of Experts (MoE). In questi sistemi il modello è composto da diversi sottoreti specializzate, chiamate esperti. Per ogni richiesta viene attivata soltanto una parte degli esperti disponibili, riducendo il carico computazionale pur mantenendo una capacità rappresentativa molto elevata.
Mixtral, sviluppato da Mistral AI, rappresenta uno degli esempi più noti di questa filosofia. Sebbene il numero totale di parametri sia elevato, soltanto una frazione viene utilizzata durante ogni fase di inferenza. Questo approccio offre un compromesso particolarmente efficace tra prestazioni e costi operativi.
L'importanza di queste tecniche va oltre il semplice miglioramento delle prestazioni. Compressione e ottimizzazione consentono infatti di eseguire modelli avanzati su workstation, server aziendali e persino dispositivi edge. Ciò favorisce la diffusione dell'intelligenza artificiale in contesti dove l'accesso a grandi infrastrutture cloud non è praticabile o desiderabile.

L’hardware riconfigurabile e il ritorno al silicio
Le GPU hanno svolto un ruolo fondamentale nella diffusione del deep learning. Originariamente progettate per l'elaborazione grafica, si sono rivelate estremamente efficaci nell'esecuzione delle operazioni matriciali necessarie alle reti neurali. Aziende come NVIDIA hanno costruito gran parte del proprio successo sulla crescente domanda di acceleratori per l'AI.
Accanto alle GPU sono emerse altre categorie di dispositivi specializzati. Le TPU sviluppate da Google rappresentano uno dei primi esempi di hardware progettato specificamente per il machine learning. Questi acceleratori consentono di ottenere elevata efficienza energetica in applicazioni particolari, soprattutto all'interno di infrastrutture cloud.
In questo panorama gli FPGA occupano una posizione peculiare. A differenza delle GPU, che possiedono un'architettura relativamente fissa, gli FPGA possono essere riconfigurati per implementare circuiti personalizzati. Questo permette di adattare l'hardware alle caratteristiche specifiche di un algoritmo.
La programmabilità degli FPGA è stata tradizionalmente considerata complessa, poiché richiedeva competenze di progettazione digitale e linguaggi hardware come Verilog o VHDL. Negli ultimi anni la situazione è cambiata grazie agli strumenti di High-Level Synthesis (HLS), che consentono di descrivere algoritmi utilizzando linguaggi più vicini alla programmazione tradizionale.
Aziende come AMD, dopo l'acquisizione di Xilinx, e Intel hanno investito significativamente nello sviluppo di ecosistemi dedicati all'AI. Strumenti come Vitis AI permettono di ottimizzare modelli neurali per l'esecuzione su FPGA, riducendo la distanza tra sviluppo software e implementazione hardware.
L'interesse verso queste soluzioni è particolarmente forte nel settore edge. In applicazioni industriali, sistemi embedded, robotica e Internet of Things, l'elaborazione locale offre vantaggi importanti in termini di latenza, sicurezza e affidabilità. In questi contesti l'efficienza energetica diventa spesso più importante della massima prestazione assoluta.
Il passaggio dall'algoritmo al silicio rappresenta quindi una delle trasformazioni più significative dell'AI contemporanea. La progettazione congiunta di software e hardware sta emergendo come uno dei principali strumenti per superare i limiti energetici e operativi delle architetture tradizionali.

Sovranità digitale e autonomia tecnologica
L'evoluzione degli LLM non è soltanto una questione tecnica. Le scelte relative alle infrastrutture, ai modelli e ai dati influenzano aspetti economici, sociali e geopolitici sempre più rilevanti. Per questo motivo il concetto di sovranità digitale è diventato uno dei temi centrali nel dibattito sull'intelligenza artificiale.

Molte organizzazioni utilizzano oggi servizi di AI ospitati nel cloud. Questo approccio offre vantaggi evidenti in termini di semplicità operativa e accesso a modelli avanzati, ma comporta anche una dipendenza significativa da fornitori esterni. I dati elaborati possono attraversare confini nazionali, essere soggetti a normative differenti o essere gestiti da infrastrutture sulle quali gli utenti finali hanno un controllo limitato.
La possibilità di eseguire modelli localmente rappresenta quindi una soluzione strategica per numerosi settori. Sanità, finanza, pubblica amministrazione, difesa e industria manifatturiera gestiscono spesso informazioni sensibili che richiedono elevati livelli di controllo e riservatezza. In questi contesti l'inferenza on-premise può ridurre i rischi associati alla trasmissione dei dati verso piattaforme esterne. L'ecosistema open source svolge un ruolo fondamentale in questa trasformazione. La disponibilità di modelli aperti consente a organizzazioni e ricercatori di studiare, modificare e adattare le tecnologie alle proprie esigenze. Questo favorisce l'innovazione e riduce la dipendenza da un numero ristretto di fornitori globali.
Anche il quadro normativo sta assumendo un'importanza crescente. L'Unione Europea, attraverso l'AI Act, ha introdotto una delle prime regolamentazioni organiche dedicate all'intelligenza artificiale. L'obiettivo è promuovere l'innovazione garantendo al tempo stesso trasparenza, sicurezza e tutela dei diritti fondamentali. In questo contesto, la possibilità di comprendere e controllare il funzionamento dei modelli acquisisce un valore strategico.

Parallelamente sta emergendo una nuova generazione di Small Language Models progettati per applicazioni specializzate. Questi sistemi dimostrano che molte attività possono essere svolte efficacemente senza ricorrere a modelli giganteschi. La combinazione di architetture compatte, tecniche di retrieval e ottimizzazione hardware rende possibile la realizzazione di soluzioni altamente efficienti.
Anche l'hardware continuerà a evolvere. Oltre agli FPGA stanno acquisendo importanza NPU, ASIC dedicati e acceleratori progettati specificamente per l'inferenza neurale. L'obiettivo comune è aumentare l'efficienza energetica e ridurre il costo computazionale delle applicazioni di AI.

La convergenza tra modelli più piccoli, dati di qualità, tecniche di compressione e hardware specializzato suggerisce una possibile direzione per il futuro. Invece di concentrare tutte le risorse in pochi sistemi enormi, l'intelligenza artificiale potrebbe evolvere verso un ecosistema distribuito composto da modelli specializzati, eseguibili localmente e integrati direttamente nei processi operativi delle organizzazioni.
In questa prospettiva la sostenibilità non rappresenta soltanto una necessità ambientale, ma un fattore abilitante dell'innovazione. Un'intelligenza artificiale più efficiente consuma meno risorse, riduce le barriere di accesso e rende possibile una diffusione più ampia delle tecnologie avanzate. La ricerca della frugalità computazionale potrebbe quindi diventare uno degli elementi distintivi della prossima fase evolutiva dell'AI.

Tags