La Rivoluzione delle Architetture Logiche

Come siamo passati da una CPU universale a processori specializzati — e perché questa frattura è potere

CPU: Settant’anni di stabilità, dieci anni di rivoluzione

Dal 1945 al 2005, il computing è stato dominato da un’unica architettura fondamentale: la CPU (Central Processing Unit) basata sul modello stored-program. Per sessant’anni, ogni miglioramento è arrivato facendo la stessa cosa meglio e più velocemente: più transistor, frequenze più alte, cache più grandi. Questo modello ha funzionato. Ha colonizzato il mondo.

Poi, tra il 2005 e il 2015, è successo qualcosa di irreversibile: l’emergere di architetture radicalmente diverse. GPU che processano migliaia di operazioni in parallelo. TPU progettate per moltiplicazioni matriciali. NPU ottimizzate per inferenza edge. LPU che eliminano il non-determinismo per velocità estrema.

Questa non è una storia di progresso lineare. È una storia di crisi: quando le vecchie soluzioni smettono di funzionare, il sistema si reinventa — e nella reinvenzione si concentra potere.


L’era della CPU universale (1945–2005)

Gli inventori dimenticati delle CPU: Eckert e Mauchly

La storia inizia nel 1945, alla Moore School of Electrical Engineering dell’Università della Pennsylvania. J. Presper Eckert e John Mauchly avevano appena completato l’ENIAC: il primo computer digitale elettronico su scala reale, grande come una stanza.

La loro idea rivoluzionaria: invece di “programmare” la macchina riconfigurando cavi, perché non memorizzare i programmi nella stessa memoria dei dati? Il concetto stored-program è il fondamento del computing moderno. John von Neumann documentò queste idee nel “First Draft of a Report on the EDVAC” (1945): il documento circolò, e l’architettura divenne “von Neumann”. Un classico: lavoro collettivo attribuito a chi ha più prestigio.

L’architettura: potenza e limite delle CPU tradizionali

  • Memoria unificata: programmi e dati nello stesso spazio
  • Unità di controllo: coordina l’esecuzione
  • ALU: esegue operazioni aritmetico-logiche
  • Input/Output: interfaccia con il mondo esterno

La separazione tra processore e memoria, connessi da un bus, è geniale e disastrosa allo stesso tempo: flessibilità totale, ma anche dipendenza dal movimento dei dati. È qui che nasce il bottleneck.

Il bottleneck: il prezzo della generalità

Nel 1977, John Backus (Turing Award) lo dice chiaramente: il problema non è calcolare, è spostare. Il calcolo è velocissimo; l’attesa della memoria è la tassa strutturale dell’architettura universale.

Le “leggi magiche” delle CPU: Moore e Dennard (1965–2005)

Per quarant’anni, l’industria ha evitato il collasso con lo scaling tecnologico: Legge di Moore (più transistor) e Dennard Scaling (più piccoli = meno potenza). È stato il “free lunch” del computing: bastava aspettare.

Intel 4004 (1971): 2.300 transistor, 740 KHz · Pentium (1993): 3,1 milioni, 60 MHz · Pentium 4 (2000): 42 milioni, 1,5 GHz

2005: la crisi — la “Heat Wall” delle CPU

Intorno al 2005, le frequenze si fermano. Non per mancanza di idee, ma per fisica. Il Dennard Scaling collassa: aumentare clock significa surriscaldamento. È la power wall. Il modello della CPU universale raggiunge un limite non negoziabile.

 dalla CPU universale al muro termico del 2005 (heat wall), con bus memoria e colli di bottiglia evidenziati - design by cybermediateinment
Suggerimento immagine 1: “CPU era universale → il muro termico impone la frammentazione”.

La soluzione temporanea: CPU multi-core (2005–2010)

Se non possiamo rendere un core più veloce, mettiamo più core. Ma il parallelismo non è gratis: il software deve essere riscritto, e la Legge di Amdahl mette un limite teorico all’accelerazione. E mentre aumentano i transistor, compare il dark silicon: porzioni del chip che devono restare spente per vincoli termici.


La scoperta del parallelismo — l’era GPU (2006–2012)

2006: NVIDIA cambia il gioco

NVIDIA fa una mossa strategica: trasforma un processore grafico in motore di computing parallelo. Le GPU sono architetturalmente opposte alle CPU: meno controllo sofisticato, più throughput massivo. Pochi core “intelligenti” contro migliaia di core “semplici”.

Il momento “Aha”: moltiplicazione matriciale

Grafica 3D e deep learning condividono lo stesso cuore: moltiplicazioni matriciali massive. Quando la comunità dimostra che le GPU accelerano l’addestramento, il punto non è “più veloce”: è “improvvisamente possibile”.

CUDA: l’ecosistema che crea un monopolio

La mossa decisiva si chiama CUDA (2006): programmare GPU diventa accessibile, ma con una condizione: l’ecosistema è proprietario e funziona solo su NVIDIA. È qui che il vantaggio tecnico si trasforma in rendita strutturale.

2012: AlexNet — l’esplosione

AlexNet vince ImageNet e inaugura l’era del deep learning pratico. Il training su GPU diventa standard. Ma ciò che si consolida non è solo una tecnologia: è una dipendenza industriale dall’interfaccia software.


Google e la crisi dell’inferenza — l’era TPU (2013–2024)

2013: il calcolo che spaventa Google

Se ogni servizio di scala planetaria integra reti neurali, i datacenter esplodono. Le GPU sono ottime per training, ma l’inferenza (milioni di richieste, una alla volta) è un altro regime: latenza, efficienza, costo operativo.

TPU v1: specializzazione assoluta

Google costruisce un ASIC dedicato: la TPU. Architettura chiave: systolic array. L’idea è brutale: riuso dei dati, minimizzazione degli accessi alla memoria durante il calcolo. È la risposta diretta al vero nemico: la memoria, non l’ALU.

Visual: systolic array e flusso dati on-chip, confronto tra accessi memoria in CPU/GPU e calcolo in TPU
Suggerimento immagine 2: “Systolic array: far scorrere i dati, non inseguirli in memoria”.

l’ecosistema batte la performance

Anche quando l’hardware è competitivo o superiore, l’adozione dipende dall’ecosistema. CUDA domina la formazione, i framework, le librerie, il mercato del lavoro. Il controllo dello strato software decide più dell’hardware.


AI al confine delle CPU — l’era NPU (2014–presente)

Training nel cloud, inferenza ovunque

L’AI deve vivere su smartphone, laptop, IoT, auto. Una GPU discreta consuma troppo. La risposta è la NPU: accelerazione integrata, low power, low precision, inferenza real-time. L’AI diventa ubiqua — e invisibile.


Capitolo 5: Il problema sequenziale — l’era LPU (2024–presente)

LLM: un token alla volta

I Large Language Models generano testo in modo autoregressivo: token n+1 dipende da token n. È un workload strutturalmente sequenziale. Su GPU, l’inferenza diventa memory-bound: l’hardware aspetta i dati più di quanto calcoli.

LPU: determinismo come arma

L’idea LPU: togliere “intelligenza” all’hardware e mettere controllo nel compilatore. Scheduling statico, riduzione del non-determinismo, minimizzazione degli accessi memoria. È specializzazione estrema: efficienza e latenza, in cambio di flessibilità.


Cinque architetture, una divisione del lavoro

ArchitetturaOttimizzata perPunti forzaLeaderDove
CPUControl flow, carichi irregolariFlessibilità, low-latencyIntel, AMD, ARMOvunque
GPUTraining AI, parallelismo massiccioThroughput, ecosistema maturoNVIDIADatacenter, workstation
TPUTraining large-scale, inferenza batchEfficienza, integrazione stackGoogleCloud/servizi interni
NPUInferenza edge, mobile AIPotenza ridotta, on-deviceApple, Qualcomm, SamsungSmartphone, laptop, IoT
LPUInferenza LLM real-timeDeterminismo, bassa latenzaGroq (ecosistemi dedicati)Servizi di inferenza

Architetture logiche: specializzazione = efficienza, ma anche concentrazione

Ogni transizione risolve un bottleneck specifico. Ma ogni soluzione, quasi sempre, sposta potere: verso chi controlla l’interfaccia (software), la produzione (fonderie), e l’ecosistema (formazione + librerie + toolchain). La specializzazione non è solo ingegneria. È politica industriale.

CUDA come rendita tecnologica

L’egemonia non si misura solo in TFLOPS. Si misura in costi di migrazione, in dipendenze, in lock-in. Quando una piattaforma diventa “l’università”, “lo standard” e “il mercato del lavoro”, l’hardware è solo la faccia visibile del potere.

Il chokepoint produttivo

I chip avanzati richiedono nodi produttivi e macchine che esistono in pochissimi luoghi. L’infrastruttura computazionale diventa un single point of failure geopolitico. Non è un dettaglio: è una condizione strutturale del futuro digitale.

Conclusioni: verso quale futuro?

In settant’anni siamo passati da una CPU universale a un ecosistema fratturato di acceleratori. Ogni frattura aumenta efficienza, ma riduce controllo distribuito. La conoscenza è prodotta collettivamente; il controllo tende a concentrarsi privatamente.

Decode. Resist. Reclaim.

Articoli simili