Small vs. Large LLMs: Why Size Isn't Everything

Luca Reverberi

June 7, 2026

Comparison of Small and Large LLMs: Training Data Optimization for Italian SMEs — SHM Studio Milano

The problem that no one had formalized until now
Architettura del problema: come l'interferenza distrugge la memoria rara
Casi d'uso PMI: quando il modello "dimentica" ciò che serve davvero
The solution: optimize the data before scaling the model
Trade-offs to consider before choosing
What this study changes in the evaluation of models
The recommended decision for Italian SMEs

Un recente studio ha identificato il meccanismo preciso che impedisce ai modelli linguistici di piccole dimensioni di acquisire competenze rare. Il problema non è la capacità computazionale in senso assoluto. Infatti, i task frequenti sovrascrivono continuamente ciò che il modello ha imparato sui task meno comuni. Questo fenomeno è stato osservato su modelli tra 4 milioni e 4 miliardi di parametri.

La scoperta più rilevante riguarda la soluzione proposta. Invece di scalare il modello verso dimensioni maggiori, è sufficiente aumentare la frequenza con cui il task target appare nei dati di addestramento. Pertanto, le PMI che valutano l’adozione di modelli AI non devono necessariamente orientarsi verso soluzioni enterprise costose. Una strategia di training data ben calibrata può compensare la differenza dimensionale.

We of SHM Studio monitoriamo questa evoluzione con attenzione. Le implicazioni operative per le aziende italiane sono concrete: scegliere un LLM non significa solo confrontare parametri, ma comprendere come è stato addestrato e su quali dati. In questa prospettiva, SHM Studio supporta le PMI nella valutazione e nell’integrazione di soluzioni AI adatte al loro contesto specifico, evitando investimenti sovradimensionati rispetto alle reali necessità.

The problem that no one had formalized until now

Per anni, la narrativa dominante nel settore AI ha sostenuto un principio apparentemente intuitivo: modelli più grandi producono risultati migliori. Tuttavia, questa affermazione nasconde una meccanica interna che fino a poco tempo fa restava opaca. Un nuovo studio, pubblicato e analizzato da The Decoder, ha finalmente identificato il meccanismo preciso alla base di questa disparità.

I ricercatori hanno analizzato modelli con un range di parametri che va da 4 milioni a 4 miliardi. In questo intervallo, hanno osservato un fenomeno sistematico. I task frequenti nel corpus di addestramento sovrascrivono continuamente le rappresentazioni apprese per i task rari. Di conseguenza, i modelli piccoli non falliscono per mancanza di capacità assoluta, ma per un problema strutturale di interferenza tra segnali ad alta e bassa frequenza.

Questo cambia radicalmente la prospettiva con cui le aziende dovrebbero valutare i modelli linguistici. Infatti, la domanda non è più soltanto “quanti parametri ha questo modello?”. La domanda corretta diventa: “su quali dati è stato addestrato e con quale distribuzione di frequenza?”.

Architettura del problema: come l’interferenza distrugge la memoria rara

Per comprendere il meccanismo, è utile partire da come un LLM apprende durante il training. Il modello aggiorna i propri pesi a ogni iterazione, cercando di minimizzare l’errore su tutti i task presenti nel dataset. Pertanto, i task che appaiono con maggiore frequenza generano gradienti più forti e più costanti.

I task rari, al contrario, producono aggiornamenti sporadici. Ogni volta che un task frequente viene processato, i pesi si spostano in una direzione che può essere incompatibile con quanto appreso in precedenza sul task raro. Questo fenomeno è noto in letteratura come catastrophic forgetting, ma lo studio in questione ne ha precisato la dinamica in modo più granulare.

Nei modelli di grandi dimensioni, questo problema si attenua naturalmente. Infatti, la capacità parametrica maggiore consente di allocare rappresentazioni più stabili anche per i task a bassa frequenza. Tuttavia, la soluzione non richiede necessariamente di aumentare i parametri. Aumentare la frequenza con cui il task target appare nel training data produce un effetto analogo, a costo computazionale significativamente inferiore.

This distinction has direct implications for those designing fine-tuning pipelines on open-source models or evaluating AI solutions for specific contexts. To delve deeper into the technical foundations of applied deep learning, MIT Technology Review offers an authoritative editorial perspective on these developments.

Casi d’uso PMI: quando il modello “dimentica” ciò che serve davvero

Per una PMI italiana che opera in ambito B2B o retail, questo problema si manifesta in scenari molto concreti. Si consideri un’azienda che utilizza un LLM per automatizzare la risposta alle richieste di assistenza. I messaggi di routine — richieste di informazioni su prezzi, orari, disponibilità — sono frequenti e il modello li gestisce bene. Tuttavia, le richieste tecniche complesse o i reclami strutturati vengono gestiti in modo incoerente.

Questo non è necessariamente un problema di intelligenza del modello. È, molto probabilmente, un problema di distribuzione dei dati di addestramento. I task complessi erano sottorappresentati nel corpus originale. Di conseguenza, il modello non ha consolidato le rappresentazioni necessarie per affrontarli in modo affidabile.

Analogamente, un’azienda che utilizza un LLM per la generazione di contenuti SEO potrebbe riscontrare risultati eccellenti per categorie di prodotto ad alto volume e risultati mediocri per nicchie specifiche. Anche in questo caso, la causa probabile è la frequenza di esposizione durante il training. Noi di SHM Studio osserviamo questo pattern con regolarità nelle valutazioni che conduciamo per i nostri clienti.

Per chi gestisce campagne digitali integrate, la qualità dell’output AI influenza direttamente la performance di strumenti come le Google Ads campaigns o le attività di SEO copywriting. Pertanto, comprendere le limitazioni strutturali dei modelli scelti non è un esercizio accademico, ma una necessità operativa.

The solution: optimize the data before scaling the model

Lo studio propone una soluzione elegante nella sua semplicità. Prima di investire in modelli più grandi, è opportuno verificare se il problema può essere risolto intervenendo sulla distribuzione dei dati di training. In pratica, questo significa aumentare la frequenza con cui i task target appaiono nel dataset di fine-tuning.

Questa strategia ha vantaggi evidenti in termini di costi. I modelli di grandi dimensioni richiedono infrastrutture computazionali significative, sia per il training che per l’inference. Al contrario, un fine-tuning mirato su un modello compatto, con un dataset opportunamente bilanciato, può raggiungere performance comparabili su task specifici a una frazione del costo.

Tuttavia, questa soluzione non è universale. Esistono task per i quali la capacità parametrica è genuinamente necessaria. Il ragionamento multi-step complesso, la gestione di contesti molto lunghi e alcune forme di generalizzazione zero-shot beneficiano in modo diretto di modelli più grandi. Pertanto, la scelta tra modello piccolo ottimizzato e modello grande rimane dipendente dal contesto applicativo.

Per le PMI, il consiglio operativo è quello di iniziare sempre con un’analisi della distribuzione dei task reali che il modello dovrà affrontare. Questa analisi preliminare consente di calibrare correttamente la strategia di training e di evitare investimenti sovradimensionati. Ricerche di McKinsey confermano che la maggior parte delle aziende sovrastima la complessità dei modelli necessari per i propri use case effettivi.

Trade-offs to consider before choosing

The choice between an optimized compact model and a large model isn't solely about performance. There are at least three dimensions of trade-offs worth considering.

Inference cost Large models require dedicated hardware or pay-as-you-go APIs with variable costs. Small models can run on-premise or on inexpensive cloud infrastructure.
Latency: per applicazioni real-time — chatbot, assistenti integrati in e-commerce, strumenti di supporto vendite — la latenza di risposta è critica. I modelli compatti offrono tempi di risposta inferiori.
Dataset maintenance The data frequency optimization strategy requires continuous curation effort. This cost must be explicitly budgeted.

Oltre a questo, va considerata la dipendenza da fornitori terzi. Chi utilizza API di modelli proprietari non ha controllo sulla distribuzione dei dati di training originale. In questi casi, la personalizzazione tramite fine-tuning o prompt engineering rappresenta l’unica leva disponibile. Per approfondire le strategie di adozione AI in contesti aziendali, i SHM Studio AI Services They offer a structured starting point.

What this study changes in the evaluation of models

Prima di questa ricerca, la valutazione di un LLM per uso aziendale si basava principalmente su benchmark generici. Questi benchmark misurano la performance media su un insieme ampio di task. Tuttavia, per un’azienda con use case specifici, la performance media è una metrica parzialmente fuorviante.

Ciò che conta è la performance sui task effettivamente rilevanti per il business. Dunque, la metodologia corretta prevede di costruire un benchmark interno, rappresentativo dei task reali, e di valutare i modelli su quella base. Solo in questo modo è possibile identificare se il problema è parametrico o se è risolvibile tramite ottimizzazione dei dati.

In sintesi, lo studio sposta il focus dalla dimensione del modello alla qualità e alla distribuzione dei dati. Questa è una buona notizia per le PMI, che raramente dispongono di budget per modelli enterprise. Significa che con una strategia di training data ben progettata, è possibile ottenere risultati competitivi anche con modelli accessibili.

Per chi gestisce attività di digital marketing o SEO, questa prospettiva apre scenari concreti di automazione intelligente senza necessità di infrastrutture complesse. Le nostre attività di web development integrano già logiche di questo tipo nella progettazione di interfacce AI-assisted.

The recommended decision for Italian SMEs

Alla luce di quanto analizzato, la raccomandazione per una PMI italiana che valuta l’adozione o l’aggiornamento di soluzioni basate su LLM è articolata in tre passaggi.

Prima di tutto, è necessario mappare con precisione i task che il modello dovrà gestire, distinguendo tra task frequenti e task rari ma critici. In seguito, occorre verificare se i modelli candidati sono stati addestrati su distribuzioni di dati compatibili con quei task. Infine, prima di optare per modelli di grandi dimensioni, è opportuno testare se un fine-tuning mirato su un modello compatto, con dataset opportunamente bilanciato, produce risultati sufficienti.

Questo approccio consente di contenere i costi senza rinunciare alla qualità operativa. Per le aziende che vogliono approfondire queste valutazioni, il team di SHM Studio è disponibile per una consulenza strutturata. È possibile contattarci tramite la pagina contacts to explore our blog For further insights into AI and digital strategy.

Per chi gestisce anche attività su piattaforme social, vale la pena considerare come l’AI si integra con strumenti come le LinkedIn campaign, dove la personalizzazione dei contenuti è un fattore competitivo crescente.

News Categories

Discover other articles that explore similar topics in depth, selected to give you a more complete and stimulating view. Each piece of content is carefully chosen to enrich your experience.