OLMo - modelli efficienti con max 5T token

Giulio_M

Oggi assume sempre più importanza l'efficienza per i modelli di IA generativa (da un'attenta scelta dell'architettura - MoE sempre più diffusi rispetto ai dense model, aumentando il numero di parametri, allo sviluppo di IA verticale, distillazione, ecc).

AllenAI (Allen Institute per l'IA) è un'azienda americana con sede a Seattle, fondata nel 2014 da Paul Allen (deceduto nel 2018, era stato assieme al più noto Bill Gates, fondatore della Microsoft!). Fra i progetti più importanti dell'azienda c'è OLMo (letteralmente Open Language Models), ora in versione 3 (3.1 in data 12 dicembre 2025), modelli accessibili direttamente dal sito ufficiale allenai.org, anche senza login: ad oggi ci sono sei scelte, modelli 7B o 32B rispettivamente nelle versioni Base, Think, Instruct (prestazioni vs qualità), architettura dense model. Oltre ad avere la massima trasparenza (modello scaricabile e pesi, dati di addestramento e codice sorgente sono pubblici) e licenza Apache 2.0, un aspetto interessante è proprio l'efficienza: pochi parametri (7B o 32B) e relativamente pochi token per l'addestramento (massimo 5T ovvero 5000 miliardi di token - giusto per confronto, sebbene i dati non siano pubblici, GPT-5 si stima abbia 1700-1800B parametri e 70-100T token per l'addestramento... Poi ci si chiede L'Intelligenza Artificiale e i problemi di sostenibilità ambientale). Avendo raggiunto un buon livello di ottimizzazione, dal sito ufficiale allenai.org vediamo che Olmo 3 raggiunge ottimi punteggi nei benchmark, confronto con modelli open-source con numero simile di parametri (i modelli 32B superano anche i punteggi di Apertus, da 70B).

Caso di studio - esempio interazione con Olmo 3.1 32B Think

La mia domanda, piuttosto specifica, è stata la seguente:

[finanza e mercati] se osservo i rendimenti di indici nazionali (SP500, FTSE-MIB, FTSE-100, ecc) e noto, valori nominali, differenze significative fra il CAGR negli ultimi 5 anni e CAGR ultimi 10 anni, cosa è segno di un cambio di trend divergente (mercato stabilmente più performante o meno performante) piuttosto che una mean reversion (ciò che ha sovraperformato tende a calare il rendimento per tornare alla media di lungo termine e viceversa)? Principalmente quali altri indicatori (es. macroeconomici) dovrei considerare?

Senza riportare per intero la risposta del modello, piuttosto lunga, possiamo dire:

ottima nella struttura e contenuto ✔️ (l'analisi è ragionevole e anche Qwen-3-Max - per confronto <<The Qwen3-Max model has over 1 trillion parameters and was pretrained on 36 trillion tokens>> - ha evidenziato gli stessi punti, utile anche "practical steps for analysis", "esample scenarios", "key takeaway")
lingua sbagliata ❌ (il mio prompt è in lingua italiana, la risposta in lingua inglese, pazienza, probabilmente per modelli medio-piccoli la massima accuratezza si ottiene solo il lingua inglese)

Riporto la parte finale (riassuntiva, più importante) della risposta del modello:

Example Scenarios

Mean Reversion Case:
A market’s 5-year CAGR is 15% vs. 10-year CAGR of 8%, but this is driven by a speculative crypto boom. Valuations are extreme, and earnings growth has stagnated. → Likely mean reversion.

Structural Trend Case:
A market’s 5-year CAGR is 12% vs. 10-year CAGR of 6%, aligned with rising AI adoption, falling energy costs, and supportive government policies. Valuations are high but earnings are growing rapidly. → Structural shift.

Key Takeaway

The CAGR divergence alone is insufficient. Always ask:

Is this performance justified by sustainable fundamentals (earnings, innovation, demographics)?

Are the drivers reversible (e.g., temporary policy) or permanent (e.g., tech disruption)?

By combining CAGR analysis with macroeconomic and structural indicators, you can better distinguish between transient deviations and true trend shifts.

Considerata la grandezza del modello (relativamente piccola e addestrata in modo efficiente, database limitato, quindi scelto e ottimizzato - qualità vs quantità) i risultati sono sorprendentemente positivi. La domanda non era affatto semplice e la risposta del modello è valida, in linea con le valutazioni dei modelli top mondiali (Gemini-3-Pro, Qwen3-Max per comparazione, lieve precisione aggiuntiva, concetti base ugualmente trattati anche da Olmo 3.1).

Giulio_M

AllenAI: Olmo 3 vs Tülu 3

Vediamo dal sito ufficiale allenai.org le diverse famiglie di modelli di AllenAI (AI2):

Olmo 3 (evoluzione rispetto al precedente Olmo 2) è una famiglia di modelli di tipo dense-model, come abbiamo già visto, nelle varianti 32B-Base, 32B-Think, 32B-Instruct e rispettivamente anche per le versioni 7B; sul sito ufficiale si presenta così: <<Our latest and greatest open language model provides the most complete model pipeline ever released, allowing for infinite customizability and contextual understanding of how to create, modify, and deploy LLMs>>
Tülu 3: famiglia di dense-model ad alte prestazioni, focalizzata sul post-training mentre Olmo è più adatto ad una base che noi possiamo istruire ("designed for state-of-the-art performance on a diversity of tasks"); basato su Llama3 nelle dimensioni 8B, 70B, 405B; sul sito ufficiale si presenta così: <<Tülu 3 is a leading instruction following model family, offering fully open-source data, code, and recipes designed to serve as a comprehensive guide for modern post-training techniques>>
OLMoE: come suggerisce il nome, famiglia di MoE, non dense-model (<<OLMoE is the first mixture-of-experts model to join the OLMo family [...] OLMoE can be trained 2x faster than equivalent dense models>>); a seconda dell'obiettivo (interdisciplinarietà, dimensione del modello, qualità vs prestazioni...) può essere più conveniente un dense-model oppure un MoE, vedi architettura dell'IA

Vediamo delle immagini, tratte dal sito ufficiale allenai.org, che mostrano i vari benchmark nei test indicati. Al momento della pubblicazione (come spesso accade) questi modelli hanno superato le performance di altri modelli simili per dimensione.

Benchmark: Olmo 3.1 32B Instruct vs open peers

Benchmark: Olmo 3.1 32B Instruct vs open peers (fonte immagine: allenai.org)

Benchmark: Tülu 3 8/70B vs open peers

Benchmark: Tülu 3 8/70B vs open peers (fonte immagine: allenai.org)

Benchmark: Tülu 3 405B vs peers

Tülu 3 405B vs peers

Fondatori