Indigo.ai - Chatbot Arena Made in Italy

Giulio_M

Un grande risultato italiano, l'azienda italiana Indigo.ai (acquisita per il 60% dl gruppo Vedrai S.p.A.) ha ora ottenuto 10 milioni di euro di finanziamento e ha presentato una piattaforma molto interessante, analoga a Chatbot Arena - LMSYS, ma Made in Italy! Raggiungibile all'indirizzo indigo.ai/it/chatbot-arena-italia.

Oltre a qualche chatbot generico (abbiamo i soliti GPT-4o, Gemini-2.0, DeepSeek, Mistral, Claude, ecc) abbiamo anche la possibilità di testare modelli italiani, fra cui LLaMAntino3, Maestrale-chat-v0.4, Modello-Italia-9B, Velvet-14B. Nell'attuale classifica, il primo italiano (a livello di vlautazione generale) è Maestrale-chat-v0.4, seguito decisamente più sotto da LLaMAntino3, poi gli altri.

Vediamo un rapido test, fra Maestrale-chat-v0.4 e LLaMAntino3. Il primo è un modello tratto da Mistral 7B, con training per la lingua italiana; il secondo è tratto da Llama3 8B, multilingua Italiano e Inglese, con maggior training per la lingua italiana.

Fisica, relatività ristretta, spaziotempo di Minkowski: "un oggetto si muove a velocita' 0.8 c rispetto ad un osservatore che si considera in quiete. Quanto sono inclinati gli assi del sistema dell'oggetto in movimento, rispetto agli assi del sistema dell'osservatore?". Io ho calcolato beta=0,8 e gamma=1,667. Come devo procedere?

La domanda, tratta da Miglior chatbot per la matematica, in cui ChatGPT con GPT-4o aveva risposto correttamente, gli altri avevano avuto più difficoltà.

Dai, diciamo risultato discreto, non avevo troppe pretese. GPT-4o era l'unico ad aver risposto in modo perfetto ma ribadiamo che si tratta di un modello da 1760 parametri, questi due ne hanno rispettivamente 7 e 8. Entrambi i modelli impostano il problema, è stato migliore Maestrale-chat-v0.4 dato che ha calcolato correttamente i parametri β e γ; poi il risultato finale θx e θt nessuno dei due lo ha fornito correttamente (Maestrale-chat-v0.4 ha sbagliato risultato, LLaMAntino3 ha solo riportato le formule, corrette.

Una curiosità riguardo al Tone of Voice: Maestrale-chat-v0.4 risponde come un classico chatbot, inizia ad impostare il problema; LLaMAntino3 è molto più informale, esordisce con: <<Finalmente! Hai calcolato giusto β [...] Ora, devo dire che non c'entra nulla la gamma con l'inclinazione degli assi>>.

Da segnalare queste due cose:

il layout delle formule risulta sfasato, questo accade anche su Chatbot Arena - LMSYS (si tratta di un'integrazione ed è possibile che ci siano piccoli bug di questo tipo)
il tempo di caricamento (per questi modelli) è stato eterno! Forse la complessità della domanda o forse (più probabile) l'uso di risorse attualmente messo a disposizione, per avere la risposta di entrambi i chatbot sono passati alcuni minuti

Passiamo ora ad un'altra domanda, ambito programmazione.

HTML: come integreresti al meglio nella pagina (lato UX e best-practices di programmazione) un elemento tramite <model-viewer>?

Dopo una lunga attesa di diversi minuti, LLaMAntino3 risponde <<NETWORK ERROR DUE TO HIGH TRAFFIC>> (come prevedibile, il sistema sarà sovraccarico, troppo traffico e poche risorse a disposizione). Maestrale-chat-v0.4 invece ha risposto con un elenco puntato, liste e sottoliste, una panoramica generale di consigli effettivamente utili, ha centrato il punto. Risultato positivo.

infine una domanda al di fuori dell'Italiano, lingua giapponese.

Riesci a tradurre in italiano questo testo? e quali alfabeti compaiono? ダイキンの製品・サービス

Sempre dopo una lunga attesa, LLaMAntino3 risponde ancora <<NETWORK ERROR DUE TO HIGH TRAFFIC>> mentre Maestrale-chat-v0.4 ha risposto correttamente, identificando l'alfabeto Katakana (non ha specificato i caratteri Kanji), ha comunque compreso che si tratta di "prodotti e servizi Daikin", unica sottigliezza, ha sbagliato a scrivere il nome dell'azienda come Dyckin al posto di Daikin. Da migliorare, ma già disceto.

Come primo test mi fermo qui, anche vista l'attuale lentezza del sistema,che sicuramente dovrà essere scalato con l'aumentare dell'utenza, è interessante comunque vedere che dei modelli piccolini (7B, 8B) producano risultati complessivamente soddisfacenti. Quindi un voto positivo per l'IA made in Italy, sicuramente molto migliore rispetto a quello che era stato il debutto italiano di Dante AI. La piattaforma Chatbot Arena in definitiva è un sistema molto utile per testare nuovi modelli, singolarmente o anche per comparare contemporaneamente il risultato fra due diversi chatbot.

Vediamo infine uno screenshot di come appare Indigo.ai - Chatbot Arena Italia.
indigo-ai-chatbot-arena

Giulio_M

Chatbot Arena Italia (indigo.ai) chiude i battenti

Ecco l'avviso che compare sul sito ufficiale.

⚠️ ATTENZIONE: Questa piattaforma verrà chiusa definitivamente il 31 gennaio 2026.

Lo spostamento della comunità AI verso il closed source ha portato a una diminuzione dei modelli rilasciati specifici all'italiano, facendo venir meno lo scopo principale della piattaforma: confrontare e valutare modelli ottimizzati per la lingua italiana. Ringraziamo tutti gli utilizzatori che hanno contribuito fino ad oggi alla leaderboard di Chatbot Arena Italia.

Purtroppo dobbiamo semplicemente prenderne atto. Che dire, in realtà la piattaforma non ha mai sfondato, i modelli proposti erano obsoleti (a gennaio 2026, nella leaderboard il numero uno è Gemini 2 Pro seguito da o1-mini, e questo sarebbe "il top"). I modelli specifici per la lingua italiana, sebbene apprezzabile l'idea, nella pratica risultavano poco utili (per qualunque domanda, un qualunque tool gratuito, diciamo ChatGPT o Gemini in versione flash/mini, risponde in modo molto più accurato rispetto a questi modelli). Il fatto che la comunità AI si stia spostando verso il "closed source" è vero solo in parte, anche con licenza Apache 2.0, MIT, sono disponibili vari modelli (famiglia DeepSeek, Qwen, Mistral...), diciamo comunque che gli attuali modelli presenti non erano il top dell'open-source, in ogni caso.

Sicuramente quindi, dopo la chiusura di questo progetto, a maggior ragione dobbiamo tornare a LMArena, ampiamente il numero uno al mondo in questo campo.

Fondatori