Un grande risultato italiano, l'azienda italiana Indigo.ai (acquisita per il 60% dl gruppo Vedrai S.p.A.) ha ora ottenuto 10 milioni di euro di finanziamento e ha presentato una piattaforma molto interessante, analoga a Chatbot Arena - LMSYS, ma Made in Italy! Raggiungibile all'indirizzo indigo.ai/it/chatbot-arena-italia.

Oltre a qualche chatbot generico (abbiamo i soliti GPT-4o, Gemini-2.0, DeepSeek, Mistral, Claude, ecc) abbiamo anche la possibilità di testare modelli italiani, fra cui LLaMAntino3, Maestrale-chat-v0.4, Modello-Italia-9B, Velvet-14B. Nell'attuale classifica, il primo italiano (a livello di vlautazione generale) è Maestrale-chat-v0.4, seguito decisamente più sotto da LLaMAntino3, poi gli altri.

Vediamo un rapido test, fra Maestrale-chat-v0.4 e LLaMAntino3. Il primo è un modello tratto da Mistral 7B, con training per la lingua italiana; il secondo è tratto da Llama3 8B, multilingua Italiano e Inglese, con maggior training per la lingua italiana.

Fisica, relatività ristretta, spaziotempo di Minkowski: "un oggetto si muove a velocita' 0.8 c rispetto ad un osservatore che si considera in quiete. Quanto sono inclinati gli assi del sistema dell'oggetto in movimento, rispetto agli assi del sistema dell'osservatore?". Io ho calcolato beta=0,8 e gamma=1,667. Come devo procedere?

La domanda, tratta da Miglior chatbot per la matematica, in cui ChatGPT con GPT-4o aveva risposto correttamente, gli altri avevano avuto più difficoltà.

Dai, diciamo risultato discreto, non avevo troppe pretese. GPT-4o era l'unico ad aver risposto in modo perfetto ma ribadiamo che si tratta di un modello da 1760 parametri, questi due ne hanno rispettivamente 7 e 8. Entrambi i modelli impostano il problema, è stato migliore Maestrale-chat-v0.4 dato che ha calcolato correttamente i parametri β e γ; poi il risultato finale θx e θt nessuno dei due lo ha fornito correttamente (Maestrale-chat-v0.4 ha sbagliato risultato, LLaMAntino3 ha solo riportato le formule, corrette.

Una curiosità riguardo al Tone of Voice: Maestrale-chat-v0.4 risponde come un classico chatbot, inizia ad impostare il problema; LLaMAntino3 è molto più informale, esordisce con: <<Finalmente! Hai calcolato giusto β [...] Ora, devo dire che non c'entra nulla la gamma con l'inclinazione degli assi>>.

Da segnalare queste due cose:

  • il layout delle formule risulta sfasato, questo accade anche su Chatbot Arena - LMSYS 8si tratta di un'integrazione ed è possibile che ci siano piccoli bug di questo tipo)
  • il tempo di caricamento è stato eterno! Forse la complessità della domanda o forse (più probabile) l'uso di risorse attualmente messo a disposizione, per avere la risposta di entrambi i chatbot sono passati alcuni minuti

Passiamo ora ad un'altra domanda, ambito programmazione.

HTML: come integreresti al meglio nella pagina (lato UX e best-practices di programmazione) un elemento tramite <model-viewer>?

Dopo una lunga attesa di diversi minuti, LLaMAntino3 risponde <<NETWORK ERROR DUE TO HIGH TRAFFIC>> (come prevedibile, il sistema sarà sovraccarico, troppo traffico e poche risorse a disposizione). Maestrale-chat-v0.4 invece ha risposto con un elenco puntato, liste e sottoliste, una panoramica generale di consigli effettivamente utili, ha centrato il punto. Risultato positivo.

infine una domanda al di fuori dell'Italiano, lingua giapponese.

Riesci a tradurre in italiano questo testo? e quali alfabeti compaiono? ダイキンの製品・サービス

Sempre dopo una lunga attesa, LLaMAntino3 risponde ancora <<NETWORK ERROR DUE TO HIGH TRAFFIC>> mentre Maestrale-chat-v0.4 ha risposto correttamente, identificando l'alfabeto Katakana (non ha specificato i caratteri Kanji), ha comunque compreso che si tratta di "prodotti e servizi Daikin", unica sottigliezza, ha sbagliato a scrivere il nome dell'azienda come Dyckin al posto di Daikin. Da migliorare, ma già disceto.

Come primo test mi fermo qui, anche vista l'attuale lentezza del sistema,che sicuramente dovrà essere scalato con l'aumentare dell'utenza, è interessante comunque vedere che dei modelli piccolini (7B, 8B) producano risultati complessivamente soddisfacenti. Quindi un voto positivo per l'IA made in Italy, sicuramente molto migliore rispetto a quello che era stato il debutto italiano di Dante AI. La piattaforma Chatbot Arena in definitiva è un sistema molto utile per testare nuovi modelli, singolarmente o anche per comparare contemporaneamente il risultato fra due diversi chatbot.

Vediamo infine uno screenshot di come appare Indigo.ai - Chatbot Arena Italia.
indigo-ai-chatbot-arena

Powered by: FreeFlarum.
(remove this footer)