Chatbot Arena - testare modelli IA online, classifica e confronto

Giulio_M

Chatbot Arena (ex LMSYS), sito ufficiale lmarena.it è un servizio molto interessante, con queste funzionalità:

Arena (battle): inseriamo il nostro prompt e random vengono proposti due modelli: possiamo anche scegliere quale dei due ha fornito la risposta complessivamente migliore, infuenzando quindi poi la classifica generale fatta dagli utenti; per non influenzare l'eventuale valutazione, il nome del modello viene rivelato solo dopo aver votato
Arena (side-by-side): analogo al precedente ma possiamo scegliere i due modelli anziché trovarli scelti in modo random
Direct Chat: Arena è una "sfida" fra due modelli, Direct Chat invece è il modo migliore per testare uno dei modelli presenti; ad esempio, con il nuovo release del cinese DeepSeek-R1 che ha sconvolto i mercati USA, possiamo testare anche questo modello
Leaderboard: dalla modalità Arena, gli utenti possono scegliere quale modello ha fornito la risposta migliore e quindi in base al punteggio complessivo, si crea una classifica; ad inizio febbraio 2025, la classifica generale è dominata da Google Gemini in versione Premium (a livello gratuito, ChatGPT è sempre superiore), a seguire ChatGPT-4o e poi la new entry cinese DeepSeek-R1, tutti con punteggio ravvicinato; ci sono poi classifiche specifiche ad esempio text-to-image, WebDev Arena, ecc; possiamo anche filtrare la classifica generale per categoria (Math, Coding, ecc); da precisare che, vista l'enorme innovazione di oggi, ciò che è al primo posto oggi potrebbe poi scivolare di posizioni con il rilascio di nuovi modelli

Alternative a Chatbot Arena sono - oltre ai relativi siti web ufficiali, es. chatgpt.com - Ollama, per installare e usare chatbot in locale e Hugging Face che ha un mix di entrambe le funzionalità (possibilità di download del modello e integrazione in codice Python e in alcuni casi anche test direttamente online) come avevo fatto per il modello cinese Qwen 2 di Alibaba.

Per i modelli presenti su Chatbot Arena, questa piattaforma è sicuramente una soluzione semplice e immediata.

Vediamo come esempio come si comporta il modello DeepSeek-V3 - il modello top di DeepSeek al momento è R1, mentre V3 raggiunge prestazioni un pochino inferiori ma pur sempre molto valide - alla domanda (di matematica molto avanzata) in lingua inglese <<can you write an example of Mimetic Finite Difference in numerical analysis?>> (analogo a quanto avevo chiesto al modello Mistral-7B in locale con Ollama). DeepSeek-R1 è al top dell'attenzione mediatica in questo periodo, quindi accedendo in modo gratuito potrebbero esserci dei tempi di attesa (vari utenti in coda) prima di avere la risposta, rispetto ad altri modelli, motivo per cui il seguente test si basa su deepseek-v3. La risposta è stata complessivamente valida, più nello specifico:

semplice intro teorica, che descrive i metodi MFDM come leggi di conservazione di proprietà fisiche e/o matematiche
impostazione del problema (layout sfasato, ad esempio -\frac{d^2 u}{dx^2} = f(x)), i passaggi comunque sono concettualmente corretti
implementazione in linguaggio Python, completa e corretta

Quindi una risposta valida, articolata, ad una domanda complessa. Questo è un esempio, come detto su Chatbot Arena possiamo interagire con un singolo modello o testarne, confrontarne anche due contemporaneamente. Ecco uno screenshot di parte della risposta.
deepseek-v3-lmarena-mimetic-finite-difference

Giulio_M

Vediamo la situazione a luglio 2025. Il funzionamento della piattaforma è sempre analogo (Battle, Side-by-Side, Direct Chat, Leaderboard). La sezione Leaderboard, aggiornata periodicamente ogni tot giorni, si divide in "Text" (interazioni generali con il chatbot), WebDev, Vision, Search, Copilot, Text-to-Image, Image Edit.

Viene indicato il punteggio ELO per ogni modello, che è funzione della probabilità di vittoria secondo la formula: Ea=1/(1+10^((Rb-Ra)/400)) e analogamente Eb=1/(1+10^((Ra-Rb)/400)), dove:

Ea = probabilità di vittoria del modello A
Eb = probabilità di vittoria del modello B
Ra = punteggio ELO del modello A
Rb = punteggio ELO del modello B

Vediamo un calcolo di esempio: se gemini-2.5-pro ha punteggio ELO 1462 e deepseek-r1-0528 ha punteggio ELO 1415, la probabilità che gemini-2.5-pro sia superiore a deepseek-r1-0528 è pari a 0,567 = 56,7%; analogamente, dato che la somma delle due probabilità dev'essere unitaria, la probabilità che vinca il secondo modello è pari a 0,433 = 43,3%.
Nota: il punteggio ELO viene assegnato dalle migliaia di interazioni degli utenti, confronto fra un modello e l'altro, sempre secondo la formula sopra descritta.

Infine l'interessante sezione Arena Overview che mostra una tabella di risultati, divisa per categorie (oggi, sebbene per uso standard non esageratamente approfondito tutti i top siano circa alla pari come qualità e affidabilità, gemini-2.5-pro ha ottenuto il primo posto in tutto), come vediamo da questo screenshot, situazione a luglio 2025.
leaderboard-lmarena-luglio-2025

Fondatori