Chatbot Arena (ex LMSYS), sito ufficiale lmarena.it è un servizio molto interessante, con queste funzionalità:
- Arena (battle): inseriamo il nostro prompt e random vengono proposti due modelli: possiamo anche scegliere quale dei due ha fornito la risposta complessivamente migliore, infuenzando quindi poi la classifica generale fatta dagli utenti; per non influenzare l'eventuale valutazione, il nome del modello viene rivelato solo dopo aver votato
- Arena (side-by-side): analogo al precedente ma possiamo scegliere i due modelli anziché trovarli scelti in modo random
- Direct Chat: Arena è una "sfida" fra due modelli, Direct Chat invece è il modo migliore per testare uno dei modelli presenti; ad esempio, con il nuovo release del cinese DeepSeek-R1 che ha sconvolto i mercati USA, possiamo testare anche questo modello
- Leaderboard: dalla modalità Arena, gli utenti possono scegliere quale modello ha fornito la risposta migliore e quindi in base al punteggio complessivo, si crea una classifica; ad inizio febbraio 2025, la classifica generale è dominata da Google Gemini in versione Premium (a livello gratuito, ChatGPT è sempre superiore), a seguire ChatGPT-4o e poi la new entry cinese DeepSeek-R1, tutti con punteggio ravvicinato; ci sono poi classifiche specifiche ad esempio text-to-image, WebDev Arena, ecc; possiamo anche filtrare la classifica generale per categoria (Math, Coding, ecc); da precisare che, vista l'enorme innovazione di oggi, ciò che è al primo posto oggi potrebbe poi scivolare di posizioni con il rilascio di nuovi modelli
Alternative a Chatbot Arena sono - oltre ai relativi siti web ufficiali, es. chatgpt.com - Ollama, per installare e usare chatbot in locale e Hugging Face che ha un mix di entrambe le funzionalità (possibilità di download del modello e integrazione in codice Python e in alcuni casi anche test direttamente online) come avevo fatto per il modello cinese Qwen 2 di Alibaba.
Per i modelli presenti su Chatbot Arena, questa piattaforma è sicuramente una soluzione semplice e immediata.
Vediamo come esempio come si comporta il modello DeepSeek-V3 - il modello top di DeepSeek al momento è R1, mentre V3 raggiunge prestazioni un pochino inferiori ma pur sempre molto valide - alla domanda (di matematica molto avanzata) in lingua inglese <<can you write an example of Mimetic Finite Difference in numerical analysis?>> (analogo a quanto avevo chiesto al modello Mistral-7B in locale con Ollama). DeepSeek-R1 è al top dell'attenzione mediatica in questo periodo, quindi accedendo in modo gratuito potrebbero esserci dei tempi di attesa (vari utenti in coda) prima di avere la risposta, rispetto ad altri modelli, motivo per cui il seguente test si basa su deepseek-v3. La risposta è stata complessivamente valida, più nello specifico:
- semplice intro teorica, che descrive i metodi MFDM come leggi di conservazione di proprietà fisiche e/o matematiche
- impostazione del problema (layout sfasato, ad esempio
-\frac{d^2 u}{dx^2} = f(x)
), i passaggi comunque sono concettualmente corretti
- implementazione in linguaggio Python, completa e corretta
Quindi una risposta valida, articolata, ad una domanda complessa. Questo è un esempio, come detto su Chatbot Arena possiamo interagire con un singolo modello o testarne, confrontarne anche due contemporaneamente. Ecco uno screenshot di parte della risposta.
