Groq AI vs Mistral AI Le Chat vs Google Gemini - sfida di matematica

Giulio_M

Dopo aver visto Miglior chatbot per la matematica: ChatGPT vs MathGPT Pro, che ha decretato la netta vittoria a ChatGPT, vediamo ora le stesse domande rivolte a Groq AI, Mistral AI - Le Chat, Google Gemini: il primo è un chatbot ultraveloce grazie ad un'innovativa specializzazione hardware, il secondo invece è il miglior progetto europeo attualmente presente. Entrambi i chatbot, analogamente ad altri, vanno molto bene per un'usabilità generale (sintesi di argomenti ecc), il tema problemi di matematica e fisica è certamente molto complesso. Vediamo quindi come si comportano, nel seguente test.

Test di fisica: problema di relatività ristretta

Fisica, relatività ristretta, spaziotempo di Minkowski: "un oggetto si muove a velocita' 0.8 c rispetto ad un osservatore che si considera in quiete. Quanto sono inclinati gli assi del sistema dell'oggetto in movimento, rispetto agli assi del sistema dell'osservatore?". Io ho calcolato beta=0,8 e gamma=1,667. Come devo procedere?

Groq AI (modello llama3-groq-70b-8192-tool-use-preview): risposta confusionaria e formule sbagliate, mi ha poi risposto <<Sfortunatamente, non ho sufficienti informazioni per calcolare i risultati numerici, poiché non è stato fornito il valore di θ>>, voto 4/10
Mistral AI: risposta ben formattata e teoria corretta, sbaglia però leggermente le formule, fornisce quindi risultati sbagliati; voto 6/10
Google Gemini: fornisce una carrellata teorica, se ne guarda bene dal fornire i risultati numerici e mi risponde <<Sfortunatamente, non è possibile fornire un valore numerico preciso per l'inclinazione degli assi nel tuo caso specifico>>; voto 5/10

Algebra: risoluzione sistema non lineare

Analisi matematica: soluzioni del sistema -4x³ + 4x - 4y = 0; -4y³ -4x + 4y = 0

Groq AI: ha determinato correttamente solo una delle soluzioni, la più semplice (0,0) e ammette le difficoltà <<Possiamo provare ad isolare y ma è difficile e non ho alcuna possibilità di risolvere l'equazione>>; voto 5,5/10
Mistral AI: problema risolto correttamente al 100%, risposta ben formattata e precisa, voto 10/10
Google Gemini: nemmeno ci prova, mi consiglia di usare un tool di risoluzione numerica per risolvere il problema di "difficile" risoluzione analitica; non ci prova nemmeno, voto 4/10

Analisi matematica 2: funzioni in due variabili

Analisi matematica 2: la funzione f(x,y)=|x-y|*(x2+y2-1) quali coppie di punti stazionari ha? |x-y| indica il valore assoluto

Groq AI: mi risponde in Inglese anziché in Italiano; individua che la funzione ha quattro punti stazionari, ma... Mi mostra poi tre risultati e non quattro! Le soluzioni sono tutte sbagliate, voto 4,5/10
Mistral AI: risposta ben articolata con tutti i passaggi, ma se ne guarda bene dal fornirmi una risposta numerica, infatti dice <<La risoluzione di questi sistemi può essere complessa e potrebbe richiedere l'uso di software di calcolo simbolico o numerico per trovare le soluzioni esatte>>; insistendo nel chiedere una risposta numerica esegue il conto, con una piccola imprecisione nelle coppie di punti, voto 7,5/10
Google Gemini: prima fornisce una risposta generalista sui vari passaggi, poi anche dopo aver chiesto esplicitamente il risultato, risponde <<Come già anticipato, determinare analiticamente i punti stazionari esatti di questa funzione, data la presenza del valore assoluto e delle non linearità, è un problema piuttosto complesso. Non è garantito che esistano soluzioni esplicite in forma chiusa>>; non ci prova nemmeno, voto 4/10

Conclusioni

Premetto che, vista la fortissima evoluzione che c'è in questo ambito, non sono affatto da escludere miglioramenti futuri, anche a sorpresa. Ad oggi, dal test precedente, l'unico chatbot sufficientemente affidabile per i problemi di matematica è ChatGPT (ovviamente sempre da usare con la testa, senso critico e non banale copia-incolla, tuttavia i test effettuati hanno riportato risultati corretti molto più che negli altri casi). Questo test che compara Groq AI, Mistral AI e Google Gemini vede come vincitore Mistral AI con punteggio medio 7,83/10 mentre gli altri due, nettamente distaccati: Groq AI con 4,67/10 e Google Gemini 4,33/10.

Ribadisco che tutti questi tool sono più che validi a livello generale, per test meno complessi (sintesi teorica di un articolo, di un argomento, ecc). I compiti di matematica e fisica sono fra i probemi più difficili da risolvere per un chatbot. Ad oggi, ChatGPT ha ottenuto risultati molto validi in questo campo, Mistral AI si sta avvicinando; gli altri che ho testato, sono nettamente dietro.

Fondatori