Domanda di logica: ChatGPT, Gemini, Groq, ecc a confronto

Giulio_M

Questo test è molto rapido, per evidenziare la capacità di risolvere un semplice problema di logica matematica. Premessa, leggevo che a breve Microsoft rilascerà il modello Orca-Math, un modello che si presenta come specifico per la matematica; ora è disponibile semplicemente su huggingface.co una serie di test per evidenziarne le capacità.

Ho scelto questo esempio:

A number divided by 10 is 6. Yoongi got the result by subtracting 15 from a certain number. What is the result he got?

Con il nostro ragionamento riusciamo a capire che il numero diviso per 10 che risulta 6 è 60. Se la persona di nome Yoongi ha ottenuto il risultato (quindi 60) sottraendo 15 da un certo numero, poi chiede quale sia il risultato (60-15=45).

Ho sottoposto questo problema a vari chatbot, tutti nella versione di base gratuita, vediamo i risultati:

Orca-Math: <<Let's call the certain number "x". [...] So, the result Yoongi got is 45.>>
ChatGPT: <<Let's denote the unknown number as x. [...] So, the result Yoongi got by subtracting 15 from a certain number is 45.>>
Google Gemini (in tutte e tre le bozze di risposta): <<Dividing a number by 10 is the same as multiplying it by 0.1. [...] Therefore, Yoongi got 45.>>
MathGPT Pro: <<Let's denote the certain number as x. [...] Therefore, the result Yoongi got is 45.>>
Bing Chat (Copilot): <<Let’s denote the unknown number as (x) [...] Therefore, the result Yoongi got is 45.>>
Groq AI: <<Now, to find y, we just need to add 15 to both sides: y = 60 + 15 y = 75. [...] Yoongi got the result 75.>>
Perplexity AI: <<[...] Therefore, the result Yoongi got by subtracting 15 from a certain number is 75.>>
Ecosia Chat: <<Therefore, the result Yoongi got is 75.>>
Leo AI Brave Browser: << 21. When you subtract 15 from 36, you get a result of 21, which when divided by 10 equals 6.>>
Andi Search: nemmeno ha provato a risolverlo! Ha messo un link a Math Calculator 😅

Considerazioni: rispondere 45 denota maggiore sottigliezza e capacità di analisi, pensandoci, per un software non è semplice. Il primo passaggio, capire che 10 * 6 = 60 è piuttosto semplice, ma l'ultima domanda poteva essere fraintesa (chiede quale sia il risultato sottraendo 15 al numero precedente, quindi 60-15=45, ma alcuni software lo hanno interpretato al contrario ovvero il numero che si avrebbe se avendo sottratto 15 si avesse il numero ottenuto prima (60) e quindi il risultato sarebbe in qeusto caso 60+15=75. Comunque sia, 45 è la risposta corretta.

Orca-Math quando sarà realmente disponibile, lo testeremo per bene. Certamente in questo esempio ha risposto in modo corretto, ma si tratta di un esempio mostrato ad-hoc. Diverso sarà valutare il comportamento da test random e confronti fra i vari software.

Possiamo quindi, per questo test di logica, creare la classifica:

ChatGPT, Google Gemini, Orca-Math, MathGPT Pro, Bing Chat (Copilot): 🥇 il massimo dei voti, test superato brillantemente
Groq AI, Perplexity AI, Ecosia Chat: 🥈 sbagliata la seconda interpretazione, risultato discreto
Leo AI Brave Browser: 🥉risultato 21, ma da dove salta fuori?
Andi Search: nessuna medaglia e nessun commento, nemmeno ha provato a rispondere con un numero

Soprattutto ChatGPT e Google Gemini si dimostrano strumenti molto avanzati e sempre più accurati (si nota proprio un'evoluzione e miglioramento, maggiore accuratezza nel corso dei mesi, vedi anche I bias (pregiudizi) dell'IA), essendo quelli più validi a livello generale. Orca-Math ovviamente lo testeremo meglio quando verrà ufficialmente rilasciato.
Questo semplice test, di una sola domanda, consente comunque di avere già un'idea delle capacità dei vari tool.

Fondatori