Premessa:
Chain-of-Thought (CoT) è una tecnica che può aiutare modelli di linguaggio come GPT-x a elaborare ragionamenti complessi in più passaggi. Per esempio l'aggiunta del prompt "Pensiamo passo dopo passo" aiuta GPT-x a migliorare la sua accuratezza in ragionamenti. Anche se non è chiaro che CoT sia ancora efficace su modelli di linguaggio più recenti come ChatGPT. Infatti su ChatGPT CoT non è più efficace in alcuni compiti come il ragionamento aritmetico ma funziona ancora bene su altro. Addirittura ChatGPT di solito ottiene la migliore performance nei compiti in cui CoT non funziona e può generare CoT anche automaticamente quando ne necessita. Questo potrebbe significare che ChatGPT è stato già addestrato su questi compiti utilizzando CoT e ha memorizzato il compito seguendolo implicitamente quando applicata alle stesse query. Questa analisi quindi porta ad un potenziale rischio di overfitting/bias verso le istruzioni introdotte nell'addestramento e indica una possibile perdita di informazioni sul pre-addestramento del modello. Gli esperimenti riportano nuovi risultati di riferimento per ChatGPT in vari compiti di ragionamento e offrono nuove informazioni sulla profilazione, la memorizzazione delle istruzioni e la perdita di informazioni nel pre-addestramento dei modelli di linguaggio.
Iniziamo:
ChatGPT è un chatbot progettato per fornire approfondimenti su una miriade di argomenti. È stato molto apprezzato dalla community di NLP per la sua capacità intellettuale e le sue innovazioni. È stato addestrato tramite RLHF e l'incorporazione di CoT prompting in LLMs ha migliorato significativamente sue prestazioni. L'esperimento ha testato tre livelli di prompting rivelando che ChatGPT possiede la capacità innata di generare passaggi di ragionamento autonomamente senza la necessità di trigger words o CoT prompts. I risultati sperimentali indicano un effetto di memorizzazione e un bias di istruzione causato dall'IFT.
DIA quindi fu un passo essenziale i modelli linguistici, numerosi modelli appaiono e gli sviluppatori hanno la necessità di scegliere i migliori per un compito specifico, un profilo LM migliore potrebbe far risparmiare tempo e per fornire alla community di NLP una comprensione migliore e precisa delle capacità di ragionamento di ChatGPT e della sua capacità di apprendimento senza supervisione, studiamo anche in modo sistematico le prestazioni di apprendimento senza supervisione di ChatGPT su vari compiti di ragionamento e riportiamo nuovi risultati di base di ChatGPT che incorporano diversi metodi di prompting. Riassumendo sperimentiamo i diversi livelli di prompting per ChatGPT, facendo qualche esempio:
- Con semplici trigger words, ad esempio "Quindi, la risposta (numeri arabi) è" per i compiti di aritmetica, le prestazioni di ChatGPT verranno ulteriormente potenziate?
- Con zero-shot CoT prompting, "Pensiamo passo dopo passo", si osserverà il sostanziale miglioramento in ChatGPT come previsto in GPT-x?
Successivamente possiamo trarre queste conclusioni:
- ChatGPT è in grado di generare spiegazioni passo passo per i compiti di ragionamento aritmetico senza la necessità di CoT prompting.
- Il CoT prompting migliora appena le prestazioni del modello per i compiti di ragionamento aritmetico rispetto al comportamento dei precedenti LLM.
- Il CoT prompting è ancora richiesto per determinati compiti di ragionamento che non sono inclusi nella fase di pre-training.
- ChatGPT mostra caratteristiche distinte rispetto a GPT-x quando utilizza lo stesso metodo di prompting, potrebbe esserci una perdita di dati.
Vediamo ora un esempio lampante:
Domanda:
- Una torre è composta da 4 blocchi blu, il doppio di quelli gialli e un numero non definito di blocchi rossi. Se in tutto ci sono 32 blocchi, quanti blocchi rossi ci sono?
Risposte:
- ChatGPT (risposta corretta): Cominciamo usando l'algebra per risolvere il numero sconosciuto di blocchi rossi. R il numero di blocchi rossi. Sappiamo che ci sono 4 blocchi blu e il doppio dei blocchi gialli, il che significa che ci sono 2 x 4 = 8 gialli. Quindi il numero totale di blocchi nella torre è: 4 (blu) + 8 (giallo) + R
(rosso) = 32 Semplificando questa equazione: 12 + R = 32 Sottraendo 12 da entrambi i lati:
R = 20 Quindi, ci sono 20 blocchi rossi nella torre.
- GPT-3 (risposta sbagliata): 16 red blocks.
- Codex (non ha neanche risposto)
Osserviamo che ChatGPT è in grado di generare una logica passo dopo passo senza la guida del prompt CoT.
GPT3 e Codex non riescono a fare un ragionamento senza alcuna richiesta.
Ci sono diverse tipologie di Membership Inference ovvero tecniche per verificare se dei dati sono stati utilizzati per il pre-training di un modello tra cui Confidence Vector e Label-Only. Queste tecniche sono state ampiamente studiate nel campo della computer vision ma sono più limitate nel campo del linguaggio naturale a causa della grande varietà di output e di corpus utilizzati. Quindi si cerca di individuare delle impostazioni più realistiche per verificare su quali dataset siano stati pre-allenati i modelli evitando di cercare "un ago in un pagliaio".
Zero-shot Learning ChatGPT:
Facciamo degli esperimenti:
- Zero-shot learning apprendimento automatico in cui un modello impara a riconoscere e classificare oggetti o svolgere compiti senza avere esempi precedenti per le categorie o i compiti specifici che deve eseguire. Esempio dato un'interrogazione Q al modello di linguaggio M, senza alcun aggiornamento di parametri e nessuna guida possiamo ottenere la risposta A = M(Q).
- Zero-shot prompting con parole trigger. Si utilizza quindi una lista di prompt di estrazione di risposte ad esempio "la risposta (numeri arabi) è" per i compiti di ragionamento aritmetico (visti in precedenza).
- Zero-shot prompting con catena di pensieri. La catena di pensiero è un approccio di ragionamento a due passaggi per LLMs. Invece di chiedere direttamente agli LLM di generare la risposta A per la domanda Q, progettano i prompt P per ottenere la giustificazione R, e poi interrogare nuovamente gli LLM per generare la risposta finale: A = M([P; Q; R]).
Analisi e scoperte:
Per i compiti di aritmetica ChatGPT impara da zero-shot in modo efficace senza l'aggiunta di "Pensiamo passo dopo passo", a differenza dell'eccellente performance dei precedenti LLMs (GPT3) che aumentano drasticamente con il ragionamento CoT. Nella tabella sotto possiamo vedere l'accuratezza di Zero-Shot con diverse impostazioni di prompting per ciascun dataset di aritmetica. Zero-Shot senza alcun prompting (Standard) funziona quindi da forte linea di base per tutti i compiti di aritmetica. Assurdo che il prompting Standard supera le Trigger Words e il prompting CoT per alcuni dataset di aritmetica. La tabella 2 confronta anche con GPT3 sui compiti di aritmetica si osserva un miglioramento sostanziale con ragionamento CoT, il prompting CoT supera significativamente le Trigger words prompting per GPT3, a differenza di ChatGPT. Nei compiti di ragionamento del senso comune, il prompting CoT degrada ancora le prestazioni sia per ChatGPT che per GPT3, come previsto, spiegando che il prompting CoT sollecita le capacità di ragionamento negli LLM, ma le metriche dei compiti non rispecchiano in modo appropriato. Per il ragionamento base il risultato suggerisce che il prompting CoT sia ancora necessario per ChatGPT per ottenere miglioramenti delle prestazioni, il che si allinea con i risultati di GPT3. Il comportamento disparato su diversi compiti di ragionamento fa sorgere una bellissima domanda. Allora per ChatGPT quando è necessario il prompting CoT per sollecitare le capacità di ragionamento?
Concludiamo quindi che che tale tecnica (CoT) non è necessariamente la modalità più efficace per compiti di ragionamento aritmetico. Per i compiti di ragionamento aritmetico ChatGPT è in grado di generare il passaggio di ragionamento in modo autonomo senza alcuna tecnica di prompting e l'utilizzo di CoT può addirittura peggiorare le performance di tali compiti. Al contrario per compiti di ragionamento simbolico e altri compiti di ragionamento CoT è ancora necessario per estrarre passo dopo passo il ragionamento. Si ipotizza che ChatGPT memorizzi le istruzioni per i compiti aritmetici nella fase di pre-training e generi autonomamente i passaggi di ragionamento quando identifica che la domanda riguarda l'aritmetica.
Conclusioni:
Si può osservare che ChatGPT ha una forte capacità di ragionamento autonomo per i compiti di ragionamento aritmetico senza CoT prompting mentre per altri compiti di ragionamento è ancora necessario l'utilizzo di CoT prompting. Si pensa che ciò sia dovuto alla presenza di dataset aritmetici nella fase di pre-training che consentono a ChatGPT di memorizzare le istruzioni e generare il ragionamento autonomamente. In futuro bisognerà sicuramente sistemare queste cose come l'effetto di pre-training sulla performance della fase di inferenza e come identificare efficacemente l'uso di determinati dataset nella fase di pre-training o individuare problemi di perdita di dati.