Vediamo una panoramica dell'architettura dei modelli di IA, quindi una classificazione generale, con alcune semplificazioni (esistono poi modelli ibridi, più avanzati), per comprendere scopo e caso d'uso di ognuno. - **LLM (Large Language Model)** (_GPT-3_, _Llama_, ecc): quando parliamo di LLM denso monolitico (LLM viene spesso usato in senso più generale per definire un "modello di IA"), si fa riferimento ad un modello addestrato su un grandissimo set di dati, basato su un tipo di rete neurale, architettura Transformer; la calibrazione dei parametri (diversi miliardi o anche oltre 1000 miliardi) avviene sull'enorme database di informazioni. L'obiettivo è quello di essere un modello generalista ("general purpose"), con vantaggio nell'interdisciplinarietà; tutti i parametri vengono usati assieme, per ogni richiesta (problema di efficienza e scalabilità, miglioramento marginale della qualità a discapito di costo computazionale enorme, in ottica futura infatti si pensa ad altre soluzioni con modelli ibridi) - **LCM – Latent Consistency Model** (_LCM-LoRA_): si tratta di una tecnica per accelerare drasticamente l'inferenza dei modelli di diffusione (quelli usati per la generazione di immagini come _Stable Diffusion_), riducendo il numero di passaggi di "denoising" da decine a una manciata (spesso da 1 a 4); di fatto, si tratta di un modello distillato (vedi [distillazione e IA verticale](https://ethicalhacking.freeflarum.com/d/1711-ai-verticale-e-distillazione-della-conoscenza-le-sfide-per-il-futuro)) quindi un modello calibrato che "salta dei passaggi" pur mantenendo valida qualità complessiva (concetto simile, sempre in tema distillazione, _Gemini Flash_ da _Gemini Pro_, qualità leggermente inferiore ma forte risparmio di risorse) - **LAM – Language Action Model** (_Adept Fuyu_): evoluzione rispetto ad un LLM, non si limita a comprendere e generare testo ma è addestrato per tradurre il linguaggio naturale in azioni eseguibili all'interno di interfacce software (sistemi operativi, browser web, applicazioni); l'addestramento del modello avviene su "traiettorie di azioni"; la differenza è che, ad esempio, un LLM ti spiega i passaggi per prenotare un volo, mentre un LAM ti prenota effettivamente il volo! Ovviamente a seconda del campo di applicazione, sicurezza e affidabilità sono da valutare attentamente - **MoE – Mixture of Experts** (_Mixtral 8x7B_, probabilmente anche _GPT-4_): a differenza di un LLM denso, che richiama sempre tutti i parametri, un MoE è composto da un iniziale gating-routing che analizza la richiesta e poi attiva gli "esperti" opportuni; il vantaggio di performance è enorme, si può avere un modello con oltre 1000 miliardi di parametri, suddivisi in diversi "esperti" e attivare solo quelli opportuni es. domanda di matematica, domanda di filosofia... L'addestramento può essere complesso, specie per la gestione dell'interdisciplinarietà (il tema più critico in questo caso), se ben gestito però rispetto ad un LLM denso monolitico, efficienza nell'uso delle risorse e potenziale scalabilità, è molto maggiore - **VLM – Vision Language Model** (_CLIP_, _GPT-4V(ision)_, _Google Gemini_ - nativo multimodale): si tratta di un modello multimodale, che comprende ed elabora informazioni sia testuali sia multimodali (immagini, video), la gestione avviene tramite uno spazio latente condiviso - **SLM – Small Language Model** (_Phi-2_, _Gemma_): un modello con numero di parametri significativamente inferiore rispetto ad un LLM (7-14 miliardi di parametri in totale), ottimizzato per l'efficienza; si tratta di un LLM su scala ridotta, basato su dataset di alta qualità, le applicazioni future sono i dispositivi edge (un modello piccolo, lo possiamo installare su uno smartphone, usare in locale...); per compiti semplici, si possono usare quindi modelli semplici, di piccole dimensioni, con costi computazionali molto ridotti - **MLM – Masked Language Model** (_Bert_): più che un modello di linguaggio, è un obiettivo di addestramento, in cui il modello impara a prevedere parole mascherate (nascoste) all'interno di una frase, utilizzando il contesto da entrambe le direzioni (sinistra e destra). Nello specifico, durante l'addestramento si prende una frase e si sostituisce circa il 15% delle parole con un token speciale `[MASK]`: l'obiettivo del modello è predire quale parola originale si trovava in quella posizione; poiché il modello può vedere l'intera frase (tranne le parole mascherate), impara una comprensione del linguaggio profondamente bidirezionale; rispetto ad un LLM, la differenza è _encoder_ (MLM, ottimo per la comprensione, bidirezionale) vs _decoder_ (LLM, ottimo per la generazione, unidirezionale) - **SAM – Segment Anything Model** (_Sam (Meta)_): modello di visione artificiale, sviluppato da Meta AI, progettato per un compito specifico ovvero la _segmentazione di immagini_; l'addestramento avviene su un dataset enorme di maschere di segmentazione, per sviluppare la capacità "zero-shot generalization", non classifica direttamente l'oggetto ma riesce a delimitarne i confini; potenziale applicazione nell'editing di immagini, guida autonoma, ecc Vediamo in sintesi, alcuni confronti e relazioni fra i modelli: - **LLM vs SLM:** gli LLM sono più potenti ma più costosi computazionalmente, mentre gli SLM sono più efficienti ma meno capaci. Entrambi sono modelli di linguaggio, ma differiscono per scala e ambito di applicazione. - **LLM vs MLM:** gli LLM (come GPT) sono autoregressivi e ottimizzati per la generazione, mentre gli MLM (come BERT) sono bidirezionali e ottimizzati per la comprensione. - **LLM vs VLM:** gli LLM elaborano solo testo, mentre i VLM integrano testo e immagini, rendendoli adatti a compiti multimodali. - **LLM vs LAM:** gli LLM si concentrano sul linguaggio, mentre i LAM aggiungono la capacità di eseguire azioni, rendendoli più operativi. - **MoE:** può essere utilizzato come architettura per migliorare l'efficienza di LLM, VLM, o altri modelli. - **LCM vs SAM:** entrambi sono modelli avanzati, ma LCM si concentra sulla generazione di immagini (diffusion-based), mentre SAM si concentra sulla segmentazione di immagini.

Architettura dell'IA: LLM, MoE, multimodalità, soluzioni a confronto

Giulio_M

Vediamo una panoramica dell'architettura dei modelli di IA, quindi una classificazione generale, con alcune semplificazioni (esistono poi modelli ibridi, più avanzati), per comprendere scopo e caso d'uso di ognuno.

LLM (Large Language Model) (GPT-3, Llama, ecc): quando parliamo di LLM denso monolitico (LLM viene spesso usato in senso più generale per definire un "modello di IA"), si fa riferimento ad un modello addestrato su un grandissimo set di dati, basato su un tipo di rete neurale, architettura Transformer; la calibrazione dei parametri (diversi miliardi o anche oltre 1000 miliardi) avviene sull'enorme database di informazioni. L'obiettivo è quello di essere un modello generalista ("general purpose"), con vantaggio nell'interdisciplinarietà; tutti i parametri vengono usati assieme, per ogni richiesta (problema di efficienza e scalabilità, miglioramento marginale della qualità a discapito di costo computazionale enorme, in ottica futura infatti si pensa ad altre soluzioni con modelli ibridi)
LCM – Latent Consistency Model (LCM-LoRA): si tratta di una tecnica per accelerare drasticamente l'inferenza dei modelli di diffusione (quelli usati per la generazione di immagini come Stable Diffusion), riducendo il numero di passaggi di "denoising" da decine a una manciata (spesso da 1 a 4); di fatto, si tratta di un modello distillato (vedi distillazione e IA verticale) quindi un modello calibrato che "salta dei passaggi" pur mantenendo valida qualità complessiva (concetto simile, sempre in tema distillazione, Gemini Flash da Gemini Pro, qualità leggermente inferiore ma forte risparmio di risorse)
LAM – Language Action Model (Adept Fuyu): evoluzione rispetto ad un LLM, non si limita a comprendere e generare testo ma è addestrato per tradurre il linguaggio naturale in azioni eseguibili all'interno di interfacce software (sistemi operativi, browser web, applicazioni); l'addestramento del modello avviene su "traiettorie di azioni"; la differenza è che, ad esempio, un LLM ti spiega i passaggi per prenotare un volo, mentre un LAM ti prenota effettivamente il volo! Ovviamente a seconda del campo di applicazione, sicurezza e affidabilità sono da valutare attentamente
MoE – Mixture of Experts (Mixtral 8x7B, probabilmente anche GPT-4): a differenza di un LLM denso, che richiama sempre tutti i parametri, un MoE è composto da un iniziale gating-routing che analizza la richiesta e poi attiva gli "esperti" opportuni; il vantaggio di performance è enorme, si può avere un modello con oltre 1000 miliardi di parametri, suddivisi in diversi "esperti" e attivare solo quelli opportuni es. domanda di matematica, domanda di filosofia... L'addestramento può essere complesso, specie per la gestione dell'interdisciplinarietà (il tema più critico in questo caso), se ben gestito però rispetto ad un LLM denso monolitico, efficienza nell'uso delle risorse e potenziale scalabilità, è molto maggiore
VLM – Vision Language Model (CLIP, GPT-4V(ision), Google Gemini - nativo multimodale): si tratta di un modello multimodale, che comprende ed elabora informazioni sia testuali sia multimodali (immagini, video), la gestione avviene tramite uno spazio latente condiviso
SLM – Small Language Model (Phi-2, Gemma): un modello con numero di parametri significativamente inferiore rispetto ad un LLM (7-14 miliardi di parametri in totale), ottimizzato per l'efficienza; si tratta di un LLM su scala ridotta, basato su dataset di alta qualità, le applicazioni future sono i dispositivi edge (un modello piccolo, lo possiamo installare su uno smartphone, usare in locale...); per compiti semplici, si possono usare quindi modelli semplici, di piccole dimensioni, con costi computazionali molto ridotti
MLM – Masked Language Model (Bert): più che un modello di linguaggio, è un obiettivo di addestramento, in cui il modello impara a prevedere parole mascherate (nascoste) all'interno di una frase, utilizzando il contesto da entrambe le direzioni (sinistra e destra). Nello specifico, durante l'addestramento si prende una frase e si sostituisce circa il 15% delle parole con un token speciale [MASK]: l'obiettivo del modello è predire quale parola originale si trovava in quella posizione; poiché il modello può vedere l'intera frase (tranne le parole mascherate), impara una comprensione del linguaggio profondamente bidirezionale; rispetto ad un LLM, la differenza è encoder (MLM, ottimo per la comprensione, bidirezionale) vs decoder (LLM, ottimo per la generazione, unidirezionale)
SAM – Segment Anything Model (Sam (Meta)): modello di visione artificiale, sviluppato da Meta AI, progettato per un compito specifico ovvero la segmentazione di immagini; l'addestramento avviene su un dataset enorme di maschere di segmentazione, per sviluppare la capacità "zero-shot generalization", non classifica direttamente l'oggetto ma riesce a delimitarne i confini; potenziale applicazione nell'editing di immagini, guida autonoma, ecc

Vediamo in sintesi, alcuni confronti e relazioni fra i modelli:

LLM vs SLM: gli LLM sono più potenti ma più costosi computazionalmente, mentre gli SLM sono più efficienti ma meno capaci. Entrambi sono modelli di linguaggio, ma differiscono per scala e ambito di applicazione.
LLM vs MLM: gli LLM (come GPT) sono autoregressivi e ottimizzati per la generazione, mentre gli MLM (come BERT) sono bidirezionali e ottimizzati per la comprensione.
LLM vs VLM: gli LLM elaborano solo testo, mentre i VLM integrano testo e immagini, rendendoli adatti a compiti multimodali.
LLM vs LAM: gli LLM si concentrano sul linguaggio, mentre i LAM aggiungono la capacità di eseguire azioni, rendendoli più operativi.
MoE: può essere utilizzato come architettura per migliorare l'efficienza di LLM, VLM, o altri modelli.
LCM vs SAM: entrambi sono modelli avanzati, ma LCM si concentra sulla generazione di immagini (diffusion-based), mentre SAM si concentra sulla segmentazione di immagini.

Fondatori