Come già accaduto a Perplexity AI (quest'ultimo con un'accusa anche più grave, che poi però ha saputo gestire e risolvere), ora sotto indagine finisce Anthropic, l'azienda che ha sviluppato il modello Claude (analogo a GPT di OpenAI, PaLM di Google, ecc). Sebbene in passato Anthropic fosse l'azienda americana, almeno sulla carta più orientata verso un'IA etica e sicura, ora ha ricevuto un'accusa di violazione di copyright.
Diciamolo, a differenza di Perplexity AI qui la situazione è più dubbia (<<nella documentazione ufficiale Perplexity AI ha dichiarato di rispettare le regole di accesso, cosa che invece non ha fatto>>) e la responsabilità sembrerebbe essere inferiore. Quando si vuole avere un modello enorme, con miliardi di parametri e un database così esteso, avere il controllo del copyright di tutti i dati usati per l'addestramento del modello, non è cosa semplice.
L'azienda ha fatto uso di The Pile ovvero un set di circa 880 GB di dati testuali open-source, in lingua inglese, per l'addestramento per modelli linguistici di grandi dimensioni (LLM). Il problema è che all'interno - l'azienda Anthropic poteva saperlo come no - c'erano anche dei libri piratati, quindi violazione di copyright. È stata indetta una causa collettiva presso il Tribunale della California (testo ufficiale su fingfx.thomsonreuters.com) e l'accusa afferma che Anthropic ne fosse a conoscenza, creando un impero miliardario basato (anche) su centinaia di migliaia di risorse (libri, documenti) protetti da copyright.
Da un lato è chiaro che un'azienda non riesce ad avere il controllo su tutto, quando ha bisogno letteralmente di miliardi di dati e documenti per addestrare i propri modelli linguistici. Dall'altro però, una maggiore attenzione a casi come questi (oltre a Perplexity AI, anche gli altri come ChatGPT, Google Gemini ecc sono sotto controllo e potenzialmente non esenti da rischi di questo tipo, quindi in futuro potrebbero saltare fuori delle prove anche contro di loro) è opportuna, affinché ci sia uno sviluppo il più possibile etico e regolamentato di queste tecnologie, nel rispetto anche della proprietà intellettuale altrui.
Aggiornamento a giugno 2025: l'IA vince contro il copyright! Un giudice della California, a fine giugno 2025, ha decretato un risultato storico: l’azienda può usare i libri che vuole per addestrare Claude (il suo chatbot di IA), senza necessitare di permessi; questo con la condizione che deve acquisatre prima le opere (comunque è chiaro che poter pagare un'opera - libro, articolo - poche decine di dollari e renderlo poi disponibile a milioni di persone, è un grandissimo risultato per un'azienda di IA, quindi Anthropic si è portata avanti acquuistando molti libri, per arricchire il proprio database e rendere migliore, più completo, il servizio che offre). Ora con questo precedente, anche le altre aziende (OpenAI, Google, Meta, ecc) cercheranno di andare nella stessa direzione.