Come già accaduto a Perplexity AI (quest'ultimo con un'accusa anche più grave, che poi però ha saputo gestire e risolvere), ora sotto indagine finisce Anthropic, l'azienda che ha sviluppato il modello Claude (analogo a GPT di OpenAI, PaLM di Google, ecc). Sebbene in passato Anthropic fosse l'azienda americana, almeno sulla carta più orientata verso un'IA etica e sicura, ora ha ricevuto un'accusa di violazione di copyright.
Diciamolo, a differenza di Perplexity AI qui la situazione è più dubbia (<<nella documentazione ufficiale Perplexity AI ha dichiarato di rispettare le regole di accesso, cosa che invece non ha fatto>>) e la responsabilità sembrerebbe essere inferiore. Quando si vuole avere un modello enorme, con miliardi di parametri e un database così esteso, avere il controllo del copyright di tutti i dati usati per l'addestramento del modello, non è cosa semplice.
L'azienda ha fatto uso di The Pile ovvero un set di circa 880 GB di dati testuali open-source, in lingua ingelse, per l'addestramento per modelli linguistici di grandi dimensioni (LLM). Il probelma è che all'interno - l'azienda Anthropic poteva saperlo come no - c'erano anche dei libri piratati, quindi violazione di copyright. È stata indetta una causa collettiva presso il Tribunale della California (testo ufficiale su fingfx.thomsonreuters.com) e l'accusa afferma che Anthropic ne fosse a conoscenza, creando un impero miliardario basato (anche) su centinaia di migliaia di risorse (libri, documenti) protetti da copyright.
Da un lato è chiaro che un'azienda non riesce ad avere il controllo su tutto, quando ha bisogno letteralmente di miliardi di dati e documenti per addestrare i propri modelli linguistici. Dall'altro però, una maggiore attenzione a casi come questi (oltre a Perplexity AI, anche gli altri come ChatGPT, Google Gemini ecc sono sotto controllo e potenzialmente non esenti da rischi di questo tipo, quindi in futuro potrebbero saltare fuori delle prove anche contro di loro) è opportuna, affinché ci sia uno sviluppo il più possibile etico e regolamentato di queste tecnologie, nel rispetto anche della proprietà intellettuale altrui.