TLDR : La società Anthropic, che ha utilizzato opere protette per addestrare la sua IA Claude, è stata giudicata dal tribunale di San Francisco su due punti: l'uso di libri legalmente acquisiti è stato considerato equo, ma la conservazione di versioni digitalizzate da libri piratati potrebbe coinvolgere la sua responsabilità per violazione del diritto d'autore. Questa decisione influente potrebbe avere un impatto su altre controversie nel settore dell'IA.
La scorsa settimana, il giudice William Alsup del tribunale federale di San Francisco ha emesso una decisione molto attesa nella causa che vede coinvolti tre autori, Andrea Bartz, Charles Graeber e Kirk Wallace Johnson, contro Anthropic, unicorno californiano creatore dell'IA Claude. Questo decreto, basato sull'uso equo, segna una svolta nei dibattiti sull'utilizzo delle opere protette per addestrare i modelli di IA.
Tra il 2021 e il 2023, Anthropic ha scaricato più di 7 milioni di libri piratati da siti come Books3, LibGen o PiLiMi. Dopo aver preso coscienza dei rischi legali legati alle copie piratate, l'azienda ha acquistato a partire dalla primavera del 2024 legalmente centinaia di migliaia di questi libri, li ha scansionati dopo aver rimosso le copertine, eliminato intestazioni e piè di pagina, e poi li ha distrutti. Ha conservato questi file nella sua biblioteca interna anche dopo aver deciso che alcuni non sarebbero stati utilizzati per l'addestramento dei suoi modelli Claude o non lo sarebbero stati in futuro.
I romanzi di Bartz, i saggi di Graeber e i racconti di Johnson fanno parte sia dei libri piratati che acquistati legalmente, spesso di seconda mano. Hanno intentato questa causa collettiva contro Anthropic che ha usato le loro opere senza il loro consenso o compensazione finanziaria per violazione del diritto d'autore.
Senza risolvere tutte le questioni sollevate da questo caso, il giudice Alsup ha chiarito due punti essenziali. Da un lato, ha ritenuto che l'uso da parte di Anthropic di libri legalmente acquisiti, digitalizzati e integrati nella sua base di addestramento, fosse un uso equo ("fair use") ai sensi del diritto americano. Il giudice ha paragonato questo processo a quello di un autore o ricercatore che si basa su letture per produrre un lavoro originale, sottolineando così la dimensione trasformativa dell'uso. Per lui, la causa degli autori "non è diversa da quella che sarebbe se si lamentassero che la formazione degli scolari a scrivere bene comporterebbe un'esplosione di opere concorrenti".
D'altra parte, ha distinto chiaramente questo trattamento lecito dal fatto di conservare versioni digitalizzate. Secondo lui, creare una biblioteca interna da libri rubati non può essere giustificato dal diritto all'innovazione o alla ricerca. Questa parte della controversia è rinviata a un processo previsto a dicembre, dove la responsabilità di Anthropic potrebbe essere coinvolta per violazione accertata del diritto d'autore.
L'azienda potrebbe quindi dover affrontare un'azione collettiva di altra portata se il giudice approva l'inclusione di migliaia di autori nel processo. Se certificata, Anthropic potrebbe essere costretta a pagare a ciascuno di loro fino a 150.000 $ per opera...
Questa decisione storica, se non sarà smentita in un possibile appello, potrebbe fare scuola e influenzare altre controversie in corso nel settore dell'IA.
Per capire meglio
Qual è il concetto di 'fair use' nella legge statunitense e come si applica ai modelli di IA?
Il 'fair use' è un principio della legge sul diritto d'autore degli Stati Uniti che consente l'uso limitato di opere protette, ad esempio per ricerca o critica, senza autorizzazione. Nell'IA, è utilizzato per giustificare l'addestramento dei modelli con opere digitalizzate, a condizione che l'uso sia trasformativo.
Qual è la differenza tra l'uso corretto di opere digitalizzate e la creazione di una biblioteca digitale con libri piratati?
L'uso corretto consente l'uso di opere digitalizzate per l'innovazione, a condizione che vi sia un valore aggiunto trasformativo. Tuttavia, creare una biblioteca da libri piratati rimane illegale, in quanto viola le leggi sul copyright, nonostante le intenzioni di ricerca o innovazione.