Défense des droits d’auteur : le New York Times intente un procès à OpenAI

OpenAI a utilisé des contenus protégés par le droit d’auteur pour entraîner ses modèles d’IA. Au-delà de l’affaire judiciaire, cela pourrait entrainer des conséquences importantes dans le développement des IA génératives.

Lorsque OpenAI était réellement « ouverte » (rappellons qu’au départ c’est une fondation), elle avait l’habitude de révéler l’ensemble des modèles de données qu’elle utilisait pour son entraînement. L’un d’entre eux s’appelle « Common Crawl« , un référentiel gratuit de données Internet. Les articles du NYT constituent la troisième source de données la plus importante de cet ensemble, juste derrière Wikipédia et une base de données de brevets américains.

Les articles du NYT figurant dans Common Crawl sont des articles ouverts qui peuvent légalement être scrappés (c’est à dire récupérés pour être exploité). Toutefois, il semble que l’une des raisons pour lesquelles OpenAI a cessé de divulguer les données qu’elle a utilisées pour entraîner ses modèles soit qu’elle y a ajouté des contenus protégés par le droit d’auteur.

OpenAI a fermé l’accès à cette liste en prétendant qu’il s’agissait d’un secret commercial, mais ChatGPT l’a trahie.
Le NYT a prouvé que si vous demandez à ChatGPT de recracher un article entier protégé par des droits d’auteur ou même payant, il le fera volontiers. OpenAI a dû « voler » ces données au NYT, violant ainsi la loi (entre-temps, OpenAI a corrigé ce comportement pour que ChatGPT vous indique de consulter le NYT. Microsoft a été plus lent et Copilot le fait encore, à ce jour).

OpenAI s’est toujours défendu en disant que les modèles GPT transforment les données sur lesquelles ils ont été entraînés, et qu’ils n’enfreignent donc pas le droit d’auteur. Le NYT a prouvé que ce n’était pas vrai, car les modèles GPT (lorsqu’on leur donne des bonnes instructions ou prompt) reproduisent mot à mot un contenu qui est censé être protégé.
Cela signifie que le NYT subit des dommages monétaires substantiels parce que n’importe qui peut lire leurs articles via ChatGPT. On peut parler d’un « vol ».

Le NYT considère aussi qu’OpenAI porte atteinte à sa réputation. En effet les modèles GPT sont connus pour avoir souvent des hallucinations : ils inventent des choses aléatoires qui sont tout simplement fausses. Cela se produit également lorsque l’on cite les articles du NYT. Extrait de l’action en justice : « Un modèle GPT a complètement fabriqué l’article suivant : « Le New York Times a publié le 10 janvier 2020 un article intitulé « Study Finds Possible Link between Orange Juice and Non-Hodgkin’s Lymphoma », alors que le Times n’a jamais publié un tel article ».
Le NYT emploi des personnes pour faire du « vrai » journalisme et s’assurer que tout ce qu’il publie est véridique. Les modèles de ChatGPT nuisent donc à cette réputation.

Que demande donc le NYT ? Deux choses :
– Des dédommagement importants
– La suppression de tous les modèles GPT et des données d’entraînement protégées par le droit d’auteur

Ils poursuivent en justice OpenAI et Microsoft.

Qui va gagné ? Qui va perdre ?
Les demandes du NYT sont fondées et il pourrait bien gagner…
Nous verrons si OpenAI devra supprimer ses modèles GPT basés sur les sources protégées du NYT, peut-être aussi devront-ils divulguer les données d’entraînement…

Techniquement, cela pourrait tout aussi bien ne rien changer. Bien que les données du NYT soient la troisième source de données la plus importante dans l’ensemble de données Common Crawl, elles n’en constituent qu’approximativement 0,0083 % des contenus utilisés. OpenAI peut entraîner à nouveau ses modèles sans ces données, avec un impact limité sur la qualité. Cependant, obliger OpenAI à révéler les données d’entraînement de ses modèles peut révéler d’autres cadavres dans son placard – il est donc possible que d’autres contenus devront être supprimés (avec un impact plus important sur les performances, plus d’éventuelles poursuites judiciaires).

Tout cela peut profiter à Apple et à l’Open Source en général. Apple a été critiquée pour sa lenteur dans la mise en place d’une IA générative, mais ce « retard » pourrait devenir un avantage.

Alors qu’OpenAI, en voulant aller vite, volait probablement des données au NYT, Apple a essayé de signer des accords avec des éditeurs pour utiliser leurs données afin d’entraîner des modèles d’IA, en payant jusqu’à 50 millions de dollars pour cela.

OpenAI/Microsoft sont arrivés tôt dans le jeu en « trichant » sachant qu’ils pourraient être poursuivis en justice et être ensuite retardés, tandis qu’Apple a pris le chemin (légal), et probablement gagnant à long terme.

L’open source pourrait également mieux se développer, en particulier si les données d’entraînement de ces modèles sont divulguées et légales.

Est-ce que cela va changer quelque chose pour les sociétés qui misent sur ChatGPT dans leur développement?
Il est trop tôt pour le dire, il faut attendre le déroulement des événements…

OpenAI a été rattrapée par la patrouille, et il va être intéressant de suivre l’épisode juirique et ses conséquences.