L’avenir de l’IA repose sur les poursuites en matière de droit d’auteur entre le New York Times et les auteurs

octobre 10, 2024 Jean Dupont 5 min read

Les avocats du New York Times examinent minutieusement le code source et le matériel de formation de ChatGPT.

Des affaires de droit d’auteur impliquant des éditeurs et des auteurs cherchent à comprendre comment l’IA est formée sur des œuvres créatives.

Ces litiges pourraient tracer une voie à suivre, tout comme le marais juridique de Napster il y a deux décennies.

Les avocats du Times peuvent partager leurs notes avec jusqu’à cinq consultants externes pour les aider à comprendre ce que fait le code. Si l’un des avocats veut montrer un extrait du code à Sam Altman pour lui poser des questions à ce sujet lors d’une déposition, cette copie sera détruite.

OpenAI vaut 157 milliards de dollars en grande partie grâce au succès de ChatGPT. Mais pour créer le chatbot, l’entreprise a formé ses modèles sur d’énormes quantités de texte pour lesquelles elle n’a pas payé un centime.

L’examen du code de ChatGPT, ainsi que des modèles d’intelligence artificielle de Microsoft construits avec la technologie d’OpenAI, est crucial pour les poursuites pour violation de droit d’auteur contre les deux entreprises.

Les éditeurs et les artistes ont intenté une vingtaine de grandes poursuites pour droit d’auteur contre les entreprises d’IA générative. Ils demandent une part du gâteau économique qui a fait d’OpenAI le principal acteur de l’industrie et a poussé la valorisation de Microsoft au-delà de 3 billions de dollars.

Les juges qui décideront de ces affaires pourraient définir les paramètres juridiques de la façon dont les grands modèles de langage sont formés aux États-Unis.

« Les développeurs devraient payer pour le contenu éditorial précieux utilisé pour créer et exploiter leurs produits », a déclaré un porte-parole du Times à BI. « Le succès futur de cette technologie ne doit pas se faire aux dépens des institutions journalistiques. »

Pour le litige, le Times a fait appel à un cabinet d’avocats d’élite, Susman Godfrey, qui a récemment remporté un règlement massif de 787,5 millions de dollars pour Dominion contre Fox News. D’autres poursuites de rédactions, dont le New York Daily News et Mother Jones, se sont rattachées à l’affaire.

Susman Godfrey représente également un groupe d’auteurs, dont George RR Martin, Jodi Picoult et Ta-Nehisi Coates, qui ont déposé des plaintes pour violation de droit d’auteur. Si un juge certifie leur statut d’action collective, un règlement ou un jugement final pourrait avoir des répercussions pour pratiquement tous les auteurs et artistes dont le travail a été utilisé pour former des modèles IA.

Le 12 septembre, des dizaines d’avocats des entreprises technologiques et de journalisme se sont réunis dans une salle d’audience d’un juge des districts à Manhattan pour décider de la meilleure façon de diviser le processus de découverte, y compris l’inspection du code et des données de formation de ChatGPT. Avec les avocats des auteurs, ils doivent encore décider qui ils peuvent interroger et comment organiser les dépositions.

« C’est aussi excitant que cela puisse l’être pour les professeurs de droit spécialisés en droit d’auteur », a déclaré Kristelia García, professeure de droit de la propriété intellectuelle à la Georgetown University Law.

Établir les règles

Avec le Congrès laissant de côté la réglementation de l’IA, l’industrie s’attend à ce que les tribunaux définissent – ou, ils l’espèrent, ne définissent pas – les règles.

De nombreux éditeurs, y compris le propriétaire de Business Insider Axel Springer, ont conclu des accords avec des sociétés d’IA générative pour partager leur contenu pour la formation de LLM.

La portée et les ressources de la poursuite du Times en font un candidat probable pour une Cour suprême qui pourrait créer un précédent. Les avocats examinent également les actions en justice collective des auteurs, ainsi qu’une affaire de l’industrie musicale contre Anthropic, comme des affaires à suivre.

« Le New York Times est un géant du journalisme », a déclaré García. « C’est grand, il a beaucoup de contenu. Plus important encore, il a beaucoup de pouvoir de marché derrière ce contenu. »

La poursuite soutient qu’OpenAI a enfreint sa propriété intellectuelle de deux manières. Il y a le cas des « entrées » – alléguant que le LLM a illégalement aspiré plus de 10 millions d’articles du New York Times pour former ChatGPT et Microsoft Copilot sans compensation. Et le cas des « sorties » – affirmant que lorsque demandé, ChatGPT peut restituer un article du New York Times pour lequel les lecteurs paieraient sinon un abonnement.

Dans des documents judiciaires, les avocats ont cité à plusieurs reprises Napster, qui a copié illégalement des millions de chansons et les a rendues disponibles gratuitement. OpenAI a utilisé de manière similaire des articles du New York Times de haute qualité pour rendre ChatGPT si impressionnant, soutient le Times.

Si OpenAI réalise effectivement des copies de livres et d’articles de presse à la manière de Napster, son processus de formation est-il suffisamment transformateur pour être considéré comme un « usage équitable » ? Les juges à travers le pays sont « totalement perdus » pour décider des cas de droit d’auteur d’usage équitable, selon Christa Laser, professeure de droit de la propriété intellectuelle à l’Université d’État de Cleveland, créant des enjeux élevés et imprévisibles.

« Je pense que c’est la grande question qui finira par aller jusqu’à la Cour suprême », a déclaré Laser à BI. « Cette question de l’usage équitable autour des données de formation, de l’ingestion et de la formation. »

Une question clé sur l’ « usage équitable » est de savoir si les créations de ChatGPT entrent en concurrence avec les œuvres journalistiques originales – une question urgente pour les organismes de presse.

« Les éditeurs de presse sont les premiers à intenter ces grandes poursuites parce qu’ils ont plus à perdre », a déclaré García.

Pour faire valoir une demande de droit d’auteur, un plaignant ne peut pas simplement pointer un corpus d’œuvres utilisées comme inspiration. Il doit indiquer une œuvre spécifique qu’il dit avoir été copiée.

Dans sa poursuite, le New York Times a joint des milliers de pages d’exemples tabulant 10 553 897 articles. Il affirme qu’OpenAI et Microsoft ont violé illégalement les droits d’auteur pour chacun d’entre eux.

Parmi ces articles se trouve une histoire de 2001, peu de temps après qu’une cour d’appel ait statué contre Napster, où un journaliste a demandé aux utilisateurs ce qu’ils feraient. Ils étaient tous d’accord pour dire qu’il n’y avait pas de retour en arrière.

« Si Napster ferme, il y a d’autres sites là-bas », a déclaré un utilisateur au journaliste. « Et ils peuvent en attraper quelques-uns, mais ils ne peuvent pas tous les arrêter. »

En conclusion, les litiges actuels sur les droits d’auteur liés à l’IA générative pourraient façonner l’avenir de la formation des modèles de langage aux États-Unis. Les jugements rendus dans ces affaires pourraient avoir un impact important sur les auteurs, les éditeurs et les créateurs en général. Les enjeux sont élevés pour déterminer si l’entraînement d’une IA sur des œuvres protégées doit être qualifié de « fair use » ou de violation de droit d’auteur.

Vous pourrez aussi aimer

Les parents disent que la hausse des amendes pendant les vacances scolaires ne nous arrêtera pas.

La démission de la campagne de Biden serait « le plus grand service public » : NYT

Pourquoi Ford croit que son changement de 1,9 milliard de dollars vers les véhicules électriques bénéficiera au constructeur automobile