(*accord sur la possibilité de refuser l’utilisation d’une œuvre à des fins d’entraînement (opt-out) garantissant le respect des droits des créateurs, tout en tenant compte des besoins de l’innovation technologique)
Depuis plus d’un an, à l’initiative de « OpenFuture», organisation dédiée à la promotion de l’innovation et des idées ouvertes dans divers domaines, et notamment la technologie, l’éducation et la durabilité, s’est tenu à Bruxelles, un « Forum informel ». Son objectif : parvenir à un accord sur la possibilité de refuser l’utilisation d’une œuvre à des fins d’entraînement (opt-out) garantissant le respect des droits des créateurs, tout en tenant compte des besoins de l’innovation technologique.
La figure clé de cette initiative, Paul Keller (*), activiste des médias et militant du savoir ouvert, y joue un rôle central. Directeur de la fondation OpenFuture, et Président de Communia, principal lobby en faveur du domaine public, il souligne l’importance de rassembler des experts afin de répondre aux tendances émergentes et aux défis auxquels est confrontée la Société. Il entend ainsi protéger et encourager l’accès aux ressources et connaissances pour le bien commun.
Ce projet n’engage que lui et ne fait absolument pas parti du processus de mise en œuvre de l’IA Act en cours de discussion par le bureau de l’IA de la Commission européenne.
Pour rappel, la directive sur le droit d’auteur-droit voisin du 17 avril 2019, a été transposée dans le droit français par ordonnance le 24 novembre 2021, et suivie d’un décret d’application du 23 juin 2022. Le Code de la propriété intellectuelle reprend ainsi dans ses articles L 122-5-3, R 122-27 et R 122-28, la définition de la fouille de textes et de données comme : « la mise en œuvre d’une technique d’analyse automatisée de textes et données sous forme numérique afin d’en dégager des informations, notamment des constantes, des tendances et des corrélations ».
On comprend donc très bien qu’entre la position des fournisseurs d’accès qui considèrent que l’IA est bien intégrée dans la définition de la fouille de texte, et celle des ayants droit qui rappelle à juste titre que l’IA générative n’existait pas lors de la rédaction de la législation en 2019 il y a un abîme.
Reste que même si le principe de l’exception au droit d’auteur instauré par la directive de 2019 s’appliquait à L’IA, toutes les utilisations ne peuvent pas être légitimées au nom de cette exception.
Le triple test, instauré par la Convention de Berne donne ainsi la possibilité aux Etats de créer des exceptions au droit d’auteur à condition :
1°qu’elles soient limitées à des cas spéciaux,
2°qu’elles ne portent pas atteinte à l’exploitation normale de l’œuvre
3° qu’elles ne causent pas de préjudice injustifié aux intérêts légitimes de l’auteur.
L’exception de fouille ne passe donc pas le « triple test » dans le cadre des IA génératives de contenus.
Au demeurant, la définition d’un signal de réservation de droits « lisible par les machines », devrait se heurter à deux conceptions de l’opt-out :
- Pour les ayants droits, c’est de trouver une méthode simple comme la déclaration habituelle dans les conditions d’utilisation de leurs sites.
- Pour les fournisseurs d’accès c’est de mettre en avant plusieurs moyens de déclarer le refus d’entraînement notamment via le classique fichier « « robots.txt », sachant que celui-ci ne permet que de refuser l’accès aux contenus hébergés directement par les ayants droit….tout est dit.
Malgré tous ces écueils, la volonté de valider «un vocabulaire commun de l’Opt-out » de la part de cette Fondation OpenFuture a pris forme le 7 mars dernier avec la publication de son projet de « vocabulaire technique de la réservation des droits (opt-out) sur l’entraînement de l’IA. »
« Ce vocabulaire présenté a été développé sur la base d’interactions étendues avec les fournisseurs d’opt-out, les titulaires de droits, les fournisseurs de modèles de l’IA et d’autres groupes de technologie d’intérêt public. Le vocabulaire et la note d’orientation reflètent uniquement la position d’OpenFuture basée sur notre meilleure compréhension des questions en jeu dans un espace très controversé », a précisé Paul Keller.
Ce texte a donc été présenté publiquement et contrairement à ce que prétend Paul Keller en aucun cas négocié avec les ayants droit et les entreprises de la tech.
Ce « vocabulaire commun de l’Opt-out » n’a aucune légitimité et ne peut absolument pas être mis en lien avec le Code de bonnes pratiques sur l’IA, pour assurer une utilisation éthique des IA génératives.
Il n’en reste pas moins vrai qu’il s’agit d’un concept amenant à l’élargissement de la définition du « Text and Data Mining » (TDM) tel qu’il est prévu dans la Directive de 2019. D’ailleurs le projet de OpenFuture indique clairement que le TDM « couvre l’entraînement des IA y compris génératives et peut inclure la phase de génération de réponses à partir de nouveaux contenus ».
La conclusion est donc simple : La note d’orientation de la proposition de vocabulaire se compose de trois catégories et celle concernant le « Text and Data Mining » reprend la définition de la Directive européenne sur le marché numérique.
L’un des paragraphes consacrés à l’une de ces catégories stipule clairement que les systèmes d’opt-out peuvent permettre des dérogations allant d’une réservation complète de droits TDM à une clause d’exclusion beaucoup plus ciblée qui écarte l’utilisation des œuvres choisies uniquement dans le cadre de l’entraînement des modèles d’IA qui sont capables de générer un contenu synthétique.
Ce que notre Institut redoutait depuis quelque temps se concrétise hélas. En fait ces fournisseurs d’accès veulent utiliser des créations artistiques ou littéraires pour entraîner leurs algorithmes d’IA afin de générer du contenu synthétique. Or que signifie ce terme « contenu synthétique » ? il désigne « tout contenu produit par une machine qui limite ou reproduit des caractéristiques humaines, comme des textes, des images ou de la musique, sans nécessairement s’appuyer sur des œuvres préexistantes ».
Le contenu synthétique est créé par des algorithmes qui combinent et transforment les données, plutôt que de copier ou de reproduire des œuvres existantes.
Cette méthode peut amener les plateformes à considérer qu’elles n’utilisent pas de contenus originaux protégés par le droit d’auteur ou le droit voisin.
Cette interprétation s’apparente plutôt à un contournement de ces protections permettant l’exploitation d’œuvres sans autorisation des ayants droits, sans avoir à les rémunérer et en les privant de l’activation de l’opt-out.
Ceci pose des questions éthiques et juridiques importantes sur la manière dont l’IA peut interagir avec la propriété intellectuelle. Cette proposition de « vocabulaire commun à l’Opt out » ne peut pas être considérée comme une base de négociation équitable dans le cadre des prochaines réflexions de ce Forum. Elle soulève même des inquiétudes quant à un potentiel affaiblissement des droits de la propriété intellectuelle.
Contrairement à ce qu’indique Paul Keller, les ayants droit ne sont pas majoritairement favorables à sa proposition. Ceux-ci sont plutôt dans une démarche de recherche de «licensing » et d’autorisation. Ils utilisent l’opt-out comme une entrée en voie de négociation et non comme une interdiction.

Colette Bouckaert
Secrétaire Générale iDFrights
*http://openfuture.eu/author/paul/