Le 22 mai dernier, le consortium ArGiMi remportait l’appel à projet « Communs numériques pour l’Intelligence artificielle (IA) générative » que Bpifrance avait publié en octobre 2023 dans le cadre de « France 2030 », le programme phare de soutien aux investissements des entreprises françaises visant à 1) Réindustrialiser la France, 2) Atteindre les objectifs climat 2030, et 3) Assurer l’émergence et la croissance des startups Deeptech françaises. Vaste programme pour lequel Bpifrance dispose de vastes moyens, puisque la banque publique d’investissement peut compter sur ses fonds propres, mobiliser ceux de l’État et doit s’attacher à permettre l’émergence de fonds privés thématiques, avec l’objectif d’injecter pas moins de 5 Md€ entre 2024 et 2028 dans des projets d’IA tous métiers confondus.
Nous sommes donc au cœur de la politique publique d’innovation, prioritaire pour la souveraineté économique française et sa croissance industrielle, qui dans la « tech » s’est donnée pour ambition de permettre l’éclosion de 100 licornes françaises d’ici 2030. Depuis le lancement en janvier 2013 de la Mission French Tech par Fleur Pellerin, alors ministre déléguée auprès du ministre de l’Innovation et de l’Économie numérique, il est indéniable que cette action publique continue a été exemplaire, puisqu’elle a permis en à peine dix ans une transformation profonde de notre économie à partir du label « French Tech », sous lequel se sont constitués des écosystèmes économiques locaux, devenant rapidement régionaux, pour former un véritable modèle économique sur lequel s’appuie aujourd’hui « France 2030 ». C’est dire le chemin parcouru dans le roman économique national, que cette action publique va contribuer à enrichir de nouveaux chapitres que l’on attend au moins depuis ceux sur Airbus et le TGV.
C’est dans ce contexte que s’inscrit l’appel à projet sur les communs numériques pour l’IA générative, puisqu’il vise à créer la prochaine génération de Large Language Models (LLM) francophones – ces modèles de langage qui permettent de développer l’IA en se nourrissant d’un volume toujours croissant de données. Ce sont en effet ces données qui permettent d’entrainer les machines jusqu’à ce qu’elles soient capables de converser et raisonner dans une langue qui aujourd’hui, au niveau mondial, n’est pas le français. Et c’est un sérieux frein à l’éclosion de licornes françaises dans l’IA car si la France se proclame régulièrement en tête de l’innovation en IA, la langue française ne suit pas, faute de données en quantité et qualité suffisantes pour vouloir fiabiliser et déployer des modèles de langage suffisamment robustes pour industrialiser des projets d’IA générative conçus en, et surtout à partir du, français.
Alors qu’on estime à peine à 5% le taux de réussite industrielle des projets d’IA générative, c’est la menace d’une nouvelle vallée de la mort technologique qu’il faut éloigner au plus vite des projets français, si l’on veut préserver le rang de la France et qu’elle ait ses champions industriels dans la compétition mondiale pour développer l’IA générative et en faire bénéficier son économie et sa société – bref, ne pas revivre l’humiliation des débuts de l’Internet.
En remportant l’appel à projet, le consortium ArGiMi sait qu’il va devoir piloter un projet sensible pour la nation et pour les entreprises qui ont fondé le consortium, chacune étant leaders dans son domaine respectif :
- Mistral AI développe de nouveaux modèles d’intelligence artificielle générative pour les entreprises, en combinant l’excellence scientifique, une approche ouverte et une vision responsable de la technologie.
- Artefact excelle dans l’intégration de ces modèles dans des applications industrielles.
- Giskard est expert de l’évaluation de la qualité, de la conformité et de la sécurité des modèles.
Les livrables sont tout aussi clé pour renforcer leurs leadership puisque le consortium propose des solutions complètes pour intégrer les LLM francophones au sein des entreprises et couvrir toute la chaîne de vie de ces langages. Outre les compétences conjuguées de ses entreprises, le consortium met en avant deux autres atouts :
- La collaboration de partenaires publics et privés pour enrichir les modèles de langage : l’Institut national de l’audiovisuel (INA) et la Bibliothèque nationale de France (BnF) côté public et Cdiscount, Ardian et le Crédit Mutuel Arkéa côté secteur privé ;
- Son engagement envers le partage des méthodologies, des modèles et des données de spécialisation en open source. Le consortium l’indique comme « une caractéristique clé de son projet » qui « favorise l’accessibilité et la personnalisation tout en respectant les normes éthiques. Dans cet objectif, Artefact collaborera avec CentraleSupélec Université Paris-Saclay pour monter une équipe mixte de recherche ».
Prenant note des ambitions du consortium et des enjeux du projet, l’Institut s’associe à l’Alliance de la presse d’information générale (APIG), au Syndicat des Editeurs de la presse magazine (SEPM) et à la Société des Auteurs et Compositeurs Dramatiques (SACD), pour dénoncer la forme que le consortium entend donner à son engagement profond « à façonner un avenir où l’IA est éthique et inclusive, respectueuse du droit d’auteur, de l’éthique et de son impact environnement et conforme aux régulations en vigueur » tel qu’il l’affirme le 22 mai 2024 dans son communiqué de presse de lauréat de l’appel à projet.
Le consortium entend en effet bénéficier du projet « Villers-Cotterêts », du nom de la Cité internationale de la langue française récemment inaugurée ; il s’agit d’y créer un pôle de référence du traitement automatique du français et des langues de France, qui accueillera des chercheurs, des entreprises expertes et startups aux côtés d’associations et institutions spécialisées dans le traitement automatique de la langue et l’IA. Ce projet, également soutenu par Bpifrance dans le cadre de l’appel France 2030, sera la principale contribution de la France à Edic (European Digital Infrastructure Consortium), le consortium européen dédié au Traitement automatique de la langue.
ArGiMi entend ainsi pouvoir accéder librement aux données conservées par l’INA et la BnF, en vertu du dépôt légal stipulé à l’article L 131.2 du Code du patrimoine. Toutefois, ces données incluent des contenus de presse et des œuvres culturelles encore protégés par le droit d’auteur. Si l’objectif du dépôt légal et le contrôle de l’accès aux collections et fonds de l’INA, de la BnF ou du CNC ont évolué, notamment pour numériser le patrimoine culturel, les assouplissements qui en découlent doivent rester limités à des chercheurs dûment accrédités consultant les archives pour des projets de recherche universitaire, professionnelle, artistique ou pédagogique – projets qui n’ont pas un champ illimité comme le sera celui piloté par le consortium ArGiMi.
L’Institut rappelle que, conformément au Code de la propriété intellectuelle, tout organisme dépositaire du dépôt légal doit se conformer à la législation en vigueur. Il est impératif d’obtenir l’autorisation de l’auteur de l’œuvre, du titulaire du droit voisin ou du producteur de la base de données avant toute communication publique, pour éviter de nuire commercialement aux auteurs.
Le projet ArGiMi vise à répondre aux défis de l’industrialisation de l’IA générative : l’Institut appelle le consortium, ses partenaires et l’État à en faire un projet exemplaire en matière de respect des droits de propriété intellectuelle applicables au corpus de textes et vidéos provenant de la littérature et de l’audiovisuel. Le consortium ne saurait prétendre s’acquitter de ses obligations légales et morales envers les journalistes, éditeurs de presse, auteurs et compositeurs, ou leurs ayants-droits, en invoquant que ses activités relèvent de la recherche et que ses solutions pour intégrer des modèles de langage dans les entreprises seront accessibles en open source.
Si ce projet a l’importance que tout le monde lui prête, il doit non seulement satisfaire aux exigences et aux obligations imposées par la législation en vigueur mais aussi s’attaquer au défi d’une IA générative compatible avec la propriété intellectuelle : c’est l’intérêt de la France dont le patrimoine culturel s’enrichit chaque année des œuvres et créations de ces artistes et auteurs qui font le choix de la France et de la langue française et dont l’engagement est tout aussi essentiel pour la souveraineté culturelle française que ne l’est l’IA. Il est temps d’arrêter la politique de l’autruche et d’ouvrir les yeux sur une situation que les autorités françaises ne peuvent pas remettre sous le tapis comme elles le firent au moment de l’émergence des champions et modèles économiques de l’Internet : on a vu combien les GAFAM se sont engagés à respecter la propriété intellectuelle et combien il aura fallu de sanctions pour qu’ils acceptent enfin d’appliquer ses règles, et encore pas toutes et de mauvaise grâce malgré l’entrée en vigueur des règlements européens du DSA et du DMA.
Si l’IA générative veut continuer à se développer de manière éthique et dans le respect de tous, que la France soutienne la recherche d’un modèle économique durable, équitable et juste, envers toutes les parties : l’Institut est prêt à y travailler avec celles qui le lui demanderont et continuera à suivre les travaux d’ArGiMi, afin que sa réussite puisse être exemplaire et une fierté nationale pour tous, sans exception.
Thomas Kieffer
Vice-Président iDFrights
et
Colette Bouckaert
Secrétaire Générale iDFrights