Que se cache-t-il derrière le projet « Villers-Cotterêts » ?

30 juillet 2024

Le 22 mai dernier, le consortium ArGiMi remportait l’appel à projet « Communs numériques pour l’Intelligence artificielle (IA) générative » que Bpifrance avait publié en octobre 2023 dans le cadre de « France 2030 », le programme phare de soutien aux investissements des entreprises françaises visant à 1) Réindustrialiser la France, 2) Atteindre les objectifs climat 2030, et 3) Assurer l’émergence et la croissance des startups Deeptech françaises. Vaste programme pour lequel Bpifrance dispose de vastes moyens, puisque la banque publique d’investissement peut compter sur ses fonds propres, mobiliser ceux de l’État et doit s’attacher à permettre l’émergence de fonds privés thématiques, avec l’objectif d’injecter pas moins de 5 Md€ entre 2024 et 2028 dans des projets d’IA tous métiers confondus.

Nous sommes donc au cœur de la politique publique d’innovation, prioritaire pour la souveraineté économique française et sa croissance industrielle, qui dans la « tech » s’est donnée pour ambition de permettre l’éclosion de 100 licornes françaises d’ici 2030. Depuis le lancement en janvier 2013 de la Mission French Tech par Fleur Pellerin, alors ministre déléguée auprès du ministre de l’Innovation et de l’Économie numérique, il est indéniable que cette action publique continue a été exemplaire, puisqu’elle a permis en à peine dix ans une transformation profonde de notre économie à partir du label « French Tech », sous lequel se sont constitués des écosystèmes économiques locaux, devenant rapidement régionaux, pour former un véritable modèle économique sur lequel s’appuie aujourd’hui « France 2030 ». C’est dire le chemin parcouru dans le roman économique national, que cette action publique va contribuer à enrichir de nouveaux chapitres que l’on attend au moins depuis ceux sur Airbus et le TGV.

C’est dans ce contexte que s’inscrit l’appel à projet sur les communs numériques pour l’IA générative, puisqu’il vise à créer la prochaine génération de Large Language Models (LLM) francophones – ces modèles de langage qui permettent de développer l’IA en se nourrissant d’un volume toujours croissant de données. Ce sont en effet ces données qui permettent d’entrainer les machines jusqu’à ce qu’elles soient capables de converser et raisonner dans une langue qui aujourd’hui, au niveau mondial, n’est pas le français. Et c’est un sérieux frein à l’éclosion de licornes françaises dans l’IA car si la France se proclame régulièrement en tête de l’innovation en IA, la langue française ne suit pas, faute de données en quantité et qualité suffisantes pour vouloir fiabiliser et déployer des modèles de langage suffisamment robustes pour industrialiser des projets d’IA générative conçus en, et surtout à partir du, français.

Alors qu’on estime à peine à 5% le taux de réussite industrielle des projets d’IA générative, c’est la menace d’une nouvelle vallée de la mort technologique qu’il faut éloigner au plus vite des projets français, si l’on veut préserver le rang de la France et qu’elle ait ses champions industriels dans la compétition mondiale pour développer l’IA générative et en faire bénéficier son économie et sa société – bref, ne pas revivre l’humiliation des débuts de l’Internet.

En remportant l’appel à projet, le consortium ArGiMi sait qu’il va devoir piloter un projet sensible pour la nation et pour les entreprises qui ont fondé le consortium, chacune étant leaders dans son domaine respectif :

Mistral AI développe de nouveaux modèles d’intelligence artificielle générative pour les entreprises, en combinant l’excellence scientifique, une approche ouverte et une vision responsable de la technologie.
Artefact excelle dans l’intégration de ces modèles dans des applications industrielles.
Giskard est expert de l’évaluation de la qualité, de la conformité et de la sécurité des modèles.

Les livrables sont tout aussi clé pour renforcer leurs leadership puisque le consortium propose des solutions complètes pour intégrer les LLM francophones au sein des entreprises et couvrir toute la chaîne de vie de ces langages. Outre les compétences conjuguées de ses entreprises, le consortium met en avant deux autres atouts :

La collaboration de partenaires publics et privés pour enrichir les modèles de langage : l’Institut national de l’audiovisuel (INA) et la Bibliothèque nationale de France (BnF) côté public et Cdiscount, Ardian et le Crédit Mutuel Arkéa côté secteur privé ;
Son engagement envers le partage des méthodologies, des modèles et des données de spécialisation en open source. Le consortium l’indique comme « une caractéristique clé de son projet » qui « favorise l’accessibilité et la personnalisation tout en respectant les normes éthiques. Dans cet objectif, Artefact collaborera avec CentraleSupélec Université Paris-Saclay pour monter une équipe mixte de recherche ».

Prenant note des ambitions du consortium et des enjeux du projet, l’Institut s’associe à l’Alliance de la presse d’information générale (APIG), au Syndicat des Editeurs de la presse magazine (SEPM) et à la Société des Auteurs et Compositeurs Dramatiques (SACD), pour dénoncer la forme que le consortium entend donner à son engagement profond « à façonner un avenir où l’IA est éthique et inclusive, respectueuse du droit d’auteur, de l’éthique et de son impact environnement et conforme aux régulations en vigueur » tel qu’il l’affirme le 22 mai 2024 dans son communiqué de presse de lauréat de l’appel à projet.

Le consortium entend en effet bénéficier du projet « Villers-Cotterêts », du nom de la Cité internationale de la langue française récemment inaugurée ; il s’agit d’y créer un pôle de référence du traitement automatique du français et des langues de France, qui accueillera des chercheurs, des entreprises expertes et startups aux côtés d’associations et institutions spécialisées dans le traitement automatique de la langue et l’IA. Ce projet, également soutenu par Bpifrance dans le cadre de l’appel France 2030, sera la principale contribution de la France à Edic (European Digital Infrastructure Consortium), le consortium européen dédié au Traitement automatique de la langue.

ArGiMi entend ainsi pouvoir accéder librement aux données conservées par l’INA et la BnF, en vertu du dépôt légal stipulé à l’article L 131.2 du Code du patrimoine. Toutefois, ces données incluent des contenus de presse et des œuvres culturelles encore protégés par le droit d’auteur. Si l’objectif du dépôt légal et le contrôle de l’accès aux collections et fonds de l’INA, de la BnF ou du CNC ont évolué, notamment pour numériser le patrimoine culturel, les assouplissements qui en découlent doivent rester limités à des chercheurs dûment accrédités consultant les archives pour des projets de recherche universitaire, professionnelle, artistique ou pédagogique – projets qui n’ont pas un champ illimité comme le sera celui piloté par le consortium ArGiMi.

L’Institut rappelle que, conformément au Code de la propriété intellectuelle, tout organisme dépositaire du dépôt légal doit se conformer à la législation en vigueur. Il est impératif d’obtenir l’autorisation de l’auteur de l’œuvre, du titulaire du droit voisin ou du producteur de la base de données avant toute communication publique, pour éviter de nuire commercialement aux auteurs.

Le projet ArGiMi vise à répondre aux défis de l’industrialisation de l’IA générative : l’Institut appelle le consortium, ses partenaires et l’État à en faire un projet exemplaire en matière de respect des droits de propriété intellectuelle applicables au corpus de textes et vidéos provenant de la littérature et de l’audiovisuel. Le consortium ne saurait prétendre s’acquitter de ses obligations légales et morales envers les journalistes, éditeurs de presse, auteurs et compositeurs, ou leurs ayants-droits, en invoquant que ses activités relèvent de la recherche et que ses solutions pour intégrer des modèles de langage dans les entreprises seront accessibles en open source.

Si ce projet a l’importance que tout le monde lui prête, il doit non seulement satisfaire aux exigences et aux obligations imposées par la législation en vigueur mais aussi s’attaquer au défi d’une IA générative compatible avec la propriété intellectuelle : c’est l’intérêt de la France dont le patrimoine culturel s’enrichit chaque année des œuvres et créations de ces artistes et auteurs qui font le choix de la France et de la langue française et dont l’engagement est tout aussi essentiel pour la souveraineté culturelle française que ne l’est l’IA. Il est temps d’arrêter la politique de l’autruche et d’ouvrir les yeux sur une situation que les autorités françaises ne peuvent pas remettre sous le tapis comme elles le firent au moment de l’émergence des champions et modèles économiques de l’Internet : on a vu combien les GAFAM se sont engagés à respecter la propriété intellectuelle et combien il aura fallu de sanctions pour qu’ils acceptent enfin d’appliquer ses règles, et encore pas toutes et de mauvaise grâce malgré l’entrée en vigueur des règlements européens du DSA et du DMA.

Si l’IA générative veut continuer à se développer de manière éthique et dans le respect de tous, que la France soutienne la recherche d’un modèle économique durable, équitable et juste, envers toutes les parties : l’Institut est prêt à y travailler avec celles qui le lui demanderont et continuera à suivre les travaux d’ArGiMi, afin que sa réussite puisse être exemplaire et une fierté nationale pour tous, sans exception.

Thomas Kieffer
Vice-Président iDFrights

et

Colette Bouckaert
Secrétaire Générale iDFrights

Retrouvez plus d'articles sur : #DonnéesPersonnelles | #intelligenceartificielle

Partager cet article :

Plus d’articles

Absence de souveraineté dans la certification cyber EUCS : enjeux et risques pour les données publiques françaises

22 Jan 2026

Le mécanisme juridique, les risques pour les structures publiques françaises

Analyse de la situation
La proposition de révision du règlement sur la cybersécurité, présentée le 20 janvier 2026 par la Commission européenne, soulève d’importantes préoccupations concernant la protection des données des citoyens européens et annonce des répercussions potentielles sur les entreprises et institutions publiques françaises.

lire plus

Derrière la tech et ses monopoles : qui y a-t-il ?

21 Jan 2026

Le 4 décembre 2025, l’administration Trump a publié sa Stratégie de Sécurité Nationale (NSS), document censé définir les priorités diplomatiques et militaires des États-Unis. Mais sous la rhétorique de l’« America First », se cache une déclaration de guerre idéologique contre l’Europe démocratique. Ce texte officiel mérite une lecture attentive, car il préfigure un basculement historique dont les conséquences pour notre continent seront déterminantes.

lire plus

Accès des Etats-Unis aux bases de données biométriques de l’UE : enjeux de souveraineté, de protection des données et d’état de droit

14 Jan 2026

Dans un contexte croissant d’échanges de données, l’Union européenne envisage de permettre aux États-Unis l’accès à des bases de données biométriques européennes (empreintes digitales, visages, opinions politiques et religieuses) afin de préserver l’exemption de visa pour les voyageurs européens vers les Etats Unis. Cette décision soulève d’importants enjeux pour la souveraineté numérique, la protection des données et les droits fondamentaux des citoyens de l’UE.

lire plus

Plus d'articles

Cookie	Durée	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Suivez-nous

Sur Linkedin

Plus d’articles

Absence de souveraineté dans la certification cyber EUCS : enjeux et risques pour les données publiques françaises

Derrière la tech et ses monopoles : qui y a-t-il ?

Accès des Etats-Unis aux bases de données biométriques de l’UE : enjeux de souveraineté, de protection des données et d’état de droit

Restez informés ! Découvrez la Newsletter de l'iDFRights

Message de succès

Les partenaires de l’iDFRights