Sur quoi reposent vraiment les modèles d’IA ?
Les modèles génératifs (GPT-4, Llama 3, etc.) sont entraînés à partir de trillions de mots, d’images et de lignes de code. Mais d’où viennent exactement ces données ? Livres, articles scientifiques, Wikipédia, blogs, forums, réseaux sociaux, dépôts Git, bases d’images qualifiées, etc. Cela soulève une question clé — comment évaluer la fiabilité et la légalité d’un modèle sans interroger l’origine des contenus qui l’ont formé ?
Les images utilisées sont-elles légitimes ?
L’entraînement visuel requiert des millions d’images étiquetées (« chat », « chien », etc.). Mais nombre d’entre elles proviennent de réseaux sociaux ou de banques d’images sans licences explicites. Quelles garanties avons-nous sur leur usage ? Il apparaît évident que rien ne peut garantir l’usage de ces images, d’autant qu’en les prenant sur les réseaux l’incertitude leur provenance est une évidence. Qui va m’empêcher de publier une image protégée alors que je peux l’avoir transformée avant de la publier sur le mur de mon réseau ?
De plus, il sera difficile de contrôler ce point puisque l’IA va permettre de générer une nouvelle image, en quelque sorte sur la base de toutes celles qu’elle a stockée.
D’où viennent les textes littéraires et techniques ?
Les
corpus textuels agrègent œuvres du domaine public (auteurs morts depuis
plus de 70 ans) et très certainement des contenus encore protégés :
romans contemporains, manuels, articles payants… Sur quelles bases
juridiques ces textes sont-ils intégrés ? Que sait-on (point
intéressant) des pièces que nous chargeons dans les applications pour en
extraire un résumé ou simplement une autre version. On pourrait
supposer que ces textes ingérés vont nourrir le modèle qui s’enrichit
ainsi sans cesse. Pourtant ce ne serait pas le cas, voici ce qu’en dit
par exemple Perplexity : "Les textes que vous chargez ne sont
généralement pas utilisés pour réentraîner le modèle, sauf si vous
donnez explicitement votre consentement. Par exemple, OpenAI indique que
les données des utilisateurs ne servent pas à l’entraînement du modèle
par défaut, sauf dans certains cas spécifiques ».
Certaines entreprises achètent des livres pour les numériser dans le cadre du « fair use » américain, d’autres s’appuient sur des bases ouvertes. Et les accords commerciaux récents — comme ceux conclus par OpenAI avec Le Monde ou The Financial Times — pourraient-ils devenir la norme d’un entraînement plus éthique ?
Le droit d’auteur est-il respecté ?
En Europe, la fouille de textes et de données (TDM) est autorisée, sauf opposition explicite. Cependant il y aurait de nombreuses failles dans son application. Aux États-Unis, le « fair use » reste flou. Comment savoir si l’intégration d’une œuvre protégée constitue ou non une contrefaçon ? Et dans quelle mesure le résultat généré peut-il être considéré comme dérivé ou reconnaissable ? Et encore faudrai-il procéder à des contrôles dans les serveurs de ces modèles. En fouillant sur les sites bien informés, en questionnant les spécialistes, il semble qu’aucun audit n’ait été mené et les entreprises de l’IA conservent bien secrètement leurs données. Donc, nous aurons assurément des surprises.
Quels risques juridiques et éthiques faut-il anticiper ?
Si un modèle reproduit une œuvre de manière trop proche, qui est responsable : l’utilisateur ou l’éditeur de l’IA ? Quels dispositifs mettre en place — filtres anti-plagiat, audits réguliers, politique de retrait rapide — pour se prémunir ?
En l'absence de transparence sur les données utilisées, la légitimité des modèles d'IA reste une interrogation. La question ne peut plus être éludée mais il n’est pas certain que cela nous interpelle en tant que simple utilisateur.