Meta accusée d’utiliser des torrents et de télécharger du contenu piraté pour entraîner son IA

On dirait que Meta est de nouveau dans le pétrin, et cette fois, c’est une histoire de téléchargement illégale qui fait les gros titres. Selon des documents juridiques récemment dévoilés, Meta aurait utilisé environ 82 téraoctets de livres, des ebooks et de sources académiques piratés pour entraîner ses modèles d’intelligence artificielle. 

Meta
 Image (c) by Depositphotos

Le scandale des ebooks et des livres piratés

Des fuites partagées par le compte vx-underground sur la plateforme X révèlent que Meta aurait téléchargé du contenu depuis des bibliothèques en ligne illégales comme Z-LibraryLibGen et Anna’s Archive. Ces plateformes sont connues pour partager des livres et des articles scientifiques de manière illicite.

Les documents montrent que certains chercheurs en IA de Meta étaient au courant de cette pratique douteuse. En octobre 2022, un chercheur avait mis en garde : « Je ne pense pas que nous devrions utiliser du matériel piraté. Nous devons tracer une ligne claire ici. ». Un autre ajoutait : « Utiliser des matériaux piratés doit être un tabou éthique. ». Malgré ces avertissements internes, les téléchargements et l’entraînement avec ces données ont continué.

Torrent depuis les ordinateurs de l’entreprise !

Mais ce n’est pas tout. Des messages divulgués indiquent que des employés de Meta craignaient d’être tracés en utilisant les ordinateurs de l’entreprise pour télécharger du contenu piraté. Lors d’une réunion en janvier 2023, présidée par Mark Zuckerberg lui-même, ces préoccupations ont été soulevées. Trois mois plus tard, un employé plaisantait avec un collègue : « Télécharger via torrent depuis un laptop de l’entreprise ne semble pas correct. ». Cela montre une sorte de complicité interne pour masquer leurs actions.

À lire aussi :   WhatsApp annonce de nouvelles fonctionnalités

Les documents juridiques mentionnent également que Meta aurait pris des mesures pour dissimuler toute trace de son implication. Ils ont effacé les activités de téléchargement et de torrent de tous les appareils pour rendre difficile tout traçage de leurs actes.

Pas seulement Meta, Nvidia s’est retrouvée dans une situation semblable

Ce n’est pas seulement Meta qui est concernée. Nvidia, une autre grande entreprise technologique, s’est retrouvée dans une situation semblable après des révélations montrant qu’elle avait utilisé 196 640 livres pour entraîner son modèle d’IA NeMo avant de devoir les supprimer. Selon un ancien employé de Nvidia, l’entreprise a également collecté 426 000 heures de vidéos par jour à des fins de formation.

L’affaire contre Meta en est encore à ses débuts et pourrait prendre des mois voire des années avant un jugement final. Même si l’entreprise est reconnue coupable, elle dispose d’une armée d’avocats et de ressources financières importantes pour faire appel et retarder toute conséquence juridique.

Il est important de noter que ce que Meta a fait n’est pas une exception dans le monde de l’IA. De nombreuses entreprises exploitent les données disponibles sur Internet pour entraîner leurs modèles. Par exemple, OpenAI a déjà fait face à des poursuites similaires intentées par des auteurs et des créateurs, accusant l’entreprise d’utiliser leurs œuvres sans autorisation. De même, le New York Times a déposé une plainte contre OpenAI en décembre dernier.

- Publicité -

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Délai dépassé. Veuillez compléter le captcha une fois de plus.