Les Bots IA Surchargent les Serveurs de Wikipédia

Image by Oberon Copeland, from Unsplash

Les Bots IA Surchargent les Serveurs de Wikipédia

Temps de lecture: 3 minute

La Fondation Wikimedia a tiré la sonnette d’alarme face à la pression croissante sur ses serveurs due aux bots automatisés qui extraient des données pour entraîner des modèles d’intelligence artificielle.

Pressée? Voici les faits en bref :

  • Les robots IA extraient du contenu de Wikimedia à des niveaux record.
  • Les robots ont provoqué une augmentation de 50% de l’utilisation de la bande passante multimédia.
  • 65% du trafic à coût élevé provient désormais des crawlers.

La Fondation a récemment rapporté dans un article que le trafic généré par les machines continue de croître à un rythme sans précédent, tandis que les humains ne représentent qu’une petite partie de ce trafic.

« Depuis janvier 2024, nous avons constaté une augmentation de 50% de la bande passante utilisée pour le téléchargement de contenus multimédia », indique le post.

« Cette augmentation ne provient pas des lecteurs humains, mais principalement de programmes automatisés qui parcourent le catalogue d’images de Wikimedia Commons sous licence ouverte pour fournir des images aux modèles d’IA », a ajouté le post.

Les bots connus sous le nom de rampants volent d’importantes quantités de données des projets de Wikimedia, dont Wikipedia et Wikimedia Commons, sans crédit approprié ou outils d’accès officiels. Ce processus rend difficile pour les nouveaux utilisateurs de découvrir Wikimedia et met une pression excessive sur leurs systèmes techniques.

Par exemple, l’article note que la page Wikipedia de Jimmy Carter a reçu plus de 2,8 millions de vues le jour de son décès en décembre 2024. La vidéo du débat de 1980 a provoqué une augmentation significative du trafic sur le site. Une vidéo de son débat de 1980 a également provoqué un pic de trafic. Wikimedia a géré la situation – mais de justesse. Le véritable problème, selon les ingénieurs, est le flux continu de trafic de bots.

« 65% de notre trafic le plus coûteux provient de robots », a écrit la Fondation. Les robots « lisent en masse » le contenu, en particulier les pages moins populaires, ce qui déclenche des requêtes coûteuses vers les centres de données centraux de Wikimedia.

Bien que le contenu de Wikimedia soit libre d’utilisation, ses serveurs ne le sont pas. « Notre contenu est gratuit, notre infrastructure ne l’est pas », a déclaré la Fondation. L’équipe continue de développer des méthodes pour promouvoir une « utilisation responsable de l’infrastructure » en incitant les développeurs à utiliser l’API plutôt que de ratisser l’ensemble du site.

Le problème touche Wikimedia ainsi que de nombreux autres sites web et éditeurs. Mais pour la plus grande plateforme mondiale de connaissance ouverte, cela menace la stabilité des services sur lesquels des millions de personnes comptent.

Vous avez aimé cet article ? Notez-le !
Mauvais Je n'ai pas vraiment aimé C'était bien Plutôt bien ! J'ai aimé !

Nous sommes heureux que vous ayez apprécié notre service !

En tant que fidèle lecteur de notre contenu, pourriez-vous nous donner un coup de pouce en nous laissant une petite évaluation sur Trustpilot ? C'est rapide et cela nous aide beaucoup. Merci pour votre fidélité !

Évaluez notre service sur Trustpilot
0 Évalué par 0 utilisateurs
Titre
Commentaire
Merci pour votre avis
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Laisser un commentaire

Loader
Loader En savoir plus...