Image by Marco Verch, from Ccnull

Labyrinthe IA: Le Nouvel Outil de Cloudflare Trompe les Robots d’IA avec de Faux Sites Web

Temps de lecture: 4 minute

Dernière mise à jour : Mar 25, 2025

Écrit par Kiara Fabbri Journaliste multimédia
Traduit par L'équipe de localisation et de traduction L'équipe de localisation et de traduction

Cloudflare a annoncé « AI Labyrinth », un outil conçu pour lutter contre les extracteurs de données web pilotés par l’IA qui extraient des données des sites web sans autorisation.

Pressée ? Voici les faits en bref :

L’outil génère un contenu réaliste mais inutile créé par l’IA pour faire perdre du temps aux récupérateurs de données.
L’AI Labyrinth cible les bots qui ignorent les fichiers robots.txt, y compris ceux d’Anthropic et Perplexity AI.
Il fonctionne comme un pot de miel de nouvelle génération, détectant et identifiant les robots d’exploration non autorisés.

Au lieu de bloquer ces robots de manière radicale, AI Labyrinth les trompe en les entraînant dans un labyrinthe sans fin de pages générées par l’IA, gaspillant leur temps et leur puissance de calcul.

« Lorsque nous détectons un crawl non autorisé, plutôt que de bloquer la demande, nous dirigerons vers une série de pages générées par IA qui sont suffisamment convaincantes pour inciter un crawler à les parcourir, » a expliqué Cloudflare dans un article de blog.

« Mais bien que d’apparence réelle, ce contenu n’est pas réellement le contenu du site que nous protégeons, si bien que le crawler gaspille du temps et des ressources, » a ajouté Cloudflare.

ArsTechnica souligne que les aspirateurs d’IA posent problème car ils récoltent d’énormes quantités de données sur les sites web, souvent sans autorisation, pour entraîner des modèles d’IA. Cela crée plusieurs problèmes : cela peut enfreindre les droits de propriété intellectuelle, en contournant les contrôles que les propriétaires de sites web utilisent pour réguler l’accès.

De plus, le grattage peut conduire à la mauvaise utilisation de données sensibles ou exclusives. Le volume de grattage a augmenté de manière spectaculaire, Cloudflare signalant plus de 50 milliards de demandes de robots par jour.

Cette extraction de données à grande échelle épuise les ressources des sites web, affectant leur performance et leur confidentialité tout en contribuant aux préoccupations croissantes concernant l’exploitation des données dans le développement de l’IA.

Alors que les propriétaires de sites web comptent traditionnellement sur le fichier robots.txt pour indiquer aux bots ce qu’ils peuvent ou ne peuvent pas accéder, de nombreuses entreprises d’IA, y compris des acteurs majeurs comme Anthropic et Perplexity AI, ont été accusées d’ignorer ces directives, comme le rapporte The Verge.

Le Labyrinthe AI de Cloudflare propose une approche plus agressive pour faire face à ces bots indésirables. L’outil fonctionne comme un « honeypot de nouvelle génération », attirant les bots plus profondément dans une toile artificielle de contenu qui semble réelle mais qui est finalement inutile pour la formation de l’IA.

Contrairement aux honeypots traditionnels, que les bots ont appris à identifier, le Labyrinthe AI crée des informations réalistes mais sans pertinence en utilisant la plateforme Cloudflare’s Workers AI.

« Aucun véritable humain n’irait quatre liens plus loin dans un dédale de non-sens généré par l’IA », a noté Cloudflare. « Tout visiteur qui le fait est très probablement un bot, ce qui nous donne un tout nouvel outil pour identifier et empreinter les mauvais bots. »

Le contenu généré par l’IA est conçu pour être scientifiquement factuel mais sans rapport avec le site web réellement protégé.

Cela garantit que l’outil ne contribue pas à la désinformation tout en déroutant toujours les récupérateurs d’IA. Les pages trompeuses sont invisibles pour les visiteurs humains et n’affectent pas le classement des moteurs de recherche.

AI Labyrinth est disponible en tant que fonctionnalité gratuite et facultative pour tous les utilisateurs de Cloudflare. Les administrateurs de site web peuvent l’activer via leur tableau de bord Cloudflare sous les paramètres de Gestion des Bots.

La société décrit cela comme seulement le début des contre-mesures dirigées par l’IA, avec des plans futurs pour rendre les fausses pages encore plus trompeuses.

Le jeu du chat et de la souris entre les sites web et les récupérateurs d’IA continue, avec Cloudflare adoptant une approche innovante pour protéger le contenu en ligne. Cependant, des questions subsistent sur la rapidité avec laquelle les entreprises d’IA s’adapteront à ces pièges et si cette stratégie pourrait conduire à une escalade dans la bataille pour les données web.

Labyrinthe IA: Le Nouvel Outil de Cloudflare Trompe les Robots d’IA avec de Faux Sites Web

Nous sommes heureux que vous ayez apprécié notre service !

Laisser un commentaire