Tech

Ce que le paiement au crawl de Cloudflare signifie pour les entreprises d'IA et les éditeurs

TechCrunchil y a 2 h
Rangées de serveurs et câbles réseau dans un centre de données
Rangées de serveurs et câbles réseau dans un centre de donnéesPhoto: Brett Sayles / Pexels

Cloudflare, l'entreprise d'infrastructure qui se place devant une grande partie des sites web du monde, a introduit une politique susceptible de changer l'économie de l'industrie de l'IA. Selon la nouvelle approche, l'entreprise bloquera par défaut les robots d'IA et donnera aux éditeurs qu'elle protège un moyen de leur facturer l'accès, un modèle qu'elle appelle paiement au crawl.

Pour comprendre pourquoi cela compte, il faut savoir ce que font les robots d'indexation. Des bots automatisés parcourent le web depuis longtemps, téléchargeant des pages pour que les moteurs de recherche les indexent. Les entreprises d'IA exploitent désormais leurs propres robots pour récolter les immenses quantités de texte et d'images servant à entraîner les grands modèles de langage et à répondre aux questions des utilisateurs, souvent sans rémunérer les sites dont elles consomment le travail.

Ce déséquilibre est le grief que Cloudflare dit vouloir traiter. Les éditeurs affirment que les systèmes d'IA ingèrent leurs articles, images et données, puis fournissent des réponses qui dissuadent les lecteurs de visiter le site d'origine, érodant les revenus publicitaires et d'abonnement qui financent le journalisme et d'autres contenus. Le marché traditionnel, où la recherche renvoyait du trafic en échange de l'accès, s'est affaibli à mesure que les réponses de l'IA retiennent les utilisateurs sur place.

La réponse de Cloudflare inverse le réglage par défaut. Plutôt que d'autoriser les bots d'IA à crawler librement à moins qu'un site ne prenne des mesures pour les bloquer, l'entreprise traitera les robots d'IA comme bloqués à moins qu'un éditeur ne choisisse de les autoriser, et elle propose un mécanisme permettant à l'éditeur de fixer un prix d'accès. De fait, elle transforme le crawl d'une activité gratuite par défaut en une transaction potentiellement payante.

Parce que Cloudflare se place devant tant de sites, ce changement pèse d'un poids inhabituel. Qu'un seul fournisseur d'infrastructure adopte cette position peut déplacer les normes de l'industrie d'une manière qu'aucun éditeur isolé ne pourrait obtenir. Cela donne aux sites web un levier collectif qui leur manquait dans les négociations avec des entreprises d'IA bien plus grandes.

Pour les entreprises d'IA, les implications vont dans plusieurs directions. Si une part significative du web se met à facturer l'accès aux robots, le coût de la collecte de données d'entraînement et en temps réel pourrait augmenter, et le web ouvert librement récupérable pourrait se rétrécir. Les entreprises pourraient devoir conclure des accords de licence, payer des frais au crawl ou s'appuyer davantage sur les données qu'elles détiennent déjà ou peuvent obtenir de partenaires consentants.

La politique croise aussi une vague de litiges juridiques et commerciaux sur l'IA et le droit d'auteur. Les éditeurs et ayants droit ont déposé des plaintes et signé des accords de licence avec les développeurs d'IA, et une couche technique d'application comme celle de Cloudflare pourrait renforcer leur position de négociation en rendant le crawl non autorisé plus difficile dès le départ.

Des questions et des risques subsistent. Certains craignent que restreindre le contenu derrière des frais de crawl fragmente le web ouvert ou désavantage les développeurs et chercheurs en IA plus modestes qui ne peuvent se permettre de gros budgets de licence, renforçant potentiellement les plus grands acteurs. D'autres notent que des robots déterminés pourraient chercher à contourner ces contrôles, instaurant un jeu du chat et de la souris technique.

Le geste soulève aussi la question plus large de savoir qui fixe les règles de la tuyauterie du web. Concentrer ce pouvoir entre les mains de quelques entreprises d'infrastructure présente des avantages pour la coordination mais des inquiétudes pour la concurrence, et le paiement au crawl testera le degré d'aise de l'industrie face à un tel rôle de gardien.

Ce qui est clair, c'est que la relation entre les entreprises d'IA et les sites dont elles dépendent est renégociée en temps réel. Le paiement au crawl de Cloudflare est l'une des tentatives les plus concrètes à ce jour pour mettre un prix sur le contenu qui alimente l'IA, et quelle qu'en soit l'issue, il signale que l'ère de la récolte libre du web ouvert touche peut-être à sa fin.

Cet article est un résumé éditorial assisté par IA basé sur TechCrunch. L'image est une photo d'archive de Brett Sayles sur Pexels.

À lire ensuite

Un cadenas sur une carte de circuit imprimé symbolisant la vie privée numérique
Tech

Que sont les preuves à divulgation nulle et comment peuvent-elles vérifier votre âge en préservant la vie privée ?

Alors que les gouvernements imposent des vérifications d'âge pour les services en ligne, une idée cryptographique vieille de plusieurs décennies, la preuve à divulgation nulle de connaissance, est présentée comme un moyen de prouver que l'on est assez âgé sans révéler son identité ni sa date de naissance. Voici comment fonctionne cette technologie et ses limites.

Hacker Newsil y a 2 h