Cloudflare AI Audit et paywall juin 2026 : bots LLM

J'ai un client presse régionale, 4 millions de pages vues par mois, qui m'a envoyé un Slack le 12 mai 2026 : "ClaudeBot vient de bouffer 38 Go de bande passante hier soir, on fait quoi ?" Réponse courte : tu passes sur Cloudflare AI Crawl Control, tu coupes, et si tu veux récupérer du revenu, tu actives le paywall HTTP 402 en juin quand la beta privée s'ouvre à plus de monde.

Réponse longue : il faut comprendre ce que Cloudflare est en train d'imposer comme nouvelle plomberie du web, ce que ça implique pour ton SEO si tu es éditeur, et où ça t'arrange ou te tue selon ton modèle.

Ce que Cloudflare a déjà déployé#

Cloudflare gère environ 20 % du trafic web mondial. Quand ils bougent, ils bougent à grande échelle.

Trois briques sont déjà en place et la quatrième arrive en juin 2026.

Brique 1 : blocage par défaut depuis le 1er juillet 2025#

Cloudflare a basculé tous les nouveaux clients en blocage automatique des crawlers IA. OpenAI, Anthropic, Google, Perplexity, Meta. Tous bloqués sauf opt-in explicite. C'est ce qu'ils ont appelé le Content Independence Day.

Ça ne concernait pas seulement les nouveaux : les clients existants ont reçu une option en un clic pour activer le blocage. Plus de 3,8 millions de domaines utilisent le robots.txt managé de Cloudflare pour signaler le refus de l'entraînement IA.

Brique 2 : AI Crawl Control (ex-AI Audit), GA depuis août 2025#

L'outil s'appelait AI Audit en beta. Rebaptisé AI Crawl Control au passage en disponibilité générale. C'est devenu beaucoup plus qu'un dashboard de monitoring.

Trois choses concrètes que tu peux faire dans le dashboard :

voir précisément quel bot (GPTBot, ClaudeBot, Claude-SearchBot, Claude-User, Google-Extended, PerplexityBot, Bytespider, Meta-ExternalAgent) accède à quels URLs avec quel volume,
définir des règles allow/block par bot, par path, par mode (training, search, inference),
envoyer un code HTTP 402 customisé avec un message à la place du blocage sec.

Le 402 customisé, c'est l'amorçage du paywall. Un bot reçoit "Payment Required" avec une URL pour s'authentifier et payer. S'il ne sait pas, il prend un 402 dans la tronche et n'a pas le contenu.

Brique 3 : Content Signals Policy dans robots.txt#

Trois directives machine-readable injectées dans robots.txt managé Cloudflare :

search=yes/no : autorise ou non l'indexation pour un moteur de recherche classique,
ai-train=yes/no : autorise ou non l'entraînement d'un modèle,
ai-input=yes/no : autorise ou non l'usage du contenu en inférence temps réel (RAG, AI Overviews, réponses ChatGPT).

Par défaut chez Cloudflare : search=yes, ai-train=no, ai-input neutre. Tu acceptes Google search, tu refuses l'entraînement Claude, tu laisses ouvert pour ChatGPT en mode citation. Pour les détails, j'ai détaillé la mécanique dans llms.txt : le standard qui voulait parler aux IA.

Limite réelle : ces signaux expriment une préférence. Ils ne bloquent rien techniquement. Anthropic, OpenAI et Google ont annoncé respecter ces directives. Bytespider (ByteDance) et la moitié des scrapers anonymes s'en foutent.

Brique 4 (juin 2026) : pay-per-crawl en ouverture progressive#

Le pay-per-crawl est en beta privée depuis fin 2025. Stack Overflow a été l'un des premiers à l'activer en février 2026. Cloudflare a confirmé que la beta s'élargit progressivement aux clients Pro et Business à partir de juin 2026, avec un objectif de GA d'ici fin d'année.

Mécanique : tu définis un prix par crawl pour ton zone Cloudflare. Quand un bot arrive avec une intention de paiement authentifiée, il reçoit le contenu (HTTP 200) et un header crawler-charged enregistre l'événement. Cloudflare agrège, facture le crawler, te reverse les revenus. Cloudflare se positionne en Merchant of Record.

Trois options par crawler : Allow (gratuit), Charge (prix fixe par requête), Block (refus net).

Pourquoi Cloudflare fait ça maintenant#

Les chiffres Cloudflare Radar Q1 2026 sont les seuls qui comptent pour comprendre la motivation.

Ratio crawl-to-refer : nombre de pages crawlées par bot pour chaque visiteur humain envoyé en retour vers le site source.

Plateforme	Ratio crawl-to-refer Q1 2026
Anthropic (ClaudeBot)	20 583 : 1
OpenAI (GPTBot)	1 255 : 1
Perplexity	118 : 1
Meta	infini (zéro referral)

Anthropic crawle ton site 20 000 fois pour t'envoyer un visiteur. Meta crawle et n'envoie jamais personne. Sur certains pics en janvier, ClaudeBot a dépassé 100 000 : 1 selon Cloudflare. Le ratio s'est calmé à 10 000-15 000 : 1 en mars, mais on reste dans un déséquilibre brutal.

Autre chiffre, plus violent : 89,4 % du trafic crawler IA est du training ou du mixed-purpose. Seulement 8 % est dédié à de la search, et 2,2 % répond à une vraie requête utilisateur en temps réel. La masse du crawl IA n'a aucune contrepartie pour toi.

Côté revenu publicitaire : selon l'analyse IAB Tech Lab citée par Cloudflare, les résumés IA en SERP réduisent le trafic éditeur de 20 à 60 % en moyenne. Sites de niche jusqu'à 90 %. Les éditeurs perdent environ 2 milliards de dollars annuels en revenu publicitaire à cause des features IA dans la recherche.

De juillet à décembre 2025, Cloudflare a bloqué 416 milliards de requêtes de scraping IA. Cinq mois de filtrage industriel.

Cloudflare a tranché : si tu pompes mon contenu et tu m'envoies rien, je te coupe par défaut. Si tu veux vraiment, tu paies.

Ce que ça change pour le SEO éditorial#

Trois scénarios selon ton modèle.

Scénario A : tu es éditeur presse ou contenu premium#

Tu vis de la publicité ou de l'abonnement. Tu n'as aucune raison de laisser passer ClaudeBot ou Meta-ExternalAgent gratuitement. Ton calcul :

Si Anthropic veut entraîner Claude sur tes 50 000 articles, ils te crawlent 1 milliard de pages pour 50 000 visiteurs en retour. Tu perds 999 950 000 fois ton CPM en bande passante.
Si tu actives le paywall à 0,01 $ par crawl, ce milliard de pages devient 10 millions de dollars de revenu pur. Anthropic refusera probablement, mais tu auras au moins coupé l'hémorragie.

Reddit et le New York Times l'ont déjà fait à leur échelle : Reddit a signé 60 millions par an avec Google et environ 70 millions avec OpenAI. Reddit pousse maintenant pour un dynamic pricing où le prix monte avec la valeur d'usage du contenu. Reddit table sur 400 millions annuels d'ici 2027 sur ces deals.

Tu n'es pas Reddit. Mais le pay-per-crawl Cloudflare te donne enfin un moyen de pression à l'échelle d'un site moyen, sans avoir à négocier toi-même avec OpenAI.

Scénario B : tu es éditeur SEO qui vit du trafic Google#

Là, c'est ambigu. Ton modèle dépend de :

Google search classique (Googlebot) : tu dois laisser passer. search=yes dans Content Signals.
AI Overviews et AI Mode : c'est Google-Extended qui sert ça. Si tu bloques Google-Extended, tu disparais des résumés IA de Google. Si tu laisses passer, tu nourris la machine qui mange ton trafic.

Recommandation directe : laisse passer Googlebot, bloque ou facture Google-Extended. C'est asymétrique mais c'est la seule position cohérente. Google va probablement râler à un moment et te menacer de te sortir du search organique. À surveiller. Pour l'instant ils ont juré que les deux user-agents sont strictement séparés.

J'ai détaillé la fragmentation des bots dans GPTBot, ClaudeBot, Bytespider : bloquer ou autoriser ?. C'est la première lecture si tu n'as jamais touché ton robots.txt pour les IA.

Scénario C : tu veux être visible dans ChatGPT, Claude, Perplexity#

Cas du e-commerce, du SaaS, de la marque qui veut être citée dans les réponses IA. Si tu bloques tout, tu disparais des LLM. Game over sur l'AEO.

Position que je recommande à mes clients SaaS depuis trois mois :

search=yes : Google search, indispensable.
ai-train=no : on refuse l'entraînement. Pas de bénéfice direct, perte de contrôle pure.
ai-input=yes : on accepte le mode citation (RAG, AI Overviews, ChatGPT search). C'est ce qui te fait apparaître dans une réponse IA avec un lien vers ton site.

Pour les bots qui ne respectent pas cette nuance (Bytespider, scrapers anonymes), AI Crawl Control bloque dur. Pour OpenAI Search, Anthropic Claude-SearchBot, Perplexity, Google-Extended en mode inference : tu laisses passer.

Voir Apparaître dans ChatGPT et Perplexity : guide pratique et LLMO : optimiser son contenu pour les modèles IA si tu veux la stratégie AEO complète à coupler avec ces réglages.

Comment configurer concrètement en juin 2026#

Pour un client Cloudflare Pro ou Business, voici la séquence que j'applique en mission.

Étape 1 : activer AI Crawl Control#

Dashboard Cloudflare > zone > AI Crawl Control. Activation immédiate, pas de DNS à changer.

Tu vois apparaître en 24-48 h le baseline de ton trafic bot. Tu identifies les bots agressifs (ClaudeBot, GPTBot, Bytespider en général en tête).

Étape 2 : décider la politique par bot#

Trois groupes à traiter séparément :

Groupe 1, bots search légitimes : Googlebot, Bingbot, DuckDuckGoBot. Allow inconditionnel.

Groupe 2, bots IA respectant les Content Signals : GPTBot, ClaudeBot, Claude-SearchBot, Claude-User, Google-Extended, OAI-SearchBot, PerplexityBot, Anthropic-Web. Politique selon scénario A/B/C.

Groupe 3, bots IA agressifs ou opaques : Bytespider, Meta-ExternalAgent, Amazonbot avec finalité IA, scrapers anonymes. Block ou 402 sec.

Étape 3 : régler les Content Signals dans le robots.txt managé#

Cloudflare te génère automatiquement la syntaxe. Tu coches les cases dans l'UI, le robots.txt se met à jour. Pas besoin de toucher le fichier manuellement.

Pour ceux qui veulent voir la syntaxe brute :

User-Agent: *
Content-Signal: search=yes, ai-train=no, ai-input=yes
Allow: /

Étape 4 (juin 2026) : activer pay-per-crawl si éligible#

Une fois la beta accessible pour ton plan, tu définis un prix unique par zone. Commence bas : 0,001 $ par crawl. Tu mesures qui paie, qui refuse, qui s'en fout.

Stack Overflow a démarré sur cette base et a publiquement défendu le modèle. Voir leur post tech de février 2026 sur le sujet (référencé en sources).

Étape 5 : monitoring continu#

AI Crawl Control t'envoie des métriques détaillées : top crawlers, paths les plus crawlés, conformité robots.txt par bot. À regarder une fois par semaine pendant les premiers mois, puis mensuel.

Les pièges que je vois déjà arriver#

Quatre choses qui vont mal tourner pour beaucoup de monde si elles ne sont pas anticipées.

Piège 1 : bloquer Google-Extended sans le savoir#

Beaucoup de sites Webflow et certains setups Cloudflare ont activé le blocage IA par défaut depuis juillet 2025. Conséquence directe : ils ne sont plus dans les AI Overviews. Trafic IA Google = zéro. Beaucoup ne s'en sont même pas rendu compte. Aleyda Solis l'a documenté début 2026 : "AI crawlers being blocked without anyone noticing".

À vérifier en priorité si tu as eu un drop AI Overviews inexpliqué entre août 2025 et avril 2026.

Piège 2 : Claude-Web est mort, ClaudeBot vit#

Si ton robots.txt bloque Claude-Web, tu ne bloques rien. Anthropic a déprécié cet user-agent en 2025. Les vrais user-agents actifs en 2026 :

ClaudeBot (entraînement),
Claude-SearchBot (search index),
Claude-User (fetch utilisateur direct depuis Claude.ai).

Trois bots, trois finalités, à régler indépendamment.

Piège 3 : penser que le 402 est respecté universellement#

Pas du tout. Le pay-per-crawl marche si le bot a une intégration avec Cloudflare. Pour les autres, le 402 est juste un refus. Le contenu n'est pas servi. Donc tu ne gagnes rien ET tu ne perds pas de bande passante. Pas un drame, mais pas la mine d'or non plus.

Piège 4 : oublier que le ratio crawl-to-refer va se dégrader, pas s'améliorer#

ClaudeBot a doublé son rythme de crawl entre Q3 2025 et Q1 2026. Le volume va continuer d'augmenter. Si tu ne mets rien en place maintenant, dans 12 mois tu paieras une fortune en bande passante chez ton hébergeur pour du contenu pompé sans contrepartie.

C'est aussi pour ça que la stratégie d'audience propriétaire devient critique. J'en parle longuement dans Audience propriétaire : survivre au déclin Google. Le trafic moteur s'effondre, le trafic IA ne se rentabilise pas en clic, il reste la newsletter et la communauté.

Checklist juin 2026#

À cocher dans cet ordre si tu n'as rien fait.

Connexion dashboard Cloudflare > AI Crawl Control activé sur toutes les zones.
7 jours de baseline observé : top bots, top paths, volume bande passante.
Catégorisation des bots en groupes 1/2/3 ci-dessus.
Décision politique : scénario A (éditeur premium), B (éditeur SEO), C (visibilité IA).
Content Signals réglés dans robots.txt managé Cloudflare.
Vérification Google-Extended : pas de blocage involontaire si tu veux les AI Overviews.
User-agents Anthropic vérifiés : ClaudeBot, Claude-SearchBot, Claude-User (pas le mort Claude-Web).
Bytespider, Meta-ExternalAgent, scrapers anonymes en block dur.
Inscription beta pay-per-crawl si éligibilité Pro/Business confirmée en juin.
Monitoring hebdomadaire mis en place le premier mois, puis mensuel.

Cloudflare ne va pas sauver les éditeurs tout seul. Mais c'est la première brique d'infrastructure sérieuse qui te donne de la prise face à des acteurs IA qui jusqu'ici prenaient ton contenu sans demander.

Le paywall HTTP 402, c'est pas de la science-fiction. C'est dans ton dashboard en juin. Si tu n'actives rien, tu perds par défaut. Si tu actives mal, tu disparais de la visibilité IA. Si tu actives correctement, tu reprends une marge de manœuvre que tu n'as plus depuis 2023.

Pour comprendre ce qui se passe dans l'autre sens (apparaître dans les réponses IA quand tu acceptes le crawl), va lire AI Mode zero-clic : canaux alternatifs au trafic Google.