Aller au contenu
Croiser logs serveur et Crawl Stats GSC en 2026

Croiser logs serveur et Crawl Stats GSC en 2026

Par Guillaume P.

7 min de lecture
Lien copié dans le presse-papiers
Guillaume P.

La semaine dernière, en auditant un site éditorial qui plafonnait dans la Search Console, j'ai ouvert deux fenêtres côte à côte : les logs serveur bruts d'un côté, le rapport Crawl Stats de GSC de l'autre. Et là, le vrai sujet est apparu. Googlebot tournait en boucle sur des pages de tri inutiles, pendant que GPTBot et ClaudeBot aspiraient des sections entières que GSC ne montrait même pas. Deux sources, deux vérités partielles. Aucune ne suffit seule.

C'est exactement le problème que je veux décortiquer ici. Pas la théorie du crawl budget, que j'ai déjà traitée ailleurs. Pas le blocage robots.txt non plus. La méthode concrète pour croiser les deux sources et voir ce qui se passe vraiment sur votre serveur.

Pourquoi GSC seul vous ment par omission#

Le rapport Crawl Stats vit dans Settings > Property settings > Crawl stats. Première limite : il n'est disponible que sur les root properties. Et Google lui-même le déconseille sous les 1 000 pages, parce qu'en dessous le volume de données ne dit rien d'exploitable.

Ce que vous y trouvez est riche pour la partie Google : total des requêtes, download size, average response time, host status, codes HTTP, types de fichiers, et surtout la distinction crawl purpose entre discovery (nouvelles pages) et refresh (pages déjà connues). Vous voyez aussi quel type de Googlebot passe : smartphone, desktop, image, video, AdsBot, StoreBot.

Voilà le piège. Crawl Stats ne couvre QUE les robots Google. Pas un octet de GPTBot, ClaudeBot ou Bytespider n'apparaît dans ce rapport. Si vous vous fiez à GSC pour juger de la charge de crawl en 2026, vous regardez peut-être moins d'un tiers du trafic bot réel de votre site.

Et le contexte a changé. Selon le CEO de Cloudflare (déclaration du 3 juin 2026), le trafic HTML se répartit désormais à 57,5 % de bots contre 42,5 % d'humains. Cloudflare encaisse 50 milliards de requêtes de crawlers IA par jour. Dans le trafic bot total de mai 2026, les crawlers IA pèsent 20,3 % auxquels s'ajoutent 6,5 % d'AI search, soit 26,7 %. Googlebot reste en tête des crawlers à 27,26 %, devant GPTBot à 11,48 % et ClaudeBot à 9,73 %. Je précise tout de suite : ces classements mensuels s'inversent d'un mois à l'autre, ne les gravez pas dans le marbre. Bytespider l'illustre bien, passé de 14,1 % à 2,4 % entre juillet 2024 et juillet 2025, avant de remonter au 4e rang en mai 2026.

L'autre limite de GSC, c'est la rétention : 90 derniers jours, point. Vos logs serveur, eux, remontent aussi loin que votre rotation le permet. Les deux sources sont complémentaires, jamais substituables.

La méthode de croisement, étape par étape#

Voici comment je procède sur le terrain.

D'abord, j'exporte les logs serveur bruts sur une fenêtre qui recoupe les 90 jours de GSC. Je filtre par user-agent. Pour Google, je vérifie la cohérence avec ce que GSC annonce : si GSC dit X requêtes Googlebot smartphone et que mes logs en montrent dix fois plus, j'ai soit un usurpateur qui se fait passer pour Googlebot, soit un problème de reverse DNS à creuser.

Ensuite, je sépare le trafic non-Google que GSC ne voit pas. Les user-agents à isoler : compatible; GPTBot/1.0 pour OpenAI, compatible; ClaudeBot/1.0 pour Anthropic, plus PerplexityBot, CCBot et Bytespider. Petit avertissement honnête : Bytespider n'est pas documenté proprement, son user-agent exact n'est pas officiellement publié, donc sa détection reste approximative. Je le signale parce que je déteste qu'on vende une certitude qu'on n'a pas. Notez aussi que Google-Extended n'est pas un crawler : c'est juste un token robots.txt pour le training, vous ne le verrez pas frapper votre serveur.

Troisième étape, le croisement qui paie : je prends la colonne discovery vs refresh de GSC et je la confronte aux URLs réellement hit dans les logs. Si Google passe son temps en refresh sur des pages à faible valeur, c'est du crawl budget cramé. Si des pages importantes n'apparaissent jamais en discovery, elles sont probablement orphelines, mal maillées, invisibles. Les logs confirment alors si un bot y est passé un jour ou jamais.

Traquer pages orphelines et gaspillage#

Une page orpheline, c'est une page sans lien interne entrant, que le crawler atteint difficilement ou pas du tout. Les logs la révèlent par l'absence : zéro hit Googlebot sur une URL qui existe pourtant dans votre sitemap. Le croisement avec GSC tranche : si discovery ne l'a jamais touchée et que les logs confirment le silence, vous tenez votre orpheline.

Le gaspillage de crawl, lui, se lit dans l'excès. Des codes HTTP qui partent en boucle, des paramètres d'URL crawlés des centaines de fois, des redirections en chaîne que Googlebot suit bêtement. GSC vous donne la répartition des codes HTTP et le response time moyen ; les logs vous donnent les URLs exactes derrière ces chiffres. C'est ce mariage qui transforme un constat flou en liste d'actions.

J'ai un doute que j'assume sur un point : sur les très gros sites, séparer le gaspillage Google du gaspillage IA dans une seule analyse devient vite ingérable à la main. Je ne suis pas certain qu'un tableur tienne la charge au-delà d'un certain volume. C'est là que les outils dédiés prennent le relais.

Les outils que j'utilise vraiment#

Screaming Frog Log File Analyser reste mon point d'entrée pour les PME. Upload direct du fichier de logs, pas de CLI à dompter, et il existe un tuto dédié à la surveillance des AI bots. Pour un site sous quelques centaines de milliers d'URLs, ça suffit largement.

Pour l'enterprise, Botify combine logs, rankings et analytics, avec de la détection d'anomalie par machine learning. OnCrawl, lui, s'est spécialisé dans le croisement crawl plus logs, ce qui en fait un bon candidat quand le sujet central est précisément celui de cet article.

Mon conseil tranché : commencez par Screaming Frog et vos logs bruts confrontés à GSC. N'achetez une plateforme enterprise que quand le volume vous y force vraiment, pas avant. J'ai vu trop d'équipes payer une licence Botify pour faire ce qu'un export de logs et deux heures d'attention auraient révélé.

Ce que ça change pour votre stratégie#

Le contexte 2026 rend ce croisement non négociable. Environ 80 % de l'activité des bots IA, c'est du training, et seulement 2,2 % de vraies requêtes utilisateurs. Le training reste la catégorie la plus volumineuse, et de loin. Autrement dit, la majorité des bots IA qui martèlent votre serveur ne vous renverront jamais un visiteur.

Les ratios crawl/referral de Cloudflare (juillet 2025) le chiffrent crûment. Anthropic/ClaudeBot était à 38 065 pages crawlées pour 1 referral, en nette amélioration sur six mois, soit une chute de 86,7 % par rapport à janvier 2025. OpenAI/GPTBot tournait à 1 091:1, en léger recul de 10,4 %. Perplexity à 194:1, un ratio qui se dégrade. Dernière donnée officielle pour ClaudeBot : juillet 2025, je n'ai rien de plus récent et je ne vais pas inventer un chiffre 2026.

La croissance, elle, ne ralentit pas. Le crawl IA a bondi de 757 % en 2024 selon Cloudflare. L'agentic AI affiche +7 851 % en glissement annuel d'après HUMAN Security (2026), avec un trafic automatisé qui croît huit fois plus vite que le trafic humain. GPTBot lui-même est passé de 4,7 % à 11,7 % entre juillet 2024 et juillet 2025.

Sans le croisement logs plus Crawl Stats, vous pilotez à l'aveugle. Vous optimisez pour Googlebot un site dont la moitié du trafic machine vient d'ailleurs et ne vous rapporte presque rien. La question n'est plus de savoir si les bots IA crawlent votre site. C'est de savoir lesquels, sur quelles pages, et à quel coût pour votre crawl budget Google.

Pour aller plus loin sur les fondamentaux, ma page sur le crawl budget pose les bases, celle sur la crawlabilité et l'indexation complète le tableau technique, et le tutoriel GSC pour débutants vous fait prendre l'outil en main. Sur la dimension IA pure, voyez le dilemme bloquer ou autoriser les bots IA et l'audit IA de Cloudflare.

Sources#

Lien copié dans le presse-papiers

À lire aussi