Aller au contenu
Common Crawl CC-MAIN juin 2026 : le dump des LLM

Common Crawl CC-MAIN juin 2026 : le dump des LLM

Par Guillaume P.

10 min de lecture
Lien copié dans le presse-papiers
Guillaume P.

Le 29 avril 2026, la News/Media Alliance a envoyé une lettre formelle à Common Crawl. Vingt grands éditeurs américains derrière (NBCUniversal, CNN, Vox Media, USA Today), des centaines d'autres en arrière-plan. Le message tient en une phrase : arrêtez d'alimenter gratuitement OpenAI, Anthropic et Mistral avec notre contenu. Trois semaines plus tard, le dump CC-MAIN-2026-22 (mai) est en cours de finalisation, et celui de juin (probablement CC-MAIN-2026-26) suit le même calendrier mensuel. Si vous gérez un site qui produit du contenu original, vous avez environ trente jours pour décider de votre posture avant d'être à nouveau aspiré.

J'écris cet article pour qu'on arrête de parler de Common Crawl comme d'un sujet d'archive sympathique géré par une asso non-profit californienne. C'est devenu le principal robinet d'entraînement des LLM, et la plupart des éditeurs ne le savent toujours pas.

Ce qu'est réellement Common Crawl#

Common Crawl Foundation est une organisation à but non lucratif basée à San Francisco, fondée en 2007 par Gil Elbaz. Le projet publie depuis 2008 un dump mensuel du web public. Pas un échantillon, pas une indexation comme Google : une copie brute de plusieurs milliards de pages, redistribuée gratuitement en téléchargement direct sur AWS S3.

Les chiffres de l'archive 2026 racontent une mécanique stable. Le dump CC-MAIN-2026-17 (avril) contient 2,19 milliards de pages pour 379,2 TiB de contenu non compressé. CC-MAIN-2026-12 (mars) : 1,97 milliard, 344,64 TiB. CC-MAIN-2026-08 (février) : 2,1 milliards, 363 TiB. CC-MAIN-2026-04 (janvier) : 2,3 milliards, 398 TiB. Tablez sur le même ordre de grandeur pour juin : autour de 2 milliards de pages, environ 350 TiB. L'archive cumulée dépasse 300 milliards de pages et 10 PiB depuis 2008.

Le cycle est régulier. Une crawl par mois, identifiée par le numéro de semaine ISO du milieu de période (-04 pour janvier, -08 février, -12 mars, -17 avril, et donc -22 pour mai, -26 pour juin selon le pattern). La crawl est généralement lancée sur deux semaines, puis publiée dans les 2 à 4 semaines qui suivent. Le dump de juin 2026 sera donc accessible vers mi-juillet, en cohérence avec le rythme historique.

Ce qui change en 2026 : la pression. Quand Common Crawl publie un dump, ce n'est plus juste pour des chercheurs en linguistique computationnelle. C'est pour OpenAI, Anthropic, Meta, Mistral, et les centaines d'acteurs IA qui vont entraîner ou affiner leurs modèles sur ces données.

Les trois formats à comprendre, vraiment#

Common Crawl publie chaque crawl en trois formats. La distinction est critique pour comprendre ce que les LLM aspirent réellement.

WARC (Web ARChive), ~85 TiB compressés par dump : le brut. Réponses HTTP complètes, headers, HTML, parfois images. C'est l'archive forensique. Permet de reconstruire intégralement une page à un instant T.

WAT (Web Archive Transformations), ~15 TiB compressés : la métadonnée structurée. JSON avec headers HTTP, codes réponse, liens sortants extraits. Sert aux analyses de graphe web (qui pointe vers qui).

WET (WARC Encapsulated Text), ~6 TiB compressés : le texte plat. Le HTML est strippé via heuristiques (nav, footer, ads, JS), et il ne reste que le contenu principal. C'est ce format que les entraîneurs LLM ouvrent en premier. Six fois plus léger que WARC, et déjà digéré.

En pratique, quand on dit "Common Crawl entraîne les LLM", on parle surtout du WET. Les pipelines de filtrage type C4 (utilisé par Google pour T5 et PaLM) ou RefinedWeb (Falcon) repartent des WET, appliquent leur propre nettoyage (déduplication MinHash, filtrage de qualité, suppression de toxicité), et produisent leur corpus d'entraînement. C'est dans ce passage WET vers corpus filtré que disparaissent 70 à 90 % du volume initial.

Le poids réel dans les LLM modernes#

GPT-3, le modèle qui a déclenché la course IA en 2020 : 60 % de ses 300 milliards de tokens d'entraînement venaient de Common Crawl filtré. Une revue Mozilla de 2024 a analysé 47 LLM de génération texte publiés entre 2019 et octobre 2023. Au moins 64 % d'entre eux (30 modèles) ont utilisé une version filtrée de Common Crawl pour leur pré-entraînement.

La liste qui suit n'est pas exhaustive, c'est l'ossature. GPT-3 et probablement GPT-4 (composition officielle non publiée par OpenAI), LLaMA et LLaMA 2 de Meta, BLOOM via le corpus ROOTS, Falcon via RefinedWeb, T5 et PaLM via C4, Mistral. Plus récemment, Nemotron-CC publié par NVIDIA en décembre 2024 a montré qu'on peut tirer 6,3 trillions de tokens utiles d'un retraitement aggressif de Common Crawl.

J'insiste sur un point que l'industrie minimise. Common Crawl n'est pas une source parmi d'autres dans les LLM, c'est la source dominante en volume brut. Webtext2, Books1, Books2, Wikipedia, GitHub forment ensemble moins de 40 % des tokens GPT-3. Le reste, c'est votre site, le mien, et 50 millions d'autres.

L'ingénieur principal de Common Crawl a reconnu lui-même dans le rapport Mozilla : "souvent on prétend que Common Crawl contient tout le web, mais c'est absolument faux". L'archive a des biais structurels (algorithme de centralité harmonique qui privilégie les domaines populaires, surreprésentation de l'anglais, contenu marginalisé sous-représenté). Mais à l'échelle d'un entraînement, ces biais ne suffisent pas à protéger qui que ce soit. Si votre site a un PageRank décent et publie en français, vous êtes dedans.

Le levier robots.txt : ce qui marche, ce qui ne marche pas#

Le user-agent officiel de Common Crawl est CCBot. Pour bloquer le crawl, deux lignes dans votre robots.txt :

User-agent: CCBot
Disallow: /

Vérité crue numéro un : 70 % des sites du top web bloquent déjà CCBot, selon plusieurs études convergentes de 2025. Côté médias spécifiquement, 79 % des grands sites d'actualité bloquent les bots d'entraînement IA. CCBot fait partie du top 3 des bots les plus bloqués dans les robots.txt analysés.

Vérité crue numéro deux : bloquer CCBot aujourd'hui ne supprime rien des dumps passés. Common Crawl ne re-publie pas les anciens dumps avec les nouvelles règles robots.txt appliquées rétroactivement. Si votre site a été crawlé en 2022, 2023 ou 2024, ce contenu est dans les archives. Il a déjà servi à entraîner les modèles 2024-2025. Bloquer CCBot en juin 2026 protège seulement les dumps à venir.

Vérité crue numéro trois : il existe un opt-out registry chez Common Crawl, mais c'est une page enfouie au fond du site, sans aucune obligation contraignante pour les utilisateurs du dataset. Plusieurs éditeurs ont demandé un retrait il y a plus de deux ans sans réponse claire. C'est précisément ce point qui a déclenché la lettre de la News/Media Alliance.

La méthode propre, si vous voulez fermer la porte :

# Common Crawl
User-agent: CCBot
Disallow: /

# Crawlers d'entraînement IA
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Applebot-Extended
Disallow: /

Bloquer juste CCBot ne suffit pas. Les pipelines comme GPTBot et ClaudeBot crawlent directement, sans passer par Common Crawl. Pour fermer correctement, il faut couvrir l'ensemble.

Le faux jumeau : llms.txt#

Depuis 2024, on me demande régulièrement si llms.txt sert à quelque chose pour gérer Common Crawl. Réponse courte : non. Le standard llms.txt proposé par Jeremy Howard en septembre 2024 vise à structurer ce qu'un LLM doit lire en priorité, pas à exclure les crawlers. Common Crawl ne le lit pas. CCBot ne le lit pas. Aucun des grands entraîneurs (OpenAI, Anthropic, Meta) n'a publiquement reconnu utiliser llms.txt comme signal d'opt-in ou d'opt-out.

J'ai détaillé pourquoi llms.txt ne sert pas à grand-chose en 2026 dans un autre article. Pour Common Crawl spécifiquement : robots.txt reste votre seul levier technique. Le reste est du wishful thinking.

Ce que dit la lettre de la News/Media Alliance#

La lettre du 29 avril 2026 mérite d'être lue. Adressée à Rich Skrenta, directeur exécutif de Common Crawl Foundation, elle pose cinq demandes explicites :

  1. Retrait rapide du contenu sur demande d'un éditeur.
  2. Déclaration publique que Common Crawl n'est pas propriétaire du contenu archivé et ne peut en autoriser l'usage.
  3. Interdiction explicite de l'usage du dataset pour l'entraînement IA non autorisé.
  4. Respect des droits de propriété intellectuelle des éditeurs.
  5. Inclusion, dans l'opt-out registry, des contacts éditeurs pour négocier des licences.

L'argument central de NMA : Common Crawl s'est écarté de sa mission d'archive académique pour devenir, dans les faits, le canal de distribution principal des données d'entraînement IA, sans rémunération pour les producteurs originaux. Le rapport Mozilla 2024 avait déjà documenté ce glissement.

Mon analyse perso : la lettre est juste, mais elle arrive tard. Le mal est fait pour les éditeurs qui n'ont pas bloqué entre 2020 et 2024. Common Crawl peut difficilement effacer rétroactivement ce qui est déjà dans GPT-4 ou Claude Opus 4. Ce qui va probablement bouger, c'est l'arrêt des nouveaux crawls sur les domaines listés. Mais le contentieux légal qui se prépare sera passionnant à suivre, parce qu'il pourrait redéfinir le statut juridique du dump mensuel.

Stratégie concrète pour le dump de juin 2026#

Voilà ce que je conseille à mes clients en mai 2026, dans l'attente du dump CC-MAIN-2026-26.

Si vous êtes un éditeur de contenu original (médias, blogs, e-commerce avec descriptifs propres) : bloquez CCBot et les bots d'entraînement maintenant. Vous n'effacerez rien du passé, mais vous arrêtez l'hémorragie. C'est gratuit, c'est immédiat, c'est juste une ligne dans votre robots.txt. Si vous attendez la prochaine mise à jour CMS dans trois mois, vous donnez gratuitement votre contenu au dump de juin et de juillet.

Si vous êtes un site institutionnel ou de service (collectivité, association, support produit) : autorisez. Vous voulez que les LLM connaissent vos horaires d'ouverture, vos procédures, vos fiches produits. Bloquer CCBot ici serait du sabotage SEO version 2026. La visibilité dans ChatGPT et Claude vaut mieux que la protection d'un contenu qui n'a pas de valeur commerciale propre.

Si vous êtes un SaaS ou un éditeur de logiciel : stratégie mixte. Bloquez sur vos articles de blog produit qui sont un actif marketing, autorisez sur la documentation publique. Le coût d'opportunité d'être invisible dans les réponses IA techniques est trop élevé sur ce dernier segment.

Si vous êtes en e-commerce pur : autorisez sauf pour les contenus éditoriaux propriétaires (guides, comparatifs, contenus rédigés en interne). Le crawl produit ne pénalise pas, l'absence de citation dans les recommandations IA, si.

Honnêtement, je sais pas trop quoi en penser sur le timing. Une partie de moi pense que la lettre NMA va déclencher un mouvement plus large et qu'un opt-out massif devient gérable. Une autre partie pense que les LLM ont déjà aspiré ce qu'il fallait et que la guerre est perdue côté texte historique. La seule certitude : ne rien faire en juin 2026 est un choix par défaut, et c'est le choix de continuer à alimenter gratuitement des modèles dont la valorisation se compte en centaines de milliards.

Pour aller plus loin#

Quelques articles complémentaires sur le même thème : comment optimiser pour les LLM (LLMO) si vous décidez d'autoriser, le crawl budget Googlebot pour comprendre l'autre face du problème, et l'analyse détaillée du Cloudflare Pay-per-Crawl lancé en juin 2026 pour ceux qui veulent commencer à facturer les bots IA plutôt que les bloquer.

Sources#

Lien copié dans le presse-papiers

À lire aussi