Aller au contenu
llms.txt à mi-2026 : 10% des sites, zéro grand média

llms.txt à mi-2026 : 10% des sites, zéro grand média

Par Lucas M.

10 min de lecture
Lien copié dans le presse-papiers
Lucas M.

Quand Jeremy Howard a publié sa proposition llms.txt en septembre 2024, le pitch était simple : un fichier à la racine du site, qui ressemble à robots.txt mais qui sert à guider les LLM vers le contenu lisible et structuré. Vingt mois plus tard, le verdict d'adoption est tombé. SE Ranking a passé au scanner 300 000 domaines en avril 2026 et publié les chiffres : 10,13 % des sites ont un fichier llms.txt. Pour les vingt premiers médias d'information mondiaux, le taux d'adoption est de zéro.

C'est le genre d'écart qui mérite qu'on sorte le profileur. Un standard porté par un nom respecté (Howard a co-fondé fast.ai et signé d'énormes contributions à l'écosystème ML), avec une syntaxe trivial à implémenter, et qui plafonne à 10 % sur l'ensemble du web. Sous le capot, la question n'est pas "est-ce que ça marche techniquement". C'est "à quoi ça sert dans la chaîne réelle de citation IA".

Ce que mesure l'étude SE Ranking#

L'étude SE Ranking analyse 300 000 domaines piochés dans le top web et croise présence de llms.txt avec citations dans les moteurs IA (OpenAI ChatGPT Search, Perplexity, Anthropic Claude Search, Google AI Overviews). La méthode applique un modèle XGBoost pour mesurer la corrélation entre présence du fichier et fréquence de citation.

Le résultat est sec. Le retrait de la feature llms.txt du modèle prédictif… améliore les prédictions de l'algo. Autrement dit, la présence du fichier n'apporte aucun signal exploitable pour prédire si un site sera cité par un moteur IA. Pire, l'inclure dégrade la prédiction en introduisant du bruit.

Les chiffres par tranche de trafic sont parlants. Les sites à faible trafic (0-100 visites/mois) adoptent à 9,88 %, les moyens (1 001-5 000 visites) à 10,54 %, les gros (plus de 100 001 visites) à 8,27 %. La répartition est plate. Aucune corrélation entre la taille du site et l'adoption du standard, ce qui suggère que la décision d'adopter llms.txt ne suit ni une logique d'effet de réseau, ni un alignement avec les pratiques SEO classiques (où les gros sites pondèrent les tendances).

L'autre lecture est plus brutale. Sur les vingt premiers domaines du web cités par les moteurs IA (selon plusieurs études de citation OpenAI ChatGPT), aucun n'utilise llms.txt. YouTube, TechCrunch, Reuters, BBC, Wikipedia, Bloomberg, CNN : zéro. Le fichier ne fait clairement pas partie de leur stack SEO IA.

Ce que disent les crawlers IA, et ce qu'ils font#

John Mueller, Search Advocate chez Google, a confirmé dès septembre 2025 sur Bluesky que les crawlers IA majeurs n'extraient pas l'information via llms.txt. Pas Google AI Overviews, pas GPTBot, pas ClaudeBot. La déclaration a été confirmée par les logs serveur de plusieurs grands éditeurs : aucun de ces user-agents ne fait de requête sur /llms.txt.

Cela tient à deux raisons. La première est technique : le crawl IA repose sur un pipeline existant qui réutilise les signaux SEO classiques (robots.txt pour l'autorisation, sitemap.xml pour la découverte, balises canonical pour la déduplication). Greffer un troisième fichier supplémentaire ajoute une étape sans bénéfice clair. La seconde est stratégique : OpenAI, Google et Anthropic n'ont pas annoncé de support officiel du standard. Tant qu'aucun acteur majeur ne s'engage, le déploiement reste un pari à somme nulle pour les éditeurs.

L'écosystème qui adopte vraiment llms.txt, ce sont les IDE et les outils de développement IA. Cursor, Windsurf, Claude Code, GitHub Copilot, Cline, Aider : tous ces agents font des requêtes sur /llms.txt et /llms-full.txt quand on les pointe sur un site de documentation. Le cas d'usage est différent : ce n'est plus le contenu éditorial qu'on indexe pour répondre à un utilisateur grand public, c'est de la documentation technique qu'on intègre comme contexte d'un agent code.

Du coup, les sites qui se sont précipités sur le standard sont essentiellement des plateformes de documentation : Stripe, Vercel, Cloudflare, Mintlify, Cursor, Coinbase, Supabase, LangGraph, Anthropic. Pour ces acteurs, llms.txt est un outil pratique qui sert l'écosystème d'agents codeurs. Pour un site éditorial classique, l'effet est nul.

Pourquoi les médias ne suivent pas#

Les éditeurs de presse n'ont pas d'incitation à adopter llms.txt. Trois raisons reviennent dans les discussions internes que j'ai eu avec quelques responsables SEO de groupes médias.

D'abord, la stratégie face aux LLM est défensive, pas accueillante. Beaucoup de médias bloquent activement GPTBot, ClaudeBot et GoogleOther via robots.txt, ou exigent des accords de licence avec OpenAI et Anthropic (cf. les deals signés par News Corp, Axel Springer, Le Monde). Mettre un llms.txt qui pointe vers le meilleur contenu va à l'inverse de cette logique. C'est offrir le menu à un acteur qu'on essaie de tarifer.

Ensuite, le ROI éditorial est inexistant. Comme l'a montré l'étude SE Ranking, la présence du fichier n'augmente pas les citations IA. Les rédactions n'ont aucun bénéfice mesurable à attendre. Investir du temps ingénieur SEO sur un standard qui ne change rien à leur visibilité IA est difficilement défendable.

Enfin, la fragmentation des fichiers techniques. Les éditeurs gèrent déjà robots.txt, sitemap.xml, des règles spécifiques par crawler IA, des autorisations sélectives par accord commercial. Ajouter un quatrième fichier sans support officiel des grands acteurs ajoute de la complexité sans valeur. Tant que les acteurs majeurs ne convergent pas, les éditeurs restent prudents.

Ce contexte se croise avec la chute des requêtes moteurs sous l'effet du SEO conversationnel et avec la stratégie distincte de ChatGPT et Perplexity sur les citations. Les éditeurs sont engagés dans une bataille de licence et de blocage sélectif, pas dans une logique d'optimisation pour les agents IA.

Sous le capot : la syntaxe llms.txt#

Pour les devs et responsables SEO qui veulent quand même comprendre la mécanique, voici la spec côté technique. Le fichier llms.txt est un document Markdown placé à la racine du site (/llms.txt). Il contient typiquement :

  • un H1 avec le nom du site ;
  • une description courte du contenu ;
  • des sections H2 pour les grandes rubriques ;
  • sous chaque section, une liste de liens markdown vers les pages les plus utiles, avec une description courte de chaque page ;
  • optionnellement un fichier complémentaire llms-full.txt qui contient l'intégralité du contenu Markdown des pages clés (utile pour les contextes IDE qui veulent ingérer le contenu sans crawler récursivement).

Un exemple minimal pour un site de doc :

# Cursor docs

Documentation for the Cursor AI code editor.

## Core concepts
- [Composer](https://docs.cursor.com/composer): How to use the AI-first editor.
- [Chat](https://docs.cursor.com/chat): Chat with your codebase.

## Reference
- [API](https://docs.cursor.com/api): SDK reference.

Le format est trivial. Pour un site de doc technique, l'écriture est quasi-automatisable à partir du sommaire. Pour un site éditorial complexe (avec catégories, tags, archives), le travail de cartographie est plus long et le résultat moins utile, parce que l'agent IDE n'ingère typiquement pas du contenu éditorial.

Quand llms.txt a-t-il vraiment du sens ?#

J'ai poussé le test sur trois cas pratiques pour me faire une idée, et le verdict est nuancé.

Site de documentation produit (SaaS, lib open source, API). Là, oui. llms.txt permet à Cursor ou Claude Code de fetcher rapidement le contexte pertinent quand un développeur travaille sur l'intégration. C'est un gain mesurable. Plusieurs équipes l'ont confirmé : depuis qu'elles maintiennent llms.txt et llms-full.txt, leur outil d'assistance IA répond mieux aux questions sur leur produit. Ce n'est pas du SEO, c'est de l'UX agent.

Site éditorial grand public (média, blog d'actu, magazine). Non. Aucun bénéfice. Les crawlers IA grand public ne lisent pas le fichier. Les agents IDE n'ingèrent pas le contenu éditorial. C'est du temps perdu, voire un signal qu'un acteur cherche à manipuler le crawl IA.

Site institutionnel ou e-commerce. Cas par cas. Si le site a une dimension "documentation produit" (catalogue détaillé, fiches techniques, guides d'usage), llms.txt peut servir aux agents codeurs qui intègrent l'API ou aux outils d'aide à la décision. Si le site est purement marketing, c'est inutile.

Reste un cas que je trouve intéressant : les sites de référence métier (encyclopédies, glossaires, bases de connaissance) pourraient bénéficier du fichier, dans la mesure où les agents IA structurent leur réponse autour de ce type de sources. Sur ce point, j'hésite encore. Les chiffres SE Ranking suggèrent zéro corrélation, mais l'échantillon de référence est probablement sous-représenté dans le dataset.

La feedback loop côté écosystème#

Le standard llms.txt est dans une situation classique de chicken-and-egg. Les sites n'adoptent pas parce que les crawlers ne lisent pas. Les crawlers ne lisent pas parce que peu de sites adoptent. La rupture viendrait soit d'un acteur majeur qui s'engage explicitement (OpenAI, Google, Anthropic), soit d'une masse critique de gros sites qui imposent le standard par leur poids.

Pour l'instant, ni l'un ni l'autre n'arrive. OpenAI a publié en mars 2026 sa doc sur l'optimisation pour ChatGPT Search ; le fichier llms.txt n'y figure pas. Google a réitéré que les principes SEO classiques s'appliquent aux AI Overviews. Anthropic n'a pas pris position. Les éditeurs majeurs continuent à bloquer ou à licencier, pas à adopter.

Mon pari : llms.txt va se stabiliser autour de 10-15 % d'adoption, concentré sur les sites de doc technique, et restera marginal dans le contexte SEO grand public. Sauf inversion de stratégie d'un acteur IA majeur, le standard se figera comme un outil de niche IDE plutôt qu'un standard web.

Pour qui c'est utile, pour qui ça ne l'est pas#

Implémente llms.txt si :

  • tu maintiens une doc produit ou API ouverte que tu veux voir ingérée par les agents codeurs ;
  • tu veux que Cursor, Windsurf, Claude Code répondent correctement aux questions sur ton outil ;
  • tu acceptes que ton contenu soit utilisé par les agents IDE sans contrôle granulaire.

N'implémente pas llms.txt si :

  • tu es éditeur de presse et tu négocies des accords de licence avec OpenAI/Anthropic ;
  • tu protèges activement ton contenu via robots.txt strict ou via paywall ;
  • tu cherches une augmentation de citations dans ChatGPT Search ou Perplexity (zéro effet mesuré) ;
  • tu n'as pas le temps de maintenir un fichier de plus.

La vraie question SEO IA en 2026 n'est pas "ai-je un llms.txt". C'est "est-ce que mon contenu est structuré, sourcé, daté et lisible par un crawler généraliste". Cela passe par les fondamentaux : balises sémantiques, schema.org, sitemap propre, maillage internal cohérent avec la cartographie des fan-out queries Google AI Mode. Le reste est du folklore standard, qui s'imposera ou pas selon les choix futurs des éditeurs de modèles.

Pour les agents IDE, en revanche, le fichier reste un bon investissement. Si tu fais de la doc produit et que tu veux que Cursor et Claude Code répondent juste sur ton outil, mets-le en place. C'est trente minutes de travail pour un gain mesurable côté UX agent.

À vous de tester sur votre stack.

Sources#

Lien copié dans le presse-papiers

À lire aussi