Aller au contenu
llms.txt : le standard qui voulait parler aux IA

llms.txt : le standard qui voulait parler aux IA

Par Guillaume P.

9 min de lecture
Lien copié dans le presse-papiers
Guillaume P.

Soyons honnêtes deux minutes. llms.txt, c'est le fichier que tout le monde recommande, que personne ne lit, et qui ne sert probablement à rien. J'ai passé trois semaines à creuser le sujet pour un client qui voulait absolument en poser un sur son site e-commerce. Résultat : je lui ai dit de ne pas le faire. Voilà pourquoi.

Le concept est séduisant sur le papier. Un petit fichier Markdown à la racine, qui dit aux IA génératives : "voilà mes contenus importants, voilà comment les lire proprement". Un robots.txt pour LLM, en plus gentil. Jeremy Howard, le fondateur d'Answer.AI, a proposé le standard le 3 septembre 2024. L'idée a fait le tour du web SEO en trois semaines. Et depuis ? Depuis, le terrain raconte une autre histoire.

Ce que llms.txt est vraiment (et ce qu'il n'est pas)#

Pour approfondir ce sujet, consultez notre article sur BIG SEO 2026 : ce qu'il faut retenir de la 7e édition CyberCité.

La spécification est simple. Un fichier llms.txt à la racine du domaine, en Markdown. Un H1 obligatoire pour le nom du projet. Un blockquote optionnel pour le résumé. Du texte libre. Puis des sections H2 avec des listes de liens vers des pages .md complémentaires. Une section Optional peut regrouper ce que l'IA peut ignorer si elle manque de contexte. Fin.

Le but affiché : donner aux LLM une version épurée, structurée, pré-digérée de votre contenu. Pas de nav, pas de footer, pas de JS, pas de bannières cookies. Juste le jus.

Première confusion à évacuer. llms.txt n'est pas un robots.txt. Le robots.txt dit "ne lis pas ça". Le llms.txt dit "lis ça en priorité". L'un exclut, l'autre cure. Ils ne s'opposent pas, ils se complètent, en théorie. En théorie.

Deuxième confusion. Ce n'est pas un standard. Ni IETF, ni W3C, ni rien d'officiel. C'est une proposition unilatérale d'Answer.AI que quelques éditeurs ont suivie. Si quelqu'un vous vend llms.txt comme "le nouveau standard du web", changez de prestataire.

L'adoption, ce mirage statistique#

C'est là que les chiffres deviennent intéressants. Et contradictoires.

Selon BuiltWith (octobre 2025), 193 522 sites auraient un llms.txt en production, dont 95 423 aux États-Unis. Impressionnant, sauf que la méthodologie BuiltWith reste opaque et que la source est moyenne. À prendre avec les pincettes habituelles.

Rankability a fait plus sérieux en juin 2025 : sur les 1 000 sites les plus visités au monde, 3 avaient un llms.txt. Trois. Zéro virgule trois pour cent. SE Ranking, sur un panel plus large d'environ 300 000 domaines, remonte à 10,13 %. Les écarts entre études sont tellement grands qu'une seule conclusion tient : l'adoption est fragmentée et concentrée sur les petits et moyens sites. Les mastodontes s'en tapent.

Sur le top 50 des domaines les plus cités mondialement, un seul a franchi le pas : Target.com. Walmart a tenté le coup en novembre 2025, puis retiré son fichier avant janvier 2026. Quand Walmart recule en deux mois, c'est qu'il n'y a pas de ROI mesurable.

Les adoptants sérieux qu'on cite en exemple sont toujours les mêmes. Anthropic, pour ses docs. Cloudflare, par produit. Stripe, par catégorie. Des entreprises tech qui documentent des APIs. Le cas d'usage est là : de la doc technique structurée. Pas votre blog de cuisine ni votre landing page SaaS.

Petit détail qui en dit long : Anthropic publie un llms.txt de 8 364 tokens (l'index) et un llms-full.txt de 481 349 tokens qui contient l'intégralité de la doc API. C'est un cas d'usage doc, pas un cas d'usage marketing.

Google a dit non. Clairement.#

Le 24 juillet 2025, Gary Illyes, analyste Google, a tranché publiquement : "Google doesn't support LLMs.txt and isn't planning to." Et il a ajouté une phrase qui devrait être imprimée au-dessus de chaque bureau SEO : "To get your content to appear in AI Overview, simply use normal SEO practices."

Traduction en français, avec mon propre vocabulaire : faites du bon SEO, le reste est du bruit.

L'ironie croustillante, c'est que Google a lui-même uploadé un llms.txt sur ses Search Central docs, avant de le retirer. Lidia Infante a repéré le truc le 3 décembre 2025. Interrogé, John Mueller a lâché un simple "no" pour confirmer que ce n'était pas un endorsement. Quelqu'un a testé en interne, ça n'a pas convaincu, retour en arrière. Voilà comment naissent les rumeurs de validation qui n'existent pas.

Mueller a aussi eu cette comparaison cinglante quelque part entre deux threads : llms.txt évoque la balise meta keywords. Rappel pour les plus jeunes : la meta keywords permettait de lister les mots-clés de sa page. Elle a été abandonnée parce qu'elle était manipulable à souhait et que personne ne pouvait la vérifier. Même problème ici : vous déclarez ce que vous voulez dans votre llms.txt, rien n'impose que le contenu cité soit représentatif de votre site.

Personne ne le lit. Vraiment.#

C'est le point qui devrait clore le débat. Les crawlers IA majeurs (GPTBot d'OpenAI, ClaudeBot d'Anthropic, PerplexityBot) ne requêtent pas automatiquement llms.txt. Aucun. Les logs serveur des éditeurs qui ont testé sont sans appel.

Ray Martinez a documenté une exception amusante : OpenAI a crawlé un site toutes les 15 minutes environ, y compris le llms.txt. Un seul site, un comportement anormal, probablement un test interne. Rien de généralisable.

Du côté d'Anthropic, la granularité est dans robots.txt, pas dans llms.txt. Trois crawlers distincts gérables indépendamment : ClaudeBot pour l'entraînement, Claude-User pour répondre à un utilisateur, Claude-SearchBot pour l'indexation. Si vous voulez contrôler finement l'accès des IA à votre contenu, c'est là que ça se passe. Pas dans un fichier Markdown que personne ne demande.

Perplexity, de son côté, ignore purement et simplement le robots.txt dans certaines situations (Malwarebytes l'a documenté en 2025). Alors un llms.txt…

La corrélation est nulle. Littéralement.#

La partie la plus frappante de l'enquête SE Ranking vient d'un modèle XGBoost entraîné pour prédire les citations IA à partir de dizaines de variables. Le modèle a analysé 94 614 URLs citées par des LLM. Résultat brut : zéro pointait vers des pages référencées dans un llms.txt. Zéro.

Mieux : quand les chercheurs ont retiré le facteur llms.txt des variables du modèle, les prédictions se sont améliorées. Autrement dit, inclure llms.txt dans l'équation dégrade la qualité de la prédiction. Ce n'est pas un facteur neutre. C'est un facteur négatif faible.

Le problème : on vend aux clients un levier qui n'en est pas un. La solution : arrêter.

Le vrai sujet : le GEO, pas llms.txt#

Attention à ne pas jeter le bébé avec l'eau du bain. Se faire citer par les IA, ça marche. Mais pas via ce fichier.

Une étude arXiv conjointe Princeton et IIT Delhi a mesuré l'impact de différents leviers sur la visibilité dans les moteurs génératifs (GEO au sens large, pas llms.txt). Les citations d'experts dans le texte apportent +40 % de visibilité IA. Les statistiques intégrées, +35 à 40 %. Les sites déjà bien positionnés en SEO classique tirent le plus : +30 % pour les top-1, et jusqu'à +115 % pour les sites en position 5 qui appliquent les bonnes pratiques GEO. Important : ces chiffres concernent le GEO dans son ensemble, pas llms.txt en particulier. Je préfère le préciser avant que quelqu'un me sorte le tableau hors contexte dans un meeting.

Ce qui marche vraiment pour être cité : l'autorité d'entité, les mentions tierces, les formats structurés (listicles, tables), les statistiques haut dans le texte, la cohérence du branding. Tout ce que je détaille dans entity SEO et autorité d'entité pour les LLM, et qui repose sur du vrai travail éditorial, pas sur un fichier Markdown à la racine.

Si vous voulez contrôler ce que les bots font sur votre site, le levier technique reste le robots.txt et la gestion des crawlers IA éditeurs. Et si vous réfléchissez à où mettre vos efforts marketing alors que le trafic organique décroche, j'en parle dans email marketing et audience propriétaire.

Ce que je ferais à votre place#

Trois cas de figure, trois réponses.

Vous publiez de la doc technique d'API. Posez un llms.txt. Pas parce que les crawlers le lisent automatiquement, mais parce qu'un dev qui veut nourrir un LLM avec votre doc ira le chercher manuellement. Cas d'usage Stripe, Cloudflare, Anthropic. Ça a du sens.

Vous éditez un blog, un e-commerce, un site corporate classique. Ne posez rien. Vous perdrez plus de temps à maintenir le fichier qu'il ne vous rapportera de visibilité. Investissez ce temps dans du contenu citable : stats, quotes d'experts, structure claire, E-E-A-T. C'est ça qui déclenche les citations.

Vous avez un client qui insiste. Expliquez-lui les trois choses qui comptent : Google l'a rejeté publiquement, les crawlers ne le lisent pas, la corrélation mesurée est nulle. Si après ça il insiste encore, facturez le temps passé et posez un fichier minimal avec trois liens. Pas de plan complet, pas de llms-full.txt à 500 000 tokens. Le minimum syndical pour qu'il dorme tranquille.

Le vrai sujet en 2026 n'est pas comment parler aux IA via un fichier magique. C'est comment devenir une source que les IA trouvent crédible, quelle que soit la façon dont elles vous lisent. Et ça, ça passe par du travail éditorial, pas par un Markdown à la racine.

Résultat : llms.txt rejoindra probablement le cimetière des bonnes idées SEO mal nées. À côté de la meta keywords. Mueller avait raison.

Sources#

Lien copié dans le presse-papiers

À lire aussi