Robots.txt et sitemap.xml : guide technique SEO complet

Le robots.txt et le sitemap.xml sont les fondations invisibles du SEO technique. Un mauvais robots.txt bloque des sections entières. Un sitemap mal fichu noie Google dans des URLs mortes. À l'inverse, des fichiers propres aident les crawlers et améliorent l'indexation. C'est peu de travail pour un retour énorme.

C'est quoi un robots.txt#

Robots.txt est un fichier texte placé à la racine de votre domaine (https://exemple.fr/robots.txt). Il dit aux crawlers (Google, Bing, etc.) : « Quelles parties de mon site pouvez-vous crawler ? Lesquelles dois-je éviter ? »

Google le consulte automatiquement. Important : robots.txt contrôle le crawl, pas l'indexation. Deux choses différentes.

Structure de base#

User-agent: Googlebot
Disallow: /admin/
Disallow: /private/
Allow: /private/public/

User-agent: *
Crawl-delay: 5
Disallow: /temp/
Sitemap: https://example.fr/sitemap.xml

Directives principales du robots.txt#

User-agent#

Spécifie le crawler auquel s'adressent les directives.

User-agent: Googlebot → Instructions pour Google seulement
User-agent: * → Instructions pour tous les crawlers
User-agent: AhrefsBot → Instructions pour Ahrefs (le bot de l'outil SEO)
User-agent: GPTBot → Instructions pour le crawler d'OpenAI (voir le dilemme robots.txt face aux bots IA pour les bonnes pratiques)

Disallow#

Empêche un crawler de crawler un chemin spécifique.

Disallow: /admin/          # Bloque /admin/ et tout dessous
Disallow: /page.php        # Bloque une page spécifique
Disallow: /*.pdf$          # Bloque tous les PDFs (regex)
Disallow:                  # Autorise tout (par défaut si absent)

Allow#

Autorise le crawl d'un dossier dans un chemin bloqué (plus spécifique l'emporte).

User-agent: *
Disallow: /private/
Allow: /private/public/    # Cette sous-section est crawlable

Crawl-delay#

Pause entre les requêtes (en secondes). Réduit la charge serveur.

Crawl-delay: 5             # 5 secondes entre les requêtes

Google ignore généralement crawl-delay (utilise ses propres heuristiques). Utile pour les bots tiers comme Ahrefs.

Sitemap#

Indique le chemin de votre fichier sitemap.xml.

Sitemap: https://example.fr/sitemap.xml

Vous pouvez avoir plusieurs sitemaps listés.

Erreurs courantes dans robots.txt#

1. Bloquer accidentellement du contenu important#

Disallow: /*.php           # Bloque TOUTES les pages PHP

Si votre site tourne sur PHP, vous bloquez tout. Corrigez :

Disallow: /admin/*.php

2. Oublier les trailing slashes#

Disallow: /admin           # Bloque /admin mais PAS /admin/ (ils sont différents)
Disallow: /admin/          # Bloque /admin/ mais PAS /admin

Blocage cohérent ? Utilisez les deux ou utilisez une regex.

3. Bloquer CSS, JS, images#

Disallow: /css/
Disallow: /js/
Disallow: /images/

Mauvais. Google a besoin de crawler CSS et JS pour rendre les pages. Laissez-les accessibles. J'hésite d'ailleurs : est-ce que bloquer /images/ peut vraiment casser quelque chose, ou c'est juste une mauvaise pratique théorique ? J'ai vu un site avec /images/ bloqué qui perdait 40 % de son CTR parce que Google ne voyait pas les images des featured snippets.

4. Robots.txt sur 404 ou bloqué#

Si robots.txt retourne une 404 ou est bloqué par .htaccess, Google traite le site comme « pas de robots.txt » et crawle tout. Ce n'est pas un problème si vous voulez que tout soit crawlé, mais c'est confus.

Sitemap.xml : c'est quoi#

Un fichier XML qui liste vos URLs. C'est une roadmap pour Google.

Contrairement à robots.txt, le sitemap ne contrôle pas le crawl, il aide Google à découvrir des pages.

Structure de base#

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.fr/</loc>
    <lastmod>2025-08-14</lastmod>
    <changefreq>weekly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://example.fr/article-1/</loc>
    <lastmod>2025-08-10</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Tags du sitemap.xml#

loc#

L'URL de la page. Obligatoire.

<loc>https://example.fr/blog/seo-2026/</loc>

lastmod#

Date de dernière modification (YYYY-MM-DD). Optionnel mais recommandé.

<lastmod>2025-08-14</lastmod>

Google l'utilise pour déterminer si recrawler la page.

changefreq#

Fréquence de changement attendue : always, hourly, daily, weekly, monthly, yearly, never.

<changefreq>weekly</changefreq>

C'est un indice, pas une directive. Google peut l'ignorer.

priority#

Priorité relative (0.0 à 1.0). 1.0 = très important.

<priority>0.8</priority>

C'est relatif à votre propre site, pas à d'autres sites. Une page à 0.8 n'est pas plus importante qu'une à 0.6 sur un autre site.

Bonnes pratiques pour robots.txt#

1. Restez simple#

Plus robots.txt est complexe, plus il y a de bugs. Commencez minimal :

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /temp/
Sitemap: https://example.fr/sitemap.xml

Ajoutez des directives seulement si vous avez une raison spécifique.

2. Testez vos changements#

Utilisez l'outil Google Search Console > Robots.txt tester :

Allez dans Paramètres > Test du fichier robots.txt
Entrez un URL de votre site
Vérifiez si elle est autorisée ou bloquée

3. Autorisez les assets web#

Ne bloquez pas /css/, /js/, /images/. Google doit les crawler pour comprendre votre site.

4. Utilisez des chemins spécifiques#

Au lieu de Disallow: /, utilisez :

Disallow: /admin/
Disallow: /private/

Soyez précis.

5. Maintenez votre robots.txt#

Si vous déplacez des dossiers, supprimez des pages, ou lancez une refonte, mettez à jour robots.txt. Un robots.txt obsolète peut continuer à bloquer du contenu important.

Bonnes pratiques pour sitemap.xml#

1. Incluez les URLs canoniques seulement#

N'incluez pas les versions « m. » (mobile) ou « www » et « non-www » en même temps. Listez une version canonique par page.

2. Maintenez le sitemap à jour#

Si vous publiez un nouvel article, le sitemap devrait être mis à jour le jour même. Si le sitemap contient des URLs supprimées depuis 6 mois, c'est un signal de négligence technique.

Automatisez : utilisez un outil pour générer le sitemap automatiquement (Yoast, Rank Math, etc.) plutôt que manuellement.

3. Limitez le sitemap à 50 000 URLs#

Si vous avez plus de 50 000 URLs, divisez en plusieurs sitemaps et créez un sitemap index :

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.fr/sitemap-1.xml</loc>
  </sitemap>
  <sitemap>
    <loc>https://example.fr/sitemap-2.xml</loc>
  </sitemap>
</sitemapindex>

4. Pointez vers le sitemap dans robots.txt#

Ajoutez cette ligne à la fin de robots.txt :

Sitemap: https://example.fr/sitemap.xml
Sitemap: https://example.fr/sitemap-index.xml (si vous en avez plusieurs)

5. Déclarez dans Search Console#

Allez dans Search Console > Sitemaps et soumettez votre sitemap XML. Google crawlera plus agressivement les URLs listées.

Audit : tester votre robots.txt et sitemap#

Valider robots.txt#

Allez sur https://example.fr/robots.txt
Vérifiez que le fichier s'affiche correctement
Utilisez l'outil Google Search Console > Test robots.txt
Utilisez Screaming Frog pour crawler et vérifier les codes HTTP

Valider sitemap.xml#

Allez sur https://example.fr/sitemap.xml
Vérifiez que le XML est bien formé (Ctrl+F, cherchez <url> et comptez le nombre d'URLs)
Utilisez Google Search Console > Sitemaps pour voir l'état d'indexation
Comparez le nombre d'URLs dans le sitemap vs indexées

Si 100 URLs sont dans le sitemap mais seulement 50 indexées, enquêtez :

Erreurs 404 ?
Contenu duplicate ?
Pages bloquées par robots.txt ?
Métabalise noindex ?

Cas pratique : blog SEO de 200 articles#

Vous avez un blog avec 200 articles, une section admin, et une section privée (payante).

robots.txt optimal :

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /temp/
Disallow: /search?*
Crawl-delay: 2
Sitemap: https://monblog.fr/sitemap.xml

sitemap.xml :

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://monblog.fr/</loc>
    <lastmod>2025-08-14</lastmod>
    <changefreq>daily</changefreq>
    <priority>1.0</priority>
  </url>
  <!-- Répéter pour les 200 articles, avec lastmod de chaque article -->
  <url>
    <loc>https://monblog.fr/article-seo-2026/</loc>
    <lastmod>2025-08-14</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Conclusion#

robots.txt et sitemap.xml sont vos fondations techniques. Un robots.txt pourri tue le trafic. Un sitemap à jour aide Google.

Auditez-les maintenant. Vous allez trouver des bugs. Trente minutes de nettoyage = +5-10 % d'indexation potentielle. Du SEO facile.

Robots.txt et sitemap.xml : guide technique SEO complet

C'est quoi un robots.txt#

Structure de base#

Directives principales du robots.txt#

User-agent#

Disallow#

Allow#

Crawl-delay#

Sitemap#

Erreurs courantes dans robots.txt#

1. Bloquer accidentellement du contenu important#

2. Oublier les trailing slashes#

3. Bloquer CSS, JS, images#

4. Robots.txt sur 404 ou bloqué#

Sitemap.xml : c'est quoi#

Structure de base#

Tags du sitemap.xml#

loc#

lastmod#

changefreq#

priority#

Bonnes pratiques pour robots.txt#

1. Restez simple#

2. Testez vos changements#

3. Autorisez les assets web#

4. Utilisez des chemins spécifiques#

5. Maintenez votre robots.txt#

Bonnes pratiques pour sitemap.xml#

1. Incluez les URLs canoniques seulement#

2. Maintenez le sitemap à jour#

3. Limitez le sitemap à 50 000 URLs#

4. Pointez vers le sitemap dans robots.txt#

5. Déclarez dans Search Console#

Audit : tester votre robots.txt et sitemap#

Valider robots.txt#

Valider sitemap.xml#

Cas pratique : blog SEO de 200 articles#

Conclusion#

À lire aussi

Open Graph : optimiser l'aperçu de vos pages sur les réseaux sociaux

Core Update mars 2026 : les sites thin content e-commerce dans le viseur

GPTBot, ClaudeBot, Bytespider : le dilemme robots.txt des éditeurs en 2026