Retour au blog SEO Technique - 8 min

Robots.txt : configuration correcte et pièges qui peuvent ruiner votre SEO

Un robots.txt mal configuré peut bloquer Google et détruire votre indexation. Guide pratique pour configurer ce fichier crucial sans commettre les erreurs courantes.

Le fichier robots.txt est l'un des fichiers les plus simples et les plus dangereux de votre site web. Une seule ligne mal placée peut bloquer Googlebot et empêcher l'indexation de tout votre contenu. Un Disallow: / accidentellement laissé en production — erreur classique après une migration — peut faire chuter votre trafic organique à zéro en quelques semaines.

Fonctionnement du robots.txt

Le fichier robots.txt est situé à la racine de votre domaine : https://votresite.fr/robots.txt

Il contient des directives pour les robots (crawlers) qui respectent le protocole d'exclusion des robots. Sa structure de base :

``User-agent: * Disallow: /admin/ Allow: /admin/ressource-publique/ Sitemap: https://votresite.fr/sitemap.xml``

Composants :

User-agent : Le robot ciblé (* = tous les robots)
Disallow : Chemins interdits à l'exploration
Allow : Exceptions aux règles Disallow
Sitemap : Localisation du sitemap XML

Important : robots.txt est une recommandation, pas une interdiction absolue. Les robots malveillants l'ignorent délibérément. Il ne protège pas vos données confidentielles — pour ça, utilisez des mécanismes d'authentification.

Ce qu'il faut et ne faut pas bloquer

À bloquer (généralement)

```
# Administration WordPress
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php # Exception nécessaire pour AJAX

# Fichiers de configuration
Disallow: /wp-config.php
Disallow: /xmlrpc.php

# Pages sans valeur SEO
Disallow: /wp-login.php
Disallow: /wp-includes/
```

À NE PAS bloquer

``# Ne jamais bloquer vos contenus publics # Ne jamais bloquer votre sitemap # Ne jamais bloquer le CSS et JS nécessaires au rendu``

Piège historique : Pendant des années, les bonnes pratiques conseillaient de bloquer CSS et JS pour économiser le budget de crawl. Depuis 2014, Google a besoin de ces ressources pour rendre vos pages comme un navigateur et évaluer l'expérience utilisateur. Bloquer CSS/JS dégrade votre évaluation par Google.

Les pièges les plus courants

Piège 1 : Disallow global laissé en production

C'est l'erreur numéro 1, souvent commise lors de migrations :

``# Bloque TOUT votre site User-agent: * Disallow: /``

Cette configuration, légitime en développement pour éviter l'indexation d'un site en cours de construction, est catastrophique laissée en production.

Comment ça arrive : Le développeur configure un Disallow: / sur l'environnement de staging, puis copie les fichiers en production sans ajuster le robots.txt.

Vérification : Après toute migration, vérifiez immédiatement https://votresite.fr/robots.txt.

Piège 2 : Bloquer des URLs nécessaires au rendu

Si votre CSS ou votre JavaScript est dans un dossier bloqué, Google ne peut pas rendre vos pages correctement. Il voit un contenu "cassé" et l'évalue moins favorablement.

Piège 3 : Bloquer des pages déjà bloquées par noindex

Bloquer un chemin dans robots.txt empêche Google de crawler la page, mais pas de la connaître. Si Google voit des liens vers une URL bloquée, il l'inclura dans son index sans l'explorer — sans pouvoir lire le noindex dans le HTML.

Règle : Pour déindexer une page, utilisez noindex (pas robots.txt). Pour préserver le budget de crawl sur des pages inutiles, utilisez robots.txt.

Piège 4 : Règles conflictuelles

``User-agent: * Disallow: /blog/ Allow: /blog/article-important/``

La règle Allow plus spécifique prévaut sur le Disallow général — Google explorera /blog/article-important/ mais pas le reste de /blog/. C'est le comportement attendu, mais assurez-vous que c'est votre intention.

robots.txt et sécurité : une erreur à ne pas commettre

Ne listez pas vos répertoires sensibles dans robots.txt en pensant les cacher :

``# MAUVAISE PRATIQUE - Vous révélez l'existence de ces chemins Disallow: /sauvegarde-base-donnees/ Disallow: /fichiers-confidentiels/ Disallow: /backup/``

Le fichier robots.txt est public. En listant ces chemins, vous informez les hackers de l'emplacement exact de vos ressources sensibles. Utilisez l'authentification pour protéger ces ressources.

Surveiller votre robots.txt

Votre robots.txt peut être modifié lors de mises à jour de plugins ou de thèmes. Un changement accidentel peut bloquer des pans entiers de votre site. Incluez-le dans votre checklist de surveillance mensuelle.

Articles connexes : Balise meta robots | Sitemap XML | Canonical tag

Surveiller mes URL