Qu'est-ce que l'Encyclopédie du Webmaster ?

L'encyclopédie de l'Internet fournit aux Webmasters la connaissance de base sur les mots utilisés en Informatique et Internet. Elle inclus donc les anglicismes qu'utilisent les développeurs de logiciels, les hackers et le monde "interne" de la programmation. L'encyclopédie de l'Internet est une source gratuite de mariposa.eu.com destinée aux débutants et aux professionnels.

Qu'est-ce que le robots.txt ?


Le fichier robots.txt est, comme déjà son nom dit, destiné aux robots qui fouillent quotidiennement l'Internet à la recherche de nouveaux sites. La majorité de ces robots suivent aujourd'hui du protocole selon lequel chaque robot doit d'abord vérifier s'il y a un tel fichier existant et quelles directives s'y trouvent. Il est donc logique que chaque site doit disposer d'un fichier robots.txt et que tous les directives doivent se trouver dans un seul fichier.
 
Mais il n'y a pas seulement de robots honnêtes sur Internet. Il y en a aussi qui récupèrent exclusivement les adresses mail ou fouillent les sites pour trouver de formulaires non sécurisés et envoyer du spam par ces formulaires. De tels robots n'acceptent évidemment aucun protocole et ne lisent pas le contenu du fichier robots.txt. Pour les empêcher à scruter nos pages il faut donc utiliser, par exemple, le fichier .htaccses.
 
Un fichier robots.txt se compose très souvent que de quelques lignes mais peut aussi devenir un fichier assez complexe si le Webmaster doit se diriger à plusieurs robots individuellement. La raison peut être que certaines pages du site soient optimisées pour de divers robots.
 
Pour établis un fichier robots.txt correctement, il est nécessaire de se baser sur la structuration du site. Vouloir écrire les robots exclusions après qu'un site soit terminé est impossible, sauf pour de "mini sites" de moins de 20 pages.
 
Le fichier robots.txt ne dirige les robots pas vers certaines pages mais leur "explique" quelles pages ou dossiers ils ne doivent pas indexer, donc inclure dans leur base de données. Cela devient très important s'il y a des pages que certains moteurs de recherche ne doivent pas voir, si le Webmaster utilise des pages dynamiques, s'il y a des pages qui demandent un login ou s'il y a d'autres problèmes d'optimisation que seule le fichier robots.txt peux résoudre.
 
Un fichier minimal peut donc prendre l'aspect suivant :
 
User-Agent: *
Disallow: /repertoire/

 
Il est logique que chaque caractère, aussi les espaces jouent un rôle. L'extension du fichier est .txt. Le fichier doit se trouver à la racine du site, donc au même niveau que le fichier index.html.
 
La première ligne se dirige aux robots. Si nous utilisons l'astérixe (*), cela veut dire que les directives qui suivent sont destinées à tous les moteurs de recherche. Si le Webmaster s'adresse seulement à Alta Vista, il remplace l'astérixe par le nom du robot, donc Scooter :
 
User-Agent: Scooter
Disallow: /repertoire/

 
Chaque robot a un nom, de la manière qu'on puisse s'adresser à chaque robot qui existe sur Internet individuellement. Pour savoir plus sur les noms des robots, une visite de la page suivante s'impose :
Noms des robots
 
La deuxième ligne (et les suivantes) inclut les règles d'exclusion. Après le mot Disallow se trouve donc le chemin qui est interdit aux robots en question. Il peut s'agir d'un seul fichier, d'un dossier ou de plusieurs chemins consécutifs. Un exemple donc qui se dirige au Google :
 
User-Agent: Googlebot
 
Disallow: /repertoire1/
Disallow: /repertoire2/page15.html
Disallow: /repertoire3/page17.html

 
Il y a une seule indication obligatoire dans les robots.txt qui montre aux robots un chemin à suivre. Il s'agit de l'indication à quel endroit se trouve le fichier sitemap.xml. Le fichier se compose donc de lignes suivantes :
 
User-Agent: *
 
Disallow: /repertoire1/
Disallow: /repertoire2/page15.html
Disallow: /repertoire3/page17.html
 
Sitemap: http://www.domaine.net/sitemap.xml

 
Il y a encore une ligne supplémentaire qui, malheureusement, n'est pas lu par tous les robots, dont Google. Il s'agit de l'espace de temps en secondes dans lequel les robots peuvent revenir s'il y un problème de réponse du serveur. L'information dans quel rythme les robots doivent revenir trouve sa place dans le fichier sitemap.xml. Voici donc un exemple qui informe les robots qu'ils doivent laisser 30 secondes entre deux visites :
 
User-Agent: *
 
Disallow: /repertoire1/
Disallow: /repertoire2/page15.html
Disallow: /repertoire3/page17.html
 
Crawl-delay: 30
 
Sitemap: http://www.domaine.net/sitemap.xml

 
Pour clore les robots.txt, encore un fichier un peu plus complexe, sans toutefois exploiter toutes les possibilités. La seo academy enseigne ce sujet en profondeur.
 
User-Agent: Alexa
 
Disallow: /repertoire1/
 
User-Agent: Voila
 
Disallow: /repertoire2/page15.html
 
User-Agent: *
 
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /repertoire3/page17.html
 
Crawl-delay: 14
 
Sitemap: http://www.domaine.net/sitemap.xml

 
Des explications plus détaillées se trouvent sous l'adresse suivante :
Google aide aux Webmasters.
 
Un fichier robots.txt correctement rédigé, le Webmaster place les fichiers à exclure toujours dans de dossiers et écrit un minimum de lignes, même si on pourrait exclure chaque page individuellement. Les règles de l'optimisation interdit cette écriture chaotique et les robots ne l'aiment pas trop non plus.
 
 
mot prochain : sitemap.xml
 
Copyright 2007, mariposa.eu.com
 
* Les mots en gras font partie de notre Lexique d'Informatique